高效实时数据处理 with Spark

时间：2023-07-01 理论教育版权反馈

【摘要】：Spark 使用Scala 作为应用框架，采用基于内存的分布式数据集，优化了迭代式的工作负载及交互式查询。Spark 中实时数据处理技术具体指的是SparkStreaming。SparkStreaming 是Spark 核心的扩展，支持实时数据处理，提供了一种抽象的连续数据流，即Discretized Stream，简称为DStream。Spark Streaming 在内部的处理机制是，接收实时流的数据，并根据一定的时间间隔拆分成一批一批的数据，然后通过Spark Engine 处理这些批数据，最终得到处理后的一批一批结果数据。

高效实时数据处理 with Spark

Spark 提供强大的内存计算引擎，几乎涵盖了所有典型的大数据计算模式，包括迭代计算、批处理计算、内存计算、流式计算（Spark Streaming）、数据查询分析计算（Shark）及图计算（GraphX）。Spark 使用Scala 作为应用框架，采用基于内存的分布式数据集，优化了迭代式的工作负载及交互式查询。与Hadoop 不同的是，Spark 和Scala 紧密集成，Scala 像管理本地collective 对象那样管理分布式数据集。Spark 支持分布式数据集上的迭代式任务，实际上也可以基于Hadoop 生态圈中的Yarn 资源调度框架运行。

Spark 中实时数据处理技术具体指的是SparkStreaming。SparkStreaming 是Spark 核心的扩展，支持实时数据处理，提供了一种抽象的连续数据流，即Discretized Stream，简称为DStream。Spark Streaming 在内部的处理机制是，接收实时流的数据，并根据一定的时间间隔拆分成一批一批的数据，然后通过Spark Engine 处理这些批数据，最终得到处理后的一批一批结果数据。与其他流式处理框架相比，SparkStreaming 的优点是吞吐量大，可以人为控制接收数据时间来控制数据的流量，同时，提供高可靠的数据保证，保证数据不丢失及精准消费一次数据。(www.xing528.com)

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

高效实时数据处理 with Spark

相关推荐

高效实时数据处理 with Spark

有关Spark大数据实时分析实战的文章

相关推荐