首页 理论教育 SparkStreaming介绍与应用

SparkStreaming介绍与应用

时间:2023-06-21 理论教育 版权反馈
【摘要】:Spark Steaming是基于Apache Spark核心API构建的一套并发流处理库,其对实时流数据的处理具备可扩展性、高吞吐量和可容错性等特点。Spark Steaming接收实时的输入数据流,并将数据分割成批数据供Apache Spark核心系统处理,经Apache Spark系统处理数据后,得到最终的结果批数据。图4-2 Spark Steaming内部工作机制Spark Steaming提供了一个名为离散流的高级系统抽象,用于表示连续的数据流。

SparkStreaming介绍与应用

Spark Steaming是基于Apache Spark核心API构建的一套并发流处理库,其对实时流数据的处理具备可扩展性、高吞吐量和可容错性等特点。Spark Steaming输入数据的来源既可以是Kafka、Flume、Twitter、ZeroMQ、Kinesis等消息队列系统,也可以是传统的TCP套接字传输的原生数据,如图4-1所示,系统中的流数据经由map、reduce、join、window等高级函数接口构建而成的算法模块,如机器学习算法、图计算算法处理,最终生成的数据可被存储或推送到文件系统、数据库或实时监控页面中。

978-7-111-52928-6-Part02-84.jpg

图4-1 Spark Steaming的输入与输出

Spark Steaming的内部工作机制,如图4-2所示。Spark Steaming接收实时的输入数据流,并将数据分割成批数据(Batches)供Apache Spark核心系统处理,经Apache Spark系统处理数据后,得到最终的结果批数据。(www.xing528.com)

978-7-111-52928-6-Part02-85.jpg

图4-2 Spark Steaming内部工作机制

Spark Steaming提供了一个名为离散流(Discretized Stream,简称DStream)的高级系统抽象,用于表示连续的数据流。在系统内部,DStream由一系列的RDD构成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈