【摘要】:作为一个企业级的实时流处理应用,如果缺乏与诸如Kafka或Flume等进行整合的话,这种大数据流处理应用可以说是不完整的。在后面的TCP数据源案例与解析部分,也会给出添加Spark部署的全部lib下的jar包的案例。
作为一个企业级的实时流处理应用,如果缺乏与诸如Kafka或Flume等进行整合的话,这种大数据流处理应用可以说是不完整的。
本节以Spark Streaming的外部数据源,Kafka和Flume进行案例实践与分析,建立接入外部数据源的基础案例之后,可以在数据的处理上使用Spark Streaming或RDD提供的高层次API对数据进行业务相关的处理。
构建Spark Streaming应用程序和开发一个Spark的应用程序一样,需要依赖于SparkStreaming的jar包,下面给出构建Spark Streaming应用程序的三种方式。
1.基于SBT进行构建
需要在对应的构建文件中添加依赖:
2.基于Maven进行构建(www.xing528.com)
需要在对应的构建文件中添加依赖:
3.使用IDEA进行构建
通过IDEA添加Libraries,这部分的详细操作可以参考章节2.4.2基于IDEA构建Spark应用程序的案例部分。在后面的TCP数据源案例与解析部分,也会给出添加Spark部署的全部lib下的jar包的案例。
说明:由于SBT和Maven的构建方式类似,后续将基于SBT和IDEA给出基础的应用程序构建案例与分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。