【摘要】:Spark 使用Scala 作为应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载及交互式查询。Spark 中实时数据处理技术具体指的是SparkStreaming。SparkStreaming 是Spark 核心的扩展,支持实时数据处理,提供了一种抽象的连续数据流,即Discretized Stream,简称为DStream。Spark Streaming 在内部的处理机制是,接收实时流的数据,并根据一定的时间间隔拆分成一批一批的数据,然后通过Spark Engine 处理这些批数据,最终得到处理后的一批一批结果数据。
Spark 提供强大的内存计算引擎,几乎涵盖了所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark) 及图计算(GraphX)。Spark 使用Scala 作为应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载及交互式查询。与Hadoop 不同的是,Spark 和Scala 紧密集成,Scala 像管理本地collective 对象那样管理分布式数据集。Spark 支持分布式数据集上的迭代式任务,实际上也可以基于Hadoop 生态圈中的Yarn 资源调度框架运行。
Spark 中实时数据处理技术具体指的是SparkStreaming。SparkStreaming 是Spark 核心的扩展,支持实时数据处理,提供了一种抽象的连续数据流,即Discretized Stream,简称为DStream。Spark Streaming 在内部的处理机制是,接收实时流的数据,并根据一定的时间间隔拆分成一批一批的数据,然后通过Spark Engine 处理这些批数据,最终得到处理后的一批一批结果数据。与其他流式处理框架相比,SparkStreaming 的优点是吞吐量大,可以人为控制接收数据时间来控制数据的流量,同时,提供高可靠的数据保证,保证数据不丢失及精准消费一次数据。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。