首页 理论教育 数据计算模式:批处理和流处理

数据计算模式:批处理和流处理

时间:2023-06-26 理论教育 版权反馈
【摘要】:不同业务需求及不同类型的数据,需要不同的计算处理模式,大数据计算模式主要包括批处理和流处理两种。批处理模式是指先存储数据再批处理的模式。MapReduce编程模型是一种具有代表性的数据批处理模式,它由Google公司于2004年所提出。MapReduce的核心设计思想是将问题分而治之,多个Map任务并发处理分成多个模块的数据,从而有效地避免数据传输过程中产生的大量通信开销。数据流具有持续到达、产生速度快和变化快等特征。

数据计算模式:批处理和流处理

不同业务需求及不同类型的数据,需要不同的计算处理模式,大数据计算模式主要包括批处理和流处理两种。

(1)批处理模式。

批处理模式是指先存储数据再批处理的模式。MapReduce编程模型是一种具有代表性的数据批处理模式,它由Google公司于2004年所提出。首先,其对源数据进行分块;其次,不同的Map任务分别处理分块后的数据,Map任务解析出输入数据的key/value对集合;然后,执行Map函数,并将得到的中间结果写入本地硬盘。接着,Reduce任务从硬盘上读取数据,依据key值排序和分组数据;最后,Reduce函数输出最终结果。MapReduce的核心设计思想是将问题分而治之,多个Map任务并发处理分成多个模块的数据,从而有效地避免数据传输过程中产生的大量通信开销。(www.xing528.com)

(2)流处理模式。

流处理模式的是指及时处理新的数据并实时给出所需结果的处理模式。网页点击数的实时统计、金融中的高频交易等都属于大数据流处理模式的应用场景。流处理模式将数据视为流,通常不会永久化存储所有数据。数据流具有持续到达、产生速度快和变化快等特征。由于其具有高响应的应用要求,通常在内存中完成流处理的过程。目前,内存容量是限制流处理模式的主要瓶颈之一。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈