大数据价值的有效性离不开大分析、大带宽和大内容三大要素。大内容和大带宽通过大数据获取及存储环节来实现,是大数据实现的前提条件和基础支撑;大分析是大数据处理的核心内容,也是大数据的实现途径。大分析是通过创新性的数据分析方法实现对大量数据的快速、高效、及时的分析与计算,得出跨数据间的、隐含于数据中的规律、关系和内在逻辑,帮助用户理清事件背后的原因、预测发展趋势、获取新价值。
大数据的计算模式可以分为批量计算和流式计算两种形式。批量计算首先进行数据存储,然后对存储的静态数据进行集中计算。Hadoop是典型的大数据批量计算架构,由HDFS分布式文件系统负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现。流式计算中,无法确定数据的到来时刻和到来顺序,也无法将全部数据存储起来,因此不再进行流式数据的存储,而是当流动的数据到来后再内存中直接进行数据的实时计算,数据在任务拓扑中被计算,并输出有价值的信息。
流式计算和批量计算分别适用于不同的大数据应用场景:对于先存储后计算,实时性要求不高,同时数据的准确性、全面性更为重要的应用场景,批量计算模式更为合适;对于无需先存储,可以直接进行数据计算,实时性要求很严格,但数据的精确度要求稍微宽松的应用场景,流式计算具有明显优势。流式计算中,数据往往在最近一个时间窗口内,因此数据延迟往往较短,实时性较强,但数据的精确程度往往较低。
大连市智慧水务建设在分析水务日常管理和应急管理中的不同场合和不同阶段的数据计算要求的基础上,利用流式计算和批量计算,具有明显的优劣互补特征,将两者结合起来使用,发挥流式计算的实时性优势和批量计算的计算精度优势。(www.xing528.com)
大连市智慧水务建设利用研究相对成熟的批量计算相关技术,选用在理论上和实践中均已取得显著成果的高效、稳定的批量计算系统,可以避免技术风险。
大连市智慧水务流式计算系统要在充分评估现有的流式计算系统(如Twitter的Storm系统、Hadoop的数据分析系统HStreaming、Berkeley的交互式实时计算系统Spark、专门进行复杂事件处理的Esper系统等)的基础上,结合业务需求进行综合比较,选择较为成熟的系统构建。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。