数据架构中的分层策略是基于数据应用的角度、按照数据的生命周期进行设计的,本身就具备了以不变应万变的能力,因此数据处理技术发展对数据架构的影响目前只是体现在对数据分布策略和数据流转策略的影响。
前面我们讨论了大数据技术、分布式处理伴随着互联网金融对数据架构的影响。但是,大数据时代的新型数据处理技术是百花齐放,五彩多姿的,这些新的技术发展特征,也会对数据处理产生影响,进而影响数据架构设计。我们选择了几种重要的技术进行分析。
1.内存处理技术
内存处理技术应用越来越广泛,无论是关系型数据库的内存技术还是大数据发展基于内存的spark技术,以及内存的决策引擎都是内存技术的应用。内存技术既可支持基于规则的复杂计算,还可以支持大规模数据复杂关联应用,减少I/O操作,提升数据处理效率。
1)在数据整合层采用基于内存技术的规则引擎,部署实时分析决策平台,提升实时决策的能力。
2)在数据整合层和数据应用层的复杂处理过程中,采用内存进行加速。通过大内存承载更多的大型复杂查询处理,为原有的数据分析应用加速。
2.列式数据库技术
关系型数据库从行数据库技术到纯列式或者混合列式技术的转变,以及大数据平台(www.xing528.com)
中Hbase等对列式技术的使用,其目的是增加压缩比,提高I/O效率。但是列式技术的劣势在于针对数据的逐行的定位和全字段的获取,特别是在逐笔的删除和修改中,性能不佳。因此列式技术并不能在数据产生环节发挥大的作用,长于日志数据和事件数据的存储分析,适合用在数据整合的共性加工层,并在数据应用层支持多维模型存储和访问处理中发挥特长和价值。
3.线形可扩展的低成本服务器(X86)与存储
这是典型的大数据技术趋势,让数据的处理和存储成本更加低廉。同样这种技术可以应用在价值密度高的传统数据处理和存储,淡化了在架构理论中用时间和空间置换成本的概念。通过数据的预加工、存储中间结果、适度冗余部分数据,来满足业务处理和访问的时效性,而不必过多地考虑设备成本。副作用是重复加工和冗余存储可能导致新的数据不一致,所以在数据管控上需要适度加强。
4.流式处理技术
无论是互联网产生的碎片化信息,还是物联网产生的传感器数据,都具备一个非常重要的特征就是流状态。流的两个特征:一是时效性高;二是价值密度低。由此出现了流式处理技术。流式技术可以处理实时分析,数据产生的同时进行数据流的传输,基于流处理引擎进行清洗、转换、加载和分析处理,提高数据的价值密度。流式技术在数据架构中应该被应用于技术数据产生和消息总线的实时决策分析,以及数据整合平台的前置ETL处理等场景。
数据加上强大的计算会越来越有价值,目前各种技术并存,归纳起来就是开放、开源、并行处理、分布式处理、逐步低成本化。每种新的技术都有其优势和劣势,都有其适合的应用场景。无论这些技术如何发展,最终都是给我们提供了更多的数据处理手段。在没有颠覆基本的数据分层策略的基础上,给了我们在数据分布、流转和应用等方面提供了更多的选择。在规划和调整数据架构时,密切跟踪当前新的数据处理技术,结合技术的变化,因地制宜地调整数据分布和流转策略,最大程度地满足业务需求。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。