大数据采集后的环节是存储,大数据存储需要关注数据热度、数据存储与备份要求、基于云的大数据存储。
1)数据的热度
大数据时代,首先意味着数据的容量在急剧扩大,这对于数据存储和处理的成本带来了很大的挑战。采用传统的统一技术来存储和处理所有数据的方法将不再适用,而应针对不同热度的数据采用不同的技术进行处理,以优化存储和处理成本并提升可用性。
所谓数据的热度,即根据数据的价值、使用频次、使用方式的不同,将数据划分为热数据、温数据和冷数据。热数据一般指价值密度较高、使用频次较高、支持实时化查询和展现的数据;冷数据一般指价值密度较低、使用频次较低、用于数据筛选、检索的数据;而温数据介于两者之间,主要用于进行数据分析。
2)数据的存储与备份要求
不同热度的数据,应采用不同的存储和备份策略:
冷数据,一般包含企业所有的结构化和非结构化数据,它的价值密度较低,存储容量较大,使用频次较低,一般采用低成本、低并发访问的存储技术,并要求能够支持存储容量的快速和横向扩展。因此,对冷数据建议采用低成本、低并发、大容量、可扩展的技术。如Facebook、Google、阿里、腾讯等企业,一般都会和硬件厂商一起研发低成本的存储硬件,用于存储冷数据。
温数据,一般包含企业的结构化数据和将非结构化数据进行结构化处理后的数据,存储容量偏大,使用频次中等,一般用于业务分析。由于涉及业务分析,会涉及数据之间的关联计算,对计算性能和图形化展示性能的要求较高。但该类数据一般为可再生的数据(即通过其他数据组合或计算后生成的数据),对于数据获取失效性和备份要求不高。因此,对于温数据建议采用较为可靠的,支持高性能计算的技术(如内存计算),以及支持可视化分析工具的平台。(www.xing528.com)
热数据,一般包含经过处理后的高价值数据,用于支持企业的各层级决策,访问频次较高,要求较强的稳定性,需要一定的实时性。数据的存储要求能够支持高并发、低延时访问,并能确保稳定性和高可靠性。因此,对于热数据一般要求采用支持高性能、高并发的平台,并通过高可用技术,实现高可靠性。
3)基于云的大数据存储
云计算能够提供可用的、便捷的、按需的网络访问,接入可配置的计算资源池(服务器、存储、应用软件、平台)。这些资源能够快速提供,只需要投入很少的管理工作。针对大数据的规模巨大、类型多样、生成和处理速度极快等特征,云计算对于大数据来讲,是一个非常好的解决方案。但使用云计算进行大数据的存储与整合的时候,必须考虑以下几点:
(1)安全性:由于数据是企业的重要资产,因此不管采用何种技术,都必须确保数据的安全性。在使用公有云的情况下,企业必须考虑自己的数据是否会被另外一个运行于同样公有云中的组织或者个人未经允许访问,从而造成数据泄露;在使用私有云的情况下,同样需要考虑私有云的安全性,在隔绝入侵者的同时,也需要考虑内部的安全性,确保私有云上未经授权的用户不能访问数据。另外,数据是否可以放在云上,尤其是公有云上,也会受到法律法规的限制。如某些行业(如金融行业)的数据保密要求较高,国家和主管机构会有相应的法律、法规和安全规范,对于数据的存储进行限制。
(2)时效性:数据存储在云上的时效性,有可能低于本地存储。原因是:物理设施的速度更慢,数据穿越云安全层的时效较差,网络传输的时效较慢。对于时效性要求较高,或者数据量特别大的企业来讲,上述三个限制条件可能是实质性的,而且会带来高昂的网络费用。
(3)可靠性:配置在云上的基础设施一般较为廉价的通用设备,因此发生故障的概率也较企业的专用设备更高,一般企业对于关键数据,都有相应的高可用方案、备份方案和灾备方案。为保证云上数据的可靠性,云平台必须通过冗余的方式,来确保数据不会丢失。数据越关键,配置的副本数量就会越多,需要租用的成本就会越高。同时,多个副本也会带来一些安全问题,当企业弃用云服务时,如何确保数据的所有副本都被删除,也是企业在启用云服务之前必须考虑的问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。