最近几年,大数据以迅猛之势融入生产和生活,同时企业也更加关注大数据的应用,实时的数据分析能力日益成为核心竞争力。大数据的范围比较广,可以是一个有限的集合,如政府、企业所掌握的私有的数据库;也可以是一个无限的集合,如社交网站、博客、论坛等上面的信息。在IT发展较快的互联网行业,大数据已经实实在在地落到实处,并逐渐发挥作用。在传统行业,大数据也开始逐步实践探索,挖掘传统企业中的数据价值。大数据技术就是从各种各样大量的数据中,快速获得有价值信息的技术,包括数据采集、存储、分析挖掘、可视化等,而数据的价值就主要通过数据的存储、处理、查询方面的能力来体现。
数据的存储问题,一直困扰着信息系统的建设。数据量小的时候,可能不会成为一个关注的问题,毕竟存储介质也是符合摩尔定律的,价格越来越低,容量越来越大。但是,对于超大量的数据,高昂的数据存储成本,也是低价值密度数据被抛弃的原因。随着技术的驱动、分布式集群和x86的发展,Hadoop技术的逐渐成熟,给大数据的存储提供了生存的空间。由于大数据技术的推动,使数据得以存储下来,具备了大数据的存储能力,为数据价值的发挥奠定了坚实的基础。
数据存储下来,就能发挥价值吗?远远不是。以前效率低下的、高成本的数据处理能力,是阻碍数据价值发挥的重要因素。不能在有效时间内对数据进行处理,数据就没有实际意义了。大数据技术的发展,使大规模分布处理技术、Spark内存技术日渐成熟,数据能够被及时有效地处理,有了真正发挥价值的空间。可见,数据处理能力的提升,对于缩小数据的规模、发挥数据的价值提供了有力的支持。
但是,对于需要直接对超大量数据进行查询的问题的解决,很多传统的存储系统是无法支撑的。Nosql技术、Spark等大数据新技术、新框架的出现,使大数据能够直接进行查询,有效支撑业务的发展,数据查询能力的提升,进一步加速了数据价值的实现。
从企业的价值实现层面来看,大数据有能力存储了,也能够处理和查询了,但企业数据的价值实现还需要真正使用到企业运营中去,并且为企业创造实实在在的价值。目前,以企业对数据的使用方式来看,一般可以分为两种:对内,对企业发展提供决策支撑,帮助企业更高效地制定策略,支持一线营销管理工作,支持对目标客户的精准营销,拓展业务;对外,开拓数据的长尾效应,对数据进行整合、能力抽取,与合作伙伴进行合作,发挥数据的外在价值。
数据的价值是不言而喻的,已成为企业重要的信息资产。数据的存储也好,数据的整合加工也罢,归根到底是为了使用数据。要有效发挥数据的价值,就需要企业建设大数据平台,以更高效的方式应用大数据,促进企业更好的运营发展。
企业构建大数据平台,其实就是构建企业的数据资产运营中心,充分发挥数据的价值。简言之,企业级大数据平台是整个企业层面的内部数据和外部数据等海量数据进行汇集、处理、分析、分享的设备、工具、流程等的有机组合,需要采集全企业层面的各类数据及相关外部数据,并对这些海量数据进行整合、加工、处理,并逐步形成数据资产,为公司进行企业决策管理和生产一线的营销工作提供完整、及时、准确、科学的信息支撑。[4]
随着企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。首先,要建设企业的基础数据中心,这就需要构建企业统一的数据存储体系、统一的数据建模,为数据的价值呈现奠定基础;其次,要进行数据处理能力下沉,也就是建设集中的数据处理中心,这样便可以提供强大的数据处理能力;最后,就是建设统一的数据管理监控体系,保障系统的稳定运行。
需要说明的是,有了数据基础还不够,还需要构建统一的大数据商业智能平台(BI)应用中心,满足业务需求。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,但大数据又是BI的基础,没有大数据也无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策,所以两者是相辅相成的。因此,数据的价值发挥,企业级大数据平台的建设,最好是囊括了大数据处理与BI应用分析建设的。
提到大数据,不可避免地会提到Hadoop。尽管大数据并不等同于Hadoop,但Hadoop确实是最热门的大数据技术。下面我们以最常用的混搭架构,来看一下如何搭建企业级大数据平台,以支撑企业大数据的应用。(www.xing528.com)
首先,利用Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集,提供可配置的数据采集能力。
其次,利用Spark和Hadoop技术构建大数据平台最为核心的基础数据的存储、处理能力中心,它可以提供强大的数据处理能力,进而满足数据的交互需求。
再次,利用Sparkstreaming构建企业发展的实时指标体系,有效满足企业实时数据的需求。
最后,利用RDBMS提供企业高度汇总的统计数据,满足企业常规的统计报表需求。对大数据明细查询需求,则可通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。
技术只是承载业务的一种手段,无论采用哪种技术手段,归根到底是为了实现数据的价值。只有根据企业实际的发展需求,透彻分析企业的数据形态,才能更好地选择符合企业发展的技术架构,最大限度地满足企业发展需求,发挥数据价值,支撑企业决策,提高企业的综合竞争能力。
随着近年来大数据技术的发展,电信运营商已经在分析系统中引入了多种大数据处理技术,初步构建了基于高性能平台的主数据仓库、基于x86平台的MPP数据库和基于x86平台的Hadoop云混搭架构,满足平台对于互联网数据爆发增长的平滑扩展能力,在运维过程中逐渐锻炼新技术的掌控力。[5]
安徽联通于2016年底成功构建起了数据融合的企业级大数据平台——智慧运营平台,目的是对内实现智慧运营、精准营销,对外实现价值变现。智慧运营平台基于“M+1+N”的理念构建,即N个可扩展的数据源、1个企业级大数据融合平台、基于平台实现的M个对内、对外应用。简言之,安徽联通在搭建智慧运营平台架构时首要考虑的是对融合数据的统一采集、统一存储、跨域数据的共享以及跨域数据的精品应用。[6]安徽联通智慧运营平台采用的是FusionInsight Hadoop平台融合数据统一存储和处理、分布式共享存储,不需要额外的磁阵和双机软件,并通过云化ETL平台向数据仓库、实时查询库和流处理平台进行统一分发。[7]另外,安徽联通智慧运营平台具有强大的多租户能力(在一套服务器上运行某个应用实例能为多个租户提供服务,租户之间不感知),可以对用户进行权限控制和资源隔离,解决部门间大数据平台资源共享与数据共享困难,实现跨域数据的共享。[8]
在企业级融合大数据平台不断更新迭代的时代,安徽联通紧紧抓住了大数据发展时代脉搏,在全国运营商中率先实现技术、架构先进的企业级融合大数据平台,敢于创新,最终实现了安徽联通的数字化转型及全业务流程的智慧运营,并基于平台的开放架构,与融合大数据领域合作伙伴合作,实现大数据对外应用的百花齐放。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。