大数据的产业链,大致可分为数据标准与规范、数据采集、数据存储与管理、数据分析与挖掘、数据运维、数据应用和数据安全几个环节,覆盖了数据从产生到应用的整个生命周期,如图10-7所示。
图10-7 大数据产业链
10.4.1 数据标准与规范
大数据标准体系的建立是开展大数据应用的前提条件之一,没有统一的数据标准体系,数据的共享、挖掘、分析、决策支持将无法实现。大数据的标准包括大数据体系结构标准、数据格式与标准、组织管理标准、安全标准和评测标准。在标准化建设方面,我国数据标准参与单位主要包括中国电子技术标准化研究院、各大数据库开发公司、数据拥有单位以及各个行业的标准化组织。
10.4.2 数据安全
随着数据的不断增加,对海量数据存储和访问的安全性要求越来越高,从而对数据的访问控制技术、安全保护技术以及多个副本存储与容灾机制等提出了更高的要求。另外,由于大数据处理主要采用分布式方法存储和计算,这就面临着数据传输、数据交互等环节信息泄露的风险,如何在这些环节中保护数据的安全,仿制信息不泄露、数据不丢失,保护所有节点的数据安全是大数据发展面对的重大挑战。
在现代信息化时代,传统的隐私数据的内涵与外延在概念和范围都有了巨大突破和延伸,数据的多元化与数据之间的关联性更加密切,这使得对单个数据或单点数据及其用户隐私数据的保护手段变得极其脆弱,需要提出针对多元数据融合的安全防护策略。
在大数据安全环节上的保护标准的制定,主要参与单位包括中国电子科技集团公司第30研究所、奇安信和其他杀毒软件公司。
10.4.3 数据采集
政府部门,以百度、腾讯和阿里为代表的大型互联网企业,三大电信运营商是当前大数据的主要拥有者。除这些初始数据之外,利用网络爬虫技术抓取或网站公开接口等途径对网络数据进行采集也是大数据的主要来源。
现实世界中采集到的数据大多不完整或前后采集的数据不一致,无法直接对初次采集的数据进行挖掘或者挖掘结果不理想,这就需要对采集的数据进行规格化、填补、合并、检查一致性等数据预处理操作,并且往往需要大量的人工参与,因此数据采集和清洗成为大数据产业链的一个重要环节。(www.xing528.com)
10.4.4 数据存储与管理
大数据存储与管理的主要参与者以传统数据库企业为主,国际上主要有IBM、甲骨文等;国内主要有华为、中兴、用友、浪潮、拓尔思等。各家企业针对大数据应用开展各具特色的数据库架构和数据组织管理研究,形成针对具体领域的产品。
10.4.5 数据分析与挖掘
大数据分析与挖掘的意图主要集中在两方面:一是从大量的结构化和半结构化数据中分析出计算机可以理解的语义信息或知识;二是对隐性的知识,如关联情况、意图等进行挖掘。常用的方法包括分类、聚类、关联规则挖掘、序列模式挖掘、时间序列分析预测等。
数据分析与挖掘的核心算法与核心软件主要掌握在大型数据库公司和研究高校的手中,国际上主要参与者包括IBM、Oracle、Google等,国内主要参与单位包括各大数据库企业,研究院校,以百度、阿里、腾讯为代表的大型互联网企业等。数据分析与挖掘的能力直接决定了大数据的应用推广程度和范围,是大数据产业的核心。
10.4.6 数据运维
由于对数据的重要性认可普遍提高,除政府部门的数据通常由服务商运维外,数据的采集者常常就是数据运维者。各地政府方面则通常利用大数据平台建设来推动政府大数据的公开与共享,如云上贵州,吸引个人和企业用户开展创新与创业,积极推动大数据的增值服务。
10.4.7 数据应用
大数据对传统信息技术带来革命性挑战,正在重新构建引领信息技术发展方向和产业格局。国内以百度、阿里、腾讯为代表的互联网企业,云计算和数据库厂商纷纷加大应用和推广力度,在国际先进的开源大数据技术基础上,形成独自的大数据平台,提出各行业应用服务解决方案,以支撑专业化应用。
虽然这些大数据企业在大数据平台构建上取得得天独厚的优势,但是在某些具体业务应用领域并不擅长。传统企业以及从事大数据的微型企业是特定业务领域上大数据应用的主力军。
当前大数据的应用发展正在倒逼软件基础技术、数据存储架构、数据共享方式的转变,在转变思维过程中需要积极应对,明确数据共享的方式是什么,数据拥有者的利益如何平衡,商业模式如何开展等。目前来看,许多企业在大数据产业链里仅拥有一两项开发和应用能力是远远不够的,只有将大数据产业链融会贯通才能催生更大的应用市场和产生广阔的利润空间,从而在大数据驱动的新时代商业竞争格局中脱颖而出。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。