首页 理论教育 大数据的类型、分布及获取途径详解

大数据的类型、分布及获取途径详解

时间:2023-07-08 理论教育 版权反馈
【摘要】:非结构化数据没有一个事先定义的数据模型或不是以事先预定好的方式进行组织。这些数据和公众的生产生活息息相关,政府的开放使用会大大降低大数据的获取成本。

大数据的类型、分布及获取途径详解

1.大数据的数据类型

我们可以从不同的角度去认识数据的类型。

(1)从数据产生的主体来看

从数据产生的主体来看,可以分为个人产生的数据、组织产生的数据、机器产生的数据。个人通过发布微博、微信,发帖、点击、留言等方式会产生大量的数据。企业、事业单位、行政部门等组织会在运营过程中产生诸如销售、仓储、财务等相关数据。应用服务器日志、传感器数据、二维码数据等海量数据会由相应机器自动产生。

(2)从数据存储形式来看

从数据存储的形式来看,大数据可以分为结构化数据、半结构化数据和非结构化数据。结构化数据以固定字段驻留在一个记录或文件内,是可以用二维表结构来逻辑表达实现的数据,存储在关系数据库里。半结构化数据介于结构化和非结构化数据之间。不同于结构化数据的先有结构再有数据,半结构化数据是先有数据再有结构,它的格式较为规范,一般都是纯文本数据,很多XML、JSON等格式的文件就属于这一类。非结构化数据没有一个事先定义的数据模型或不是以事先预定好的方式进行组织。它存储在非结构数据库中,突破了关系数据库结构定义不易改变和数据定长的限制。它没有标准格式,包括所有格式的办公文档、文本、图片、音频、视频等。

2.大数据的行业分布

海量的数据主要分布如下:

(1)以BAT为代表的互联网公司

百度占有70%以上的搜索市场份额,拥有庞大的搜索数据;阿里巴巴拥有90%以上的电商数据;腾讯拥有大量通过社交、游戏等领域积累起来的文本、音频、视频和关系类数据。

(2)电信金融电力、石化系统

仅从银行卡来看,2013 年全国“银联”银行卡发行量就已经接近40 亿张,每天有近600亿元通过银联的银行卡交易。不仅如此,开户信息数据、在线交易数据、金融系统自身运营的数据等,使国内银行系统每年产生的数据能达到数十PB,保险系统生成的数据也接近PB级别。

(3)公共安全医疗交通领域

如今道路监控摄像头星罗棋布,每天会产生大量的视频数据,临床信息、健康档案、疾病监控也是大数据的来源。

(4)气象地理教育、政务等

气象卫星多普勒天气雷达为代表的遥感遥测业务每天会产生TB级的观测数据,绝大多数中央部委和省级政府部门的核心业务都有数据库支撑,这些数据库涵盖全国的人口数据、企事业社会团体的相关信息等,拥有巨大的数据存储。

(5)商业销售、制造业、农业、物流等其他行业

目前这些行业处于数据积累期,随着网络的普及,这些行业的数据会越来越多。(www.xing528.com)

3.获取大数据的途径

想要利用大数据创造价值,首先要获得基础的数据,获得数据的途径通常有以下几种。

(1)内部途径

通过一些数据采集工具或者软件,对自身生产经营过程中所产生的内部数据进行收集。如经授权后在自己的官网上收集用户的Cookie数据,通过Cookie跟踪统计用户访问该网站的习惯,如习惯访问网站的时间,访问了哪些页面,在每个网页停留的时间等,即使在用户没有登录的情况下,也能识别用户身份,获取相应的信息。APP 也是获取用户移动端数据的一种有效手段,如果将自身SDK内置在APP 中,用户访问时甚至不用访问APP 内容都能将信息汇总给指定服务器,获知用户终端的相关信息,如用户安装了什么样的应用,以及有多少个应用等。汇总这些数据,进行分析处理后能得到有用的信息。

已经有保险公司主动创建自己的数据库。MetLife保险公司已经投资了3 亿美金建立一个新式系统,其中的第一款产品是一个基于MongoDB 的应用程序,它将所有客户信息放在同一个地方。MongoDB汇聚了来自70 多个遗留系统的数据,并将它合并成一个单一的记录。它运行在两个数据中心的6 个服务器上,目前存储了24 TB的数据,囊括了MetLife的全部美国客户,它的更新几乎是实时的。MetLife还计划将它的国际客户数据也纳入其中。

2014 年初,中国人寿上海数据中心正式竣工投产。该数据中心总用地80 亩[2],总建筑面积13.1 万平方米,由3 栋8 层主楼及2 栋单层能源动力区组成。机房可用面积约1 万平方米,可靠性达99.995%。这一以技术、服务、安全三大体系建设为手段,布局大数据、云计算、虚拟化、移动互联等先进技术领域的数据中心被认为是中国人寿信息化建设的一个重要里程碑,标志着中国人寿信息科技水平跨入同业领先行列。

泰康人寿基于云数据中心构建大数据平台,为包括寿险类、年金类、资产类以及养老社区等全业务领域提供全方位随动的技术支撑。泰康在武汉光谷、北京长安街和北京中关村建有三个数据中心,其中,中关村数据中心分为地上和地下两层,建筑面积8 000 平方米,机房地板面积约2 300 平方米,是整个数据系统的“枢纽”和“心脏”。在云中心启用的同时,泰康人寿移动互联部和大数据部也宣告正式成立。这两个部门在数据信息中心原有的数据服务、支持服务、信息技术基础设施等职能的基础上,更侧重于与大数据及移动互联网相关的应用规划、系统开发、上线维护、技术研究和市场推广规划等工作。

(2)外部免费平台

政府部门可以提供一些官方数据。过去十多年来政府开展了大量电子政务及信息化工作,积累了大量数据。这些数据和公众的生产生活息息相关,政府的开放使用会大大降低大数据的获取成本。2012 年以来,北京、上海、武汉、无锡贵阳等城市先后发布地方政府开放数据平台。在政府数据开放初期,主要面向一些大企业。2013 年2 月25 日,国家食品药品监督管理局的三大药品数据库,总计20 余万个权威药品信息全面入驻百度,与百度合作实施“安全用药,搜索护航”战略。2014 年5 月27 日,中国气象局公共气象服务中心与阿里云达成战略合作,共同搭建“中国气象专业服务云”,为有气象数据需求的企业提供专业化的云计算服务。2014 年10 月15 日,贵州省政府与阿里牵头的企业合建云计算基础设施“云上贵州”,将大数据应用在交通等领域。2015 年1 月13 日,阿里健康宣布将药品监管网的基础设施从甲骨文数据库迁移到阿里云平台,阿里将利用大数据技术帮助解决假药问题。2015 年9 月,根据国务院《促进大数据发展行动纲要》的要求,各级政府开始向众多领域开放数据。此外,一些行业协会、俱乐部等也会提供半官方数据,一些民间平台也会提供一些免费数据。这些免费渠道是获取数据的来源之一,如淘宝网、京东、唯品会等平台会免费开放一些数据。

(3)外部收费平台

我国大数据市场供给的主力还是互联网企业、传统IT厂商和大数据企业三方,如图1.3所示,大数据市场初步形成三角形供给结构。需要的大数据可以通过购买的方式来获取。目前我国的数据交易平台有三种类型:

图1.3 我国大数据市场的供给结构

资料来源:前瞻产业研究院

一种是交易所平台,以贵阳大数据交易所为代表,包括湖北长江大数据交易所、陕西西咸新区大数据交易所等。贵阳大数据交易所是全球第一个大数据交易所,采用市场化运作模式,为金融、医疗、电商、交通等30 多个领域提供数据交易服务。交易所实行会员制,具有会员资格的企业才能通过交易所进行大数据交易。目前贵阳大数据交易所已有腾讯、京东、华为、中国人寿、中国联通等300 余家会员单位。

一种是产业联盟性质的交易平台,以中关村数海大数据交易平台为代表。中关村数海大数据交易平台是由中关村大数据产业联盟于2014 年承建。中关村大数据产业联盟成立于2012 年12 月,一直致力于推动大数据产业的发展。其核心价值定位是打造“智库、传播、资本”三位一体的新兴科技服务业模式,为政府、学术界和产业界搭建桥梁。中关村数海大数据交易平台的模式是通过开放的应用程序接口(API)进行数据录入、检索、调用,为政府机构、科研单位、企业乃至个人提供数据交易和使用。在确保数据不涉及个人隐私、不危害国家安全,同时获得数据所有方授权的情况下,为数据所有者提供大数据变现的渠道;为数据开发者提供统一的数据检索、开发平台;为数据使用者提供丰富的数据来源和数据应用。

还有一种是专注于互联网综合数据交易和服务的平台,以数据堂为代表。数据堂成立于2011 年,是国内首家专注于互联网综合数据交易和服务的公司,总部位于北京,目前在南京、镇江、天津保定等地设有多个专业数据处理中心,并在北美硅谷设有分公司。数据堂致力于融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。数据堂旗下有三大核心业务:数据定制、数据商城、移动应用数据服务。它的数据采集范围遍及全球30 多个国家,合作伙伴遍布世界10 多个国家,已成功为包括百度、腾讯、阿里巴巴、Microsoft、Canon、Intel等国内外多家企业提供数据定制服务。

大数据购买者可以通过广告联盟的方式获取搜索用户的数据资料,当用户搜索一些关键词时,该用户的数据资料便由搜索公司获得,而与搜索内容相关联的数据需求方因事前购买了广告位而获得这些用户的数据资料。购买者也可以选取拥有稳定、完整、连续的数据资源的公司进行长期的战略合作。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈