大数据的来源主要是通过各种数据采集器、图书馆数据库、社交网络、开源的数据发布、GPS 信息、网络痕迹(如搜索与历史等)、传感器等收集的结构化或者非结构化的数据。具体包括政府数据、各行业数据以及互联网数据等。
2.4.2.1 政府数据
政府机构为了便于管理社会而下设的各种部门,比如财政部门、税务部门、海关、审计、社会保障部门、发改委、工商、医疗部门等,几乎所有政府部门为了有效完成部门职能,都已经构建了其业务系统,这些业务系统产生的数据主要以特定的结构存储在相应的数据中心。这些数据内部蕴含着巨大的价值,能够为政府宏观政策的制定、国家安全防控、社会有效管理等提供有力的数据支撑。
政府数据往往具有较高的真实性、权威性、实时性以及数据对象描述指向性明确且具体等特点。因此,在进行大数据项目的建设过程中,通过某种渠道采集相关政府部门的数据,已经成为一个必然的趋势。不过政府数据的采集还存在很多的挑战和困难:首先,出于数据安全及涉密的考虑,以及制度的规定,政府数据往往具有很强的封闭性,这使得政府数据的获取成本往往极高;其次,根据不同的职能定位,不同政府部门运营和管理的数据往往仅与该部门独立职能相关,因此,每一个部门的政府数据都缺乏全局性,这就意味着采集更为全面的政府数据代价极大;最后,各级政府部门的信息基础设施建设不均衡,这使得相同类型的数据在不同级别的政府部门的服务器上表现形式不完全一样,这也给数据的采集与整合带来极大的困难。
2.4.2.2 企事业单位数据
大型企业和事业单位出于生产、销售等获益需求,会构建不同的目标应用系统,比如企业资源计划(Enterprise Resource Planning,ERP)、在线办公、在线交易等,这些系统不仅有效的完成了单位的主营业务,而且还汇聚了大量相关数据,这些数据以本单位私有财产的形式存放在各自的服务器中。比如,制造业的数据主要包括产品设计数据、企业生产环节的业务数据和生产监控数据。其中产品设计数据以文件为主,企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数据量非常大。这些数据在辅助实现各个业务系统的价值目标方面具有重要的意义。同时这些数据也为各个企事业单位的智能分析提供了重要的数据基础保障。
随着大数据时代的来临,各企事业单位在数据的收集和营运方面也随之发生了变化。其中一个重要的变化就是互联网的不断发展和对各个领域的渗透,使得各企事业单位开始有意识地将互联网作为一个工具、渠道或平台,将自己的目标应用系统从不同的层次和角度进行改善,然后利用互联网,实现更好的产品设计、制造和营销等。以互联网平台为核心,逐步淡化各个企事业单位自有内部数据和互联网数据的界限,也就是说,单位内部的信息化应用环境在不断发生变化,互联网数据正从外部数据被逐步纳入本单位的内部数据管理。
如何有效将互联网的外部数据和企事业单位的内部数据进行有效的集成和汇聚,已经成为各企事业单位的共同需求,同时也是这些单位大数据项目建设的一个重要基础。然而对于企事业单位的数据采集也存在着很多的挑战和困难。首先,不同的企事业单位所拥有的数据在目标应用中的价值度是不一样的,往往数据仅反映了某一个维度的价值趋势,而如何选择更多的彼此互补的数据源本身就是一个难题,这涉及不同单位的数据评估问题,同时还受大数据项目建设的物理条件的约束;其次,在采集和整合不同单位的数据时,一个非技术因素的难题在于潜在合作单位是否愿意将数据共享;最后,不同单位的信息基础设施建设不均衡,这使得相同类型的数据在不同单位的服务器上的表现形式不完全一样,这给数据的采集与整合带来了极大的困难。
2.4.2.3 物联网数据
物联网快速发展的同时也制造了海量数据,如何妥善处理及合理利用这些海量数据是物联网下一步发展的关键。物联网主要是通过传感器、条形码以及 RFID(Radio Frequency Identification)等技术获取大量数据。
传感器技术的迅速发展和传感器网络的逐步完善为大数据的获取提供了有力的保障。传感器网络能够通过各类集成化的微型传感器相互协作地实时监测、感知和采集各种环境或监测对象的信息,通过嵌入式系统对信息进行处理,并通过随机自组织无线通信网络以多跳中继方式将所感知的信息传送到用户终端。从而真正实现“无处不在的计算”理念。
条形码技术给图书馆业带来了革命性的改变,通过内嵌 ID 等信息,条形码在被扫描之后,快速在数据库中进行 ID 匹配,很快就可获知该图书的库位、出借情况等具体信息。条形码被广泛应用于零售商店的收银以及车站售票等业务中,每天大量的商品销售记录(数据)通过扫描条形码而产生。近年来,智能手机应用的二维条形码(比如支付宝、微信等)也随处可见。
RFID 技术又称无线射频识别技术,是一种通信技术,可通过无线电信号识别特定目标并读写相关数据,而无须识别系统与特定目标之间建立机械或光学接触。射频标签是产品电子代码的物理载体,附着于可跟踪的物品上,可全球流通并对其进行识别和读写,RFID 作为构建物联网的关键技术近年来受到人们的关注。许多行业都运用了射频识别技术。RFID 与条形码相比,扩展了操作距离,且标签的使用比条形码更加容易,携带一个可移动的阅读器便可收集到标签的信息,被广泛应用于仓库管理和清单控制方面。RFID 读写器也分移动式和固定式。目前RFID技术应用很广,应用于如图书馆、门禁系统等场所及设施。
2.4.2.4 互联网数据(www.xing528.com)
随着Web2.0 技术的出现,互联网上的每一个用户的身份由单纯的“读者”进化为“作者”以及“共同建设人员”,由被动地接收互联网信息向主动创造互联网信息转变。Web2.0 伴随着博客、百科全书以及社交网络等多种应用技术的发展,大量的网络搜索与交流促使海量数据的形成,给人类日常生活方式带来了极大的变革。具体来说,互联网数据的来源如下:
第一,门户网站出于其媒体属性所发布的新闻、评论、报道等。如新浪财经、搜狐新闻等,这些数据往往具有较强的实时性和专业性。
第二,政府部门出于信息公开的目的在互联网上公开的数据,如法院公告、工商缺陷产品召回信息、政府招标信息等,这些数据往往具有很高的权威性和可信性。
第三,社交网站出于其媒体属性和社会属性允许普通用户发表自媒体信息,在提供用户社交服务的同时,将用户的言论、生活轨迹等记录下来,这些数据往往具有一定的实时性和针对性。
第四,电商网站出于营销目的允许用户自由采购产品并查询、发布产品评论及销售量信息。这些数据往往具有一定的真实性和实时性。
第五,论坛往往是网民发表意见的开放渠道和平台,用户在发表个人意见的同时,自己的价值倾向、事件评估等信息也被网站记录了下来,这些数据往往具有一定的实时性和针对性。
此外,移动互联网正逐渐渗透到人们生活、工作的各个领域,移动支付、手机游戏、视频应用、位置服务等丰富多彩的移动互联网应用的迅猛发展,正在深刻改变信息时代的社会生活。
互联网数据中沉淀着大量能反映用户偏好倾向、事件趋势等的相关信息。更重要的是,互联网数据均是以共享和开放的形式存放于互联网中的,这就意味着进行互联网数据采集的成本往往较低。因此,进行相关互联网数据的采集和整合几乎成为大数据项目建设的必然选择。互联网数据的采集也存在着很大的困难和挑战,具体包括:
第一,各个门户网站的建设水平不一样,以及出于不同的用户体验,各个网站的结构往往也不一样,这就意味着,通过统一的方法从互联网中采集数据几乎是不可能的。
第二,互联网数据一般结构复杂,通常是以文本、表格、图片、视频等非结构形式存在,这也给互联网数据的采集带来了挑战和困难。
第三,大型互联网公司,比如百度公司数据总量超过了千PB 级,数据涵盖了中文网页、百度视频、百度日志等多个部分,并拥有超过70%以上的中文搜索市场。对于这类海量数据的采集需要研究分布式架构,满足其采集需求。
第四,对于需要从网页中获取的互联网数据,可以通过网络爬虫程序自动获取数据。但是不同的网站出于对爬虫程序的监管,往往会设置很多障碍,因而增加了互联网数据采集的难度。
由此可以看出,大数据来源广泛。为了便于研究,大数据可以按照产生数据的主体、数据来源的行业、数据来源的形式和数据存储的类型等形式进行划分。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。