(一)大数据在高能物理中的应用
高能物理是推动计算技术发展的主要学科之一。万维网技术的出现源于高能物理对数据交换的需求。高能物理是一门自然学科,面对大数据,高能物理科学家往往需要从大量的数据中找出一些粒子事件的小概率,这就像是在大海捞针。世界上最大的高能物理实验设备是日内瓦欧洲核中心(CERN)的大型强子对撞机,其主要物理目标是寻找希格斯(Higgs)粒子。高能物理中的数据处理是典型的离线处理,探测器组负责在实验中获取数据,现在每年收集的最新LHC实验数据达到15PB。为了识别高能物理中有用的事件,可以利用并行计算技术对每个数据文件进行独立的分析和处理。中科院高能物理研究所第三代探测器BESⅢ的数据规模已达到10PB左右。在大数据量的条件下,高能研究所的数据中心系统可以通过计算、存储和网络直接测试。在实际数据处理中,BESⅢ数据分析甚至需要打电话给俄罗斯、美国、德国等国内数据中心,通过网格系统完成任务。
(二)建议制度
推荐系统可以利用电子商务网站向客户提供信息和建议,帮助用户决定购买什么,模拟销售人员帮助客户完成购买过程。我们经常在网上看到一个产品推荐或系统弹出在一个特定的位置,这些项目可能正是我们感兴趣或想要购买的。这就是推荐系统发挥作用的地方。目前,推荐系统在商品推荐、新闻推荐、视频推荐等方面都发生了变化,推荐方式包括网页推荐、电子邮件推荐、弹出推荐等。推荐过程的实现完全依赖于大数据。当我们访问网络时,我们的访问行为被各种网站记录和模拟。一些算法还需要融合大量的其他人的信息,得到每个用户的行为模型,并将模型与数据库中的产品进行匹配,以完成推荐过程。为了实现这一点,推荐过程中需要存储大量的客户访问信息,对于大量的电子商务站点用户来说,这些信息数据是非常大的。推荐系统是一个非常典型的大数据应用,只有在对大量数据进行分析的基础上,推荐系统才能准确地获得用户的兴趣点。有些推荐系统甚至结合用户社交网络来实现推荐,需要对较大的数据集进行分析,从而挖掘数据之间的广泛关联。推荐系统使得大量看似无用的用户访问信息具有巨大的商业价值,这是大数据的魅力所在。
(三)搜索引擎系统(www.xing528.com)
搜索引擎是最常见的大数据系统,成立于1998年的Google和2000年的Baidu在简单的用户界面下隐藏了世界上最大的大数据系统。搜索引擎是简单和复杂的完美结合,最常用的开源系统Hadoop是根据Google的系统架构设计的。
为了有效地完成互联网上大量信息的搜集、分类和处理,搜索引擎系统大多是基于集群架构的。早些时候,中国的搜索引擎还包括北京大学的天网搜索。天网搜索是在早期由数百台PC组成的集群建立的,谷歌也采纳了这一想法。谷歌只能利用廉价的服务器,因为它的早期搜索利润微薄。每个搜索请求都可能有大量的服务响应。搜索引擎是一个典型的成熟的大数据系统。它的发展过程为大数据研究积累了宝贵的经验。第一届全国搜索引擎与在线信息挖掘研讨会于2003年在北京大学召开,极大地推动了我国搜索引擎技术的发展。搜索引擎和数据挖掘技术的结合标志着大数据时代的逐步到来。从某种意义上说,这次会议可以说是我国第一次大数据领域的重要学术会议。
(四)百度迁移
百度的迁移是利用2014年其定位服务的数据,在屏幕上可视化春节期间的人员流动情况。位置信息来自百度地图的LBS开放平台,该平台通过安装在大量移动终端上的应用程序获取用户位置信息。这些数亿信息可以通过大数据处理系统的处理,通过数据可视化,反映国家的整体迁移情况,为人们了解春节交通状况和决策管理机构进行管理决策提供第一手的信息支持。这个大数据系统所提供的服务为政府未来的科学决策和社会科学研究提供了一种新的技术手段。这也是大数据进入人们生活的一个例子。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。