首页 理论教育 大数据在新冠肺炎中的应用及其价值

大数据在新冠肺炎中的应用及其价值

时间:2023-06-30 理论教育 版权反馈
【摘要】:大数据有着广泛的应用,以应对此次新冠肺炎疫情为例,百度地图慧眼迁徙大数据通过数据定向、分析等途径确定了人员流出的方向。同时,大数据还能够应用于记录微观用户的运动轨迹。对于已确定感染人群来说,通过汇集移动终端的轨迹大数据来勾画关系图谱,进一步追踪接触者以进行隔离管理。图6-5大数据价值大数据思维① 整体思维。

大数据在新冠肺炎中的应用及其价值

数据在人工智能行业发展中占据着非常重要的位置,数据集的丰富性和大规模性对算法训练尤为重要。可以说,实现精准视觉识别的第一步,就是获取海量优质的应用场景数据。以人脸识别为例,训练该算法模型的图片数据量至少应为百万级别。

(1)大数据的产生

大数据

大数据来源包括社交网络用户数据,科学仪器获取数据,移动通信记录数据,传感器检测环境信息数据,飞机飞行记录、发动机数据,医疗数据(如放射影像数据、疾病数据、医疗仪器数据),商务数据(如刷卡消费数据、网购交易数据)等。可以说,现阶段的“数据”包含的信息量越来越大、维度越来越多。

大数据本身是一个抽象的概念,依托于互联网和云计算的发展,大数据在各行各业产生的价值越来越大,例如大数据 + 政府、大数据 + 金融、大数据 + 智慧城市、大数据 + 传统企业数字化转型、大数据 + 教育、大数据 + 交通等。大数据可以理解为一种资源或资产。

大数据有着广泛的应用,以应对此次新冠肺炎疫情为例,百度地图慧眼迁徙大数据通过数据定向、分析等途径确定了人员流出的方向。通过百度迁徙,用户可以对省市乃至全国每天人员流动情况进行分析。同时,大数据还能够应用于记录微观用户的运动轨迹。对于已确定感染人群来说,通过汇集移动终端的轨迹大数据来勾画关系图谱,进一步追踪接触者以进行隔离管理。除了通过用户地理位置感知,大数据也会对用户的支付、车票行程、住宿等信息进行整合分析。通过人工智能对密集的用户信息进行分析,可以从多个维度筛查出潜在传染用户。

现实生活中的数据有多大呢?据 IDC 发布的报告《数据时代2025》显示,全球每年产生的数据从2018年的33ZB增长到2025年的175ZB,相当于每天产生491EB的数据。那么175ZB的数据到底有多大呢?1ZB 相当于1.1万亿GB。若以网速为25Mbit/s计算,一个人要下载完这175ZB的数据,需要18亿年时间。

而人们所谈论的大数据实际上更多是从应用的层面,比如某公司搜集整理了大量的用户行为信息,然后通过数据分析手段对这些信息进行分析,从而得出对公司有利用价值的结果。

一般而言,大数据是指数量庞大而复杂,传统的数据处理产品无法在合理的时间内捕获、管理和处理的数据集合。

(2)大数据的特点

IBM把大数据特征归结为5V,如图6-4所示。

● 数据量大(Volume,耗费大量存储、计算资源):数据的存储和计算均需耗费海量规模的资源。

● 速度快(Velocity,增长迅速、急需实时处理):规模增长的数据对实时处理有着极高的要求。

● 多样性(Variety,来源广泛、形式多样):数据在来源和形式上的多样性更加凸显,除大量以非结构化形式存在的文本数据,也存在位置、图片、音频和视频等大量信息。

● 价值密度低(Value,价值总量大、知识密度低):数据的价值在于读懂背后的信息,只有经过深度分析的大数据才可以产生新的价值。

图6-4 大数据5V特征(www.xing528.com)

● 真实性(Veracity,数据的质量和保真性):大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。

(3)大数据的价值

大数据的核心在于整理、分析、预测及控制。重点并不是拥有了多少数据,而是拿数据去做了什么。如果数据只是堆积在某个地方,那么它将是毫无用处的。它的价值在于“使用性”,而不是数量和存储的地方。任何一种对数据的收集都与它的价值有关。如果不能体现出数据的价值,大数据所有的环节都是低效的,也是没有生命力的。

数据的价值密度很低,人们最初看到的只是冰山一角,如图6-5所示,需要深层次挖掘。

图6-5 大数据价值

(4)大数据思维

① 整体思维。

整体思维是根据全部样本得到结论,即“样本 = 总体”。因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上,所以整体思维可以正确地考察细节并进行新的分析。如果数据足够多,它会让人们觉得有足够的能力把握未来,从而做出自己的决策

结论:从采样中得到的结论总是有水分的,而根据全部样本得到的结论水分就很少,数据越大,真实性也就越高。

② 相关思维。

相关思维要求人们只需要知道是什么,而不需要知道为什么。在这个不确定的时代,等找到准确的因果关系再去办事的时候,这个事情早已经不值得办了。所以,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。

结论:为了得到即时信息、实时预测,寻找到相关信息比寻找因果关系信息更重要。

③ 容错思维。

实践表明,只有 5%的数据是结构化且能适用于传统数据库的。如果不接受容错思维,剩下95%的非结构化数据都无法被利用。

对小数据而言,因为收集的信息量比较少,必须确保记下来的数据尽量精确。然而,在大数据时代,放松了容错的标准,人们可以利用这95%的非结构化数据做更多更新的事情,当然,数据不可能完全错误

结论:运用容错思维可以利用这95%的非结构化数据,帮助人们进一步接近事实的真相。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈