首页 理论教育 大数据:定义、特点和挑战

大数据:定义、特点和挑战

时间:2023-07-25 理论教育 版权反馈
【摘要】:在数据模式变更的假设前提下,设计新的索引方案将是大数据处理的主要挑战之一。大数据的隐私保护既是技术问题也是社会学问题,需要学术界、商业界和政府部门共同参与。

大数据:定义、特点和挑战

2.4.1.1 大数据的定义

大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念一样,大数据至今尚无确切、统一的定义,不同的机构或个人给出了不同的定义。麦肯锡咨询公司在其报告《Big data:The next frontier for innovation,competition and productivity》中将大数据定义为:“大数据指的是大小超出常规数据库工具获取、存储、管理和分析能力的数据集”。但它同时强调,并非一定要超过特定 TB 值的数据集才能算是大数据。这个定义只是强调了大数据的数据量“大”的特点,却也没有给出具体的量化标准——到底多“大”的数据才算是大数据。

国际数据公司(International Data Company,IDC)对大数据的定义为:大数据一般涉及2 种或2 种以上数据形式。其要收集超过 100TB 的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长 60%以上。这个定义给出了量化标准,强调数据量大、种类多、增长快等数据本身的特征。

维基百科将大数据定义为:大数据是指利用常用软件工具获取、管理和处理数据所耗时间超过可容忍时间的数据集。这个概念也不是一个精确的概念,因为对主流软件工具和可容忍时间的范围不好界定。

研究机构 Gartner 给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这个定义也是一个描述性的定义,对大数据的本质并没有进行很好的说明。

亚马逊公司的大数据科学家 John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。这同样是一个非常宽泛的定义,对大数据本质的理解也不够全面和深刻。

毫无疑问,对大数据的本质认识需要一个不断深化的过程,但这并不影响大数据科学的发展以及对大数据的应用。

2.4.1.2 大数据的特点

虽然不同人对大数据都有着自己的不同解读,但人们普遍认为,大数据有5 个“V”的特征,即“Volume”,“Velocity”,“Variety”,“Veracity”和“Value”。

第一,数据体量(volume)巨大。数据量大是大数据的基本属性。导致数据规模激增的原因很多,总体包括以下三个方面:随着互联网的广泛应用,使用网络的个人和机构增多,数据的生成、获取和分享变得更加容易;随着物联网的快速发展,各种传感器的数据获取能力大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增;数据的增长速度随着数据应用的发展,维度越来越高,描述相同事物所需的数据量越来越大。

第二,处理速度(velocity)快。随着数据的爆炸式增长,快速增长的数据量要求数据处理的速度也要相应地提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成为快速解决问题的负担。另外,数据不是静止不动的,并且很多数据的价值会随着时间而迅速降低,如果不快速处理就会失去价值,大量的数据就没有意义。(www.xing528.com)

第三,数据类别(variety)丰富。大数据来自多种数据源,数据种类和格式日益丰富,包括结构化、半结构化和非结构化等多种数据形式,如网络日志、音视频、图片等。

第四,数据应具有真实性(veracity)。研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。

第五,价值密度低,利用价值(value)高。数据价值密度低是大数据关注的非结构化数据的重要属性。大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,因此在呈现数据全部细节的同时也引入了大量没有意义、甚至错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低。但与此同时,由于大数据保留了数据的所有细节,所以通过分析数据可以发现巨大的利用价值。

2.4.1.3 大数据的挑战

在大数据时代,数据存在多源异构、分布广泛、动态增长、先有数据后有模式等诸多特点。正是这些与传统数据处理不同的特点,使得大数据时代的数据管理面临新的挑战。在应对处理大数据时代的各种技术挑战的过程中,以下几个方面的问题需要高度关注。

第一,数据的异构性和不完备性问题。大数据的广泛存在和来源的多样性使得数据越来越多分散在不同的数据管理系统中,而且对于非结构化和半结构化的数据,不能用已有的简单数据结构来描述它们。因此,如何将多源异构的数据集成在一起是大数据处理的一个重要挑战。数据的不完备性是指在大数据条件下所获取的数据常常包含一些不完整的信息和错误的数据,在进行大数据分析之前必须对数据的不完备性进行有效处理才能分析出有价值的信息,这个处理通常在数据采集和预处理阶段完成。

第二,数据处理的时效性问题。随着半结构化和非结构化数据的迅猛增长,给传统数据分析处理带来巨大的冲击和挑战。随着时间的流逝,数据中所蕴含的知识价值也随之衰减。因此,大数据处理的速度非常重要,一般来讲,数据规模越大,分析处理的时间就会越长,而在很多情况下,用户要求立即得到数据的分析结果。大数据要求为复杂结构的数据建立合适的索引结构,这要求索引结构的设计要简单、高效,而且能在数据模式发生变化时很快地进行调整适应。在数据模式变更的假设前提下,设计新的索引方案将是大数据处理的主要挑战之一。

第三,数据的安全与隐私保护问题。大数据的隐私保护既是技术问题也是社会学问题,需要学术界、商业界和政府部门共同参与。随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据是进行大数据分析时必须遵循的原则。大数据时代的安全与传统安全相比,变得更加复杂,面临更多挑战。如何在大数据环境下确保信息共享的安全性,如何为用户提供更精细的数据共享安全策略等问题值得深入研究。

第四,大数据能耗问题。随着大数据规模的不断扩张,数据中心存储规模也不断扩大,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布式并行计算等技术。大数据管理系统的能耗主要包括硬件能耗和软件能耗,二者中又以硬件能耗为主。解决能耗问题采取的手段包括:采用新型低功耗硬件;建立计算核心与二级缓存的直通通道;从应用、编译器、体系结构等多方面协同优化;引入可再生的新能源等。

第五,大数据管理易用性问题。在大数据时代,数据的数量和复杂度的提高对数据的处理、分析、理解和呈现带来极大的挑战。从开始的数据集成到数据分析,到最后的数据解释过程,易用性贯穿于整个大数据处理的流程。易用性的挑战表现在两个方面:首先,大数据的数据量大,分析更复杂,得到的结果更加多样化,其复杂程度已经远远超出传统的关系数据库;其次,大数据复杂的分析过程制约了各行各业从大数据中获取知识的能力,大数据分析结果的可视化呈现将是大数据管理易用性的又一大挑战。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈