大数据的“4V”基本特征是以下四个方面内容。
1.VOLUME(体量):数据体量巨大,从TB级别上升到PB级别;
2.ARIETY(类型):数据类型众多,可能同时具有结构化、半结构化、非结构化数据,且数据多源、非标与非平稳;
3.VALUE(价值):价值密度低,但商业价值高;
4.VELOCITY(速度):处理速度快,1秒定律,与传统数据挖掘技术本质不同,支持在线服务。
我们知道,现在的大数据是公开评测的,因为人工智能发展到最近这五年,已经出现了大量公开的数据集,这个是干什么用的呢?就是评测这个算法好不好,主要是做学术研究。
还有一个专有大数据。专有大数据主要掌握在互联网巨头手上,这也是发展人工智能的一个优势,它是公司自己的、是不公开的。这些数据资源的重要性就像原油一样,是人工智能时代真正的一种战略性的资源。(www.xing528.com)
很早的时候英特尔的全球CEO就这么认为,在人工智能时代,新的石油是支撑人工智能产业的一个基础和关键。吴恩达把大数据比喻成燃油,把计算能力比喻成飞机的引擎,如果是油给得越多,引擎就可以运转得更强劲,飞机就飞得越高,载重越大,飞得更远。
人们知道大数据是如此的重要,数据给得越多,就能获得更好的感知直觉能力。从理论上讲就是要追求大的数据,追求完备的大数据,把数据所有的类型都能找到。比如像一个人,从来没见过飞机,现在这个方法就是把全世界所有的飞机照片都要找到,不管什么类型的飞机采集出来之后给它标上这是飞机,然后训练机器使它跟人一样去认识这个飞机,这就需要把所有的照片都找出来,就是所谓的完备大数据。
完备大数据也是相对的完备,实际上人们不可能把所有的照片都能找到,所以提完备大数据是不合理的,这完全是一个理想化的状态。那么又该怎么办呢?这就要靠举一反三。人们可以通过看几架飞机,通过举一反三就把所有的飞机全认识了。人具有举一反三的能力,这是机器现在还做不到的事情。
人们怎么去采集数据呢?有很多方法可以进行采集,比如用摄像头拍,就是采集图像的数据、视频的数据;又比如用话筒采集音频的数据。采完之后对它进行“清洗”,很多明显不对的东西就把它去掉。
怎样给数据做标签呢?可以采用互联网的方法,采用众包的方法。北京现在就有很多这样的企业,专门做大数据处理的,做标签的公司非常之多。现在的方法必须是要求大数据具有完备性和真实性。前面讲到的完备性实际上是很难满足的,这也是大数据存在的大问题,比如谷歌它的自主驾驶汽车的里程已经超过500万千米了,但这个数据还不够。总之,采集数据可以采用众集的方法,然后采用互联网众包的方法来“清洗”和标签。
大数据的重要性如同原油一样,很多企业(包括跨国企业)都视之为战略资源,尤其是做了标签的数据(具有真正价值),是不会随便给人使用的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。