与传统工具相比,人工智能并非固定不变的工具,而是具有相当程度的自我适应性或自我改进性。这种自我改进性来自于机器学习算法,尤其是立足于神经网络技术而发展出来的深度机器学习。与传统线性建模算法相比,此类算法完全利用输入的数据自行模拟和构建相应的模型结构。这一算法特点决定了它是更为灵活的依据不同的输入来训练数据而拥有的自优化特性。[12]正是这种自我改进的智能发展,让人有种杞人忧天式的担忧——人工智能的学习能力将越来越强,从逻辑上推演,它终将超越甚至取代人类。然而,这恰恰是一种没有极限思维的单线想法,如果理解了上述计算机的本源设计和技术原理,就很容易看出其中的谬误。更具体地说,人工智能的发展并非如庄子所言的“无所待而逍遥游”,而是要受制于大数据、算法、算力等自身条件的限制。
作为人工智能最核心、最关键的要素,大数据具有海量(Volume)、高速(Velocity)、多样(Variety)、真实(Veracity)等特征[13]。海量意味着数据的体量大,高速意味着数据更新的及时性和连续性,多样意味着数据来源及内容的多维度、多角度,真实意味着数据本身的可靠性,只有同时满足这些条件的数据才能为我们提供“全样本”,进而发掘出真正的、充分的、广泛的信息。换言之,能否被称为大数据的关键在于,数据本身的内在质量,而数据体量的大小仅仅为此提供了必要的条件。这也是大数据被翻译为“big data”而不是“large data”的原因。现实中,数据的采集、汇聚、加工与理想状态的大数据总是存在距离的,具体包括数据客观层面的不完整性和主体道德认识上的偏见。IBM公司的研究人员亚历山德拉·奥尔泰努(Alexandra Olteanu)在研究报告中指出,数据会决定决策的方式,但数据的收集和测量方式可能导致信息偏见和不完整。在社交领域中,近年来,研究者越来越有兴趣探讨数据集及其采集方法的局限性,它们在很大程度上取决于研究问题的提出背景,从根本上说是研究者的目标。其中,道德伦理的挑战被提到前列,而完全消除社会数据当中的偏见是不可能的,甚至是不可接受的。[14]就算法而言,其也要依靠前端训练集的取样分析,并要通过后端的模型形成和测试,根据新的数据如此循环反复,才能得以不断优化。然而,这也是理想状态。实践中,也常常会存在模型的过度拟合——只在训练样本上表现得很好而不能对于新的数据样本做出很好的预测,或模型的欠拟合——由于数据集太小导致模型不能预测整个样本空间。此外,在机器学习当中还存在“no free lunch”定理——也即不存在能够在所有可能的分类问题中性能均为最优的算法。例如,序列1,2,4,既可能是“前数+1,前数+2,前数+3”的规律,也可能是“2的0次方,2的1次方,2的2次方”的规律,而无论何种算法,显然均无法同时满足两种规律。[15]就算力而言,尽管有摩尔定律的支撑及相关硬件设施的发展,但随着今后数据量呈几何级扩大,能否对其形成挑战,恐怕还有待进一步观察。就算力而言,其是算法有无“用武之地”的重要外在保障。姚海鹏等指出,作为深度机器学习基础的多层神经网络在计算机运算能力取得突破之前,几乎没有实际应用的价值,因为运算量实在太大了。在十几年前,用神经网络算法计算一组并不海量的数据,辛苦等待几天都不一定会有结果。[16]在今天,得益于摩尔定律和与此相关的硬件设施的发展,算力得以大大提升,从而在很大程度上突破了人工智能的发展瓶颈。但算力作为外部制约条件毕竟始终存在。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。