通用人工智能发展过程中面临的最大危机是灾难性遗忘现象,即机器智能无法进行持续性学习,在学习过程中新的学习内容会对旧的学习内容产生影响甚至删除它。面对这种现象,人工智能领域提出了重述路径、注意力路径和分离式表征等多重路径来克服灾难性遗忘现象。伴随着以往路径的失利,分离式表征路径被看作是成为克服上述问题的最大希望。如果这一方法是有效的,那么通用人工智能的技术实现指日可待。所以对分离式表征路径进行哲学分析就显得非常必要。本书则通过哲学方法来检验分离式表征路径的有效性,反思通用人工智能的可能性实现路径的哲学根基。在这一任务之下,本书初步提出两个观点:(1)分离式表征路径的哲学根据是现象学的侧显原则,即对外对象的把握是通过多个侧面完成的;(2)分离式表征路径的问题在于建立在对遗忘的错误理解上,即将遗忘理解为信息的删除。
在人工智能学家看来,持续性学习能力是设计通用人工智能的重要步骤,这意味着需要面对灾难性遗忘现象。[61]“不必遗忘而学习持续性任务的能力对于我们来说是设计通用人工智能系统的重要步骤”。[62]但是,这一观点未免过于技术化。在笔者看来,灾难性遗忘现象(catastrophic forgetting)是人工智能发展过程中可能面临的危机之一,是制约通用人工智能发展的条件。“对于机器而言,遗忘就是灾难性的……是通用智能形成过程中的一个关键障碍。如何处理灾难性遗忘成为AI发展过程中的必须解决的重要问题。所以从这个危机中我们可以看到未来AI发展可能需要解决的问题”。[63]从人工智能发展史可以看出,灾难性遗忘一直是成为人工智能发展过程中的梦魇。1992年,学者们敏锐注意到联接主义路径中的灾难性遗忘问题;26年后,随着神经网络深度学习的发展,这一问题依然存在。面对这一问题,谷歌科学家伊琳娜·希金斯(Irina Higgins)(2018)提出了分离式表征的方法来克服这一问题。那么与以往处理路径相比,分离式表征的方案在解决灾难性遗忘的问题上具有怎样的优势?其哲学根基是什么?本书试图对这些问题展开进一步的分析。
1.不同领域中的灾难性遗忘现象及其克服
现代的认知心理学研究勾勒出人类自然认知系统具有持续性学习的特征,即学习行为并不需要完全抹除先前的信息(McCloskey,M,1989)。[64]在日常生活中能够得到经验的验证,比如我先学会骑自行车,然后去学习弹钢琴。在这个学习过程中,不需要忘记骑自行车的技能和经验,而完全可以学习弹钢琴。在语言学习领域也是如此,如果学习同一种类的语言,后一种语言学习需要遗忘前一阶段语言学习的内容。这个过程也涉及记忆的问题。这种理解中涉及两类记忆:一类是作为过去信息内容存储的记忆;另一类是保存和提取过去信息内容的能力的记忆。
但是,上述心理学的理论只是说明了持续性学习的条件:新的学习不需要抹除旧的学习,并较少对持续性学习的另外一个条件给予说明:这就是旧的学习经验对于新的学习的推动作用。对人类自身而言,触类旁通和举一反三是持续性学习的一个重要特征。在中国语境中,触类旁通是指能够通过掌握某一事物的知识和规律,就可以推演出同类事物中的其他事物。《周易·系辞上》中指:“引而伸之,触类而长之,天下之能事毕矣。”《周易·乾》指出:“六爻发挥,旁通情也。”再有触景生情、触景伤情等都是指被眼前景物触动而产生情感上的波动。在这些现象背后,我们可以看到这类学习的特殊性:人类学习具有触类旁通的独特性。[65]所以,持续性学习的两个特征逐渐清楚起来:首先新的学习不会影响到旧的学习内容;其次旧的学习会影响到新的学习行为。
在这个连续性过程中,记忆起到了非常重要的作用。先前的学习经验以某种特定的方式保存下来,并成为经验,这成为后来学习的关键。亚里士多德在《后分析篇》解释了这一点。“从感觉知觉产生出我们称之为记忆的东西,从同一个事物多次重复的记忆发展出经验。因为许多的记忆构成了一个的经验”。[66]在知识获得过程中,记忆也起到了不容忽视的作用。“那么在现象的变动中,不断变化的印象之流中,似乎固定不变的东西是如何产生的呢?显然,这首先是由于一种保持能力,也就是说记忆力,记忆力使得我们能够认出哪些东西是相同的,这是抽象最大的成果。从变动不居的现象中处处可以看出一种一般的现象,这样,从我们称之为经验的经常重复的再认识中就渐渐出现了经验的统一”。[67]先前学习的经验为后期学习提供了很好的经验,借助先前的经验能够更快地学习到后来的技巧。
如果从上述两种记忆的观念出发,那么在讨论到遗忘的时候,我们依然会遇到两种不同观点。如果从信息内容(印痕与印象)的角度理解记忆,那么遗忘则被看作是上述内容的删除;但是如果把记忆看作是一种保存和提取过去信息内容的能力,那么遗忘就是这种能力的丧失或者消减。这两种观点在哲学史上都出现过的,前者主要体现在柏拉图和亚里士多德那里;后者主要体现在康德那里。康德在论记忆的篇章中谈到了遗忘,在他看来,记忆是一种能力,“把过去的事情在眼前回忆起来的能力”[68],而遗忘是一种“严重的多的毛病。”[69]康德把遗忘归因于注意力分散,“但却总是遗忘最近发生的事情。但这常常也由一种习惯性的注意力分散而引起的……这种阅读自然就造成注意力的分散和习惯性的心不在焉(对眼前事物缺乏注意力),记忆力必将由此受到不可避免的消弱”。[70]这种影响一直延续到现代哲学中。传统哲学把遗忘看作是一种缺陷,需要加以克服和改善。
在认知领域,学者们意识到人类自身存在这种缺陷。联接主义者芬兰克(French,R M)(1992;1999)指出“一个与联接主义网络有关的主要问题是新近学习的信息可能完全破坏先前学习的信息,除非网络持续地保留旧的信息。这种现象,被称为灾难性遗忘,既对于实践目的,也对于心灵模式都是不可接受的。”[71]他提出了激活锐化(activation sharpening)的解决方案。这一方案的目的是:“允许标准的前馈反向传播网络发展半分布式表征,来减少灾难性遗忘的问题。”当我们离开人类领域进入到软件、计算机等技术领域,依然会碰到类似问题。以通常使用的word软件系统来说,就存在着这种现象。第一次我粘贴了一段文字A,然后第二次我需要信息B,我需要进行另外的粘贴。如果接下来我需要用A,则需要重新粘贴。在这样一个过程中,如果我用到A必须重新粘贴A。粘贴B的过程实际上是删除A的过程。我没有办法做到粘贴B的同时保留A。这是在软件意义上的灾难性遗忘。20多年后,随着神经网络技术的发展,这一问题并没有因此而消失,依然存在。“不需要丧失先前的记忆信息,人类经常执行新的学习,但是神经网络模式却遭遇了灾难性遗忘现象,其中新的学习消弱了先前功能”。[72]
2.灾难性遗忘的克服路径变迁
在上述描述现象讨论中,灾难性遗忘中的“遗忘”到底作何理解?我们碰到了两种不同的观点,其一是对先前信息内容的删除;其二是保持和提取先前信息内容的能力的弱化。而“灾难性”容易理解,主要是从后果论而言,即遗忘对于持续性学习的后果。如果在学习过程中,旧的内容被新的内容覆盖或者保持和提取旧内容的能力减弱,那么持续性学习过程是无法有效进行的,这对于持续性学习来说是根本的缺陷。在人工智能领域,我们会看到:由于这两种观念——作为信息内容删除的遗忘和作为保持能力弱化的遗忘交织在一起,所以,在克服灾难性遗忘的路径上,也就存在着一些矛盾和分歧了。而我们的目的是要对这种克服路径做出阐述了分析,并为后面的工作奠定基础。
那么,在灾难性遗忘的问题上,智能科学界主要采取了哪些措施呢?2017年以来,已经出现了若干篇论文回顾克服灾难性遗忘的路径,如Conceptors(2017)[73]、拉普拉斯路径(2018)[74]、注意力路径(2016)[75]。李桑五(Sang-Woo Lee)在《通过增强矩匹配来克服灾难性遗忘》的论文中,梳理了近年来克服这一问题的三条主要路径:“一个阻止灾难性遗忘的主要路径之一是使用神经网络集,另一条路径使用信息的隐含分布存储,在典型的随机梯度下降学习中使用;第三条路径与正则化(regularization)有关的路径,无遗忘学习与弹性权重固化路径。”[76]在这一基础上作者提出了IMM路径。“存储先前的信息和使用它来重新训练模式是最早尝试克服灾难性遗忘的策略,如重述策略……其他克服灾难性遗忘的策略是减少表征层次”。[77]这些表述未免过于技术化,难以被哲学领域学者所理解和掌握。为了实现这一点,可以从两种遗忘观念入手来看不同的克服路径,并找到更具有哲学根据的克服路径。我们基本上可以区分为5种路径。
第一种是重述路径。这也是最早的克服路径,20世纪90年代学者提出重述路径(rehearsal approach)。[78]1995年,安东尼·罗宾斯(Anthony Robins)提出了重述机制(rehearsal mechanism)来克服灾难性遗忘。重述机制主要是指:“当新信息增加进来的时候,对一些先前的学习信息的再训练。”为了避免重述机制中的问题,作者提出了“伪重述”的方法,即提供重述的好处,但是实际上不需要获取到先前学习过的信息自身。“重述与伪重述可能具有应用效果,在旧有的信息最小损坏的情况下,它允许新的信息被整合到一个现有的网络中”。[79]在重述路径中,其主要目标是确保旧有信息的最小损坏,并在此基础上将旧的信息尽可能大地整合到新的网络中。这一做法的基础很显然就是将信息内容的保护和整合机制作为克服灾难性遗忘现象的关键,遗忘作为旧有的信息内容的删除成为很重要的理论假设。这一假设的根据主要是在于神经科学对于记忆与遗忘的理解,即从信息内容的角度去理解上述现象。
第二种是记忆路径。2017年,智能科学家提出了新的克服路径:巩固路径(consolidation approach)。[80]具体如弹性权重固化路径(elastic weight consolidation),“EWC在新的学习期间允许先前任务的知识被保护,因此避免了旧能力的灾难性遗忘,通过选择性地降低权重弹性,因此与神经巩固的神经生物模式平行”。[81]这种做法的本质是为旧的知识内容建立一个保护机制,从而将旧的知识保存更多时间,通过这种方法使得灾难性遗忘加以避免。在这个方法中,首要的是要确立权重。“为了证实这种限制选择以及定义哪一个权重对任务而言最重要”。这种方法是一种类比,其根据是神经科学,“在大脑中,通过减少对于先前学习任务重要的神经元可塑性,神经巩固保证了持续性学习。我们执行了一种算法,通过限制重要的参数来保持与旧值的接近,它在人工神经网络中完成了一个相似操作”。[82]所以在这种做法中,首要地是判断对于任务本身来说,哪一个权重更重要。“这种算法减慢了依靠特定权重的学习,它们基于与先前可见任务如何重要”。[83]它的作用是确保了持续性学习,如在监督学习语境和增强学习语境中允许了持续性学习。上述两种路径中,他们均建立在一个共同的假设之上:对旧记忆内容的保留。要么强化旧的内容的存留时间,要么减弱新的学习对于旧内容的影响。
第三种是表征学习路径。随着图像识别技术的发展,人工智能界开始提出新的克服路径:分离式表征路径(disentangled representation)。[84]分离式表征是一种新的与深度学习有关的概念,被运用于图像、语言和文本的分析中,这种概念为AI的视觉预测能力提供了可能(李飞飞,2018)。[85]这种预测与预见能力与生成模式有着密切的关系。“生成模式(The generative model)在学习分离式表征中是有帮助的。它是一种学习概率分配的方法论,根据在隐藏空间内的代码产生新的样本,通过学习合适的参数,它能逐渐学习产生新的与目标对象同样的新数据”。[86]具体表现为表征路径所要解决的问题是由于姿势变化而导致的识别问题。“然而,姿势变化脸部识别(PIFR)远未被解决,最近的一项研究显示:大多数算法从前方—前方到前方—侧方脸部识别证实效率要降低超过10%,然而人类识别效率仅仅轻微降低”。[87]遗忘意味着这种能力丧失而导致原有的信息无法被提取。所以,这种路径主要是通过建立新的能力来克服灾难性遗忘。如果记忆是一种提取能力,那么,所谓遗忘就是这种提取能力的丧失。
第四种就是注意力路径。这条路径与哲学密切相关。人工智能学界引入注意力机制更多是源自心理学领域。其本意是让神经网络能够更多专注于输入的特定部分,以便带来新的功能。人工智能领域中,将注意力机制区分为两类:轻微注意力(soft attention)和重点注意力(hard attention)。重点注意力是“通过随机梯度下降(随机梯度下降,Stochastic Gradient Descent[SGD]),它同时面向任何一个学习任务,先前的遮蔽被用来调节这样的学习”。后者被证明在克服灾难性遗忘问题上颇有成效。“我们显示提出的机制在减少灾难性遗忘上是有效的,减少当前的比率从45%—80%……通过运行一系列具有多种数据集和技术发展水平路径的实验,我们已经显示这一路径克服图像分类语境中灾难性遗忘的有效性。”[88](www.xing528.com)
第五种是遗忘路径。“所有现存的方法都可以概括化为主动遗忘机制,一种重要的变化是主动遗忘机制对于特定任务而言独立地激活了必要的神经元”。[89]在讨论部分,论文提出了人类可以使用主动遗忘系统来解决层级任务。“它提出人类能够使用主动遗忘系统来解决深层的问题,如果主动遗忘系统被引入人工智能系统,这个假设会提出:(1)作为普遍层级架构的遗忘;(2)无用计划的悖论”。[90]假设(1)说明的是神经元由任务决定,模式在学习新的任务时,神经元从许多用于解决一个高层任务的神经元中选取出来。对于(2)来说,更加有趣。“基于经历(experience),如果系统能够在每一个环境中选择正确的行动,计划变得不必要”。[91]
应该说,人工智能领域克服灾难性遗忘现象建立在对遗忘观念的把握上,也经历了从内容到能力的转变。早期的克服路径主要是将记忆和遗忘看作是信息内容的保持与删除,如重述路径、记忆路径。但是后来的路径主要将记忆和遗忘看作是能力的变化,如表征学习路径和注意力路径,强调对旧有内容的强化保持能力。而遗忘路径则是正视遗忘作用,尤其是强调主动性遗忘的作用,这种做法将遗忘看作是主动性,在特定任务执行中激活了必要的神经元。其实质还是难以摆脱记忆假设,但是值得注意的是,这一路径强调了“经历”(experience)的作用。如果人工智能具有经历成为可能,那么它走向回忆主体的道路就在理论上扫除了必要的障碍。
3.灾难性遗忘与持续性学习
严格来说,本书对持续性学习的哲学反思触及了其根基,即灾害性遗忘问题。正如上文所说,这一问题贯穿人工智能发展历史中,也是机器学习不可回避的基础理论问题之一。如果这一基础问题没有解决,机器持续性学习无法有效得到解释,通用人工智能的设计和发展也会遭遇瓶颈。所以,必须要对当前克服路径做出梳理和反思。本书对持续性学习哲学反思增加了一个被忽视的维度,即过去学习经验对于未来学习的影响。在我们看来,持续性学习不单单是新的学习与旧的学习之间“共存”,而是有着“共融”,共存意味着旧的学习与新的学习之间互不影响,彼此可以共同存在;因为编码能力、承载能力等限制,新的学习不需要删除旧的学习。但是共融则体现为两个方面,一方面是旧的学习对新的学习具有双重作用,干扰或者促进。这种双重作用中的干扰也说明了人类自身的学习有时候也会存在“遗忘”,但是这种“遗忘”不是灾难性的,反而是有助于排出无效信息的干扰。而促进则更多体现为前面所说的融会贯通、触类旁通,旧的学习会成为新的学习的基础和条件,这确保了持续性学习的持续性不仅仅是时间上的连续,而是内容上的融合。
在上述论文谈及持续性学习的时候,均是指新的学习对旧的内容的影响。所以在克服灾难性遗忘的主要方法是通过多种方式稳固保持旧的内容信息。这一克服思路本身没有任何问题,因为机器学习过程碰到的最大问题是新的内容删除旧的学习内容,所以需要通过特定方法保持旧的内容不受新学习的影响。这一思路的基础却存在着一定的问题。在这个现象中,遗忘得到了怎样的理解呢?很明显,遗忘在不同的领域都有一个共同的特征:信息内容的删除。如果我们把学习划分为不同的过程:A、B、C。B的学习会干扰到先前的学习结果A,而C的学习会干扰到B。所以“灾难性”也主要是从影响的后果来说,因为B的学习会删除A的相关内容或影响到A的巩固,所以会导致灾难性后果。但是,这种阶段性的理解是否存在问题呢?自然科学理解的问题在于仅仅从两个相继事件之间的关系进行。但是从现象学的时间构成看,时间的相继性只是一个假象。在胡塞尔的《内时间意识现象学》中,他阐述了现象学的时间意识构成问题。“我们这里所说的‘流逝现象’,或者更好地是说,‘时间位置的样式’,并且就内在客体本身而言所说的是它们的‘流逝特征’(例如现在、过去)。关于流逝现象,我们知道,这是一个不断变化地连续统一,它构成一个不可分割的统一,不可分割为各个能够自为存在的片段,并且不可划分为各个能够自为存在的相位,不可划分为各个联系的点”。[92]“只要有一个新的现在出现,这个现在就转变为过去,而且与此同时,前行点的诸多过去的整个流逝性都挪移下去,均衡地挪移到过去深处……流逝样式的系列凸显出来,它不再含有(这个延续)的现在,这个延续不再是现时的延续,而是过去的并且持续更深地沉入过去之中的延续”。[93]所以通过现象学的分析,我们可以看到自然科学的理解存在至少两个问题:(1)相继性只考虑到2个构成事件,旧的学习内容与新的学习内容之间的划分是基于2个不同时间段划分的结果;(2)两个相继事件的关系是可以各自独立存在的,比如通过特定的方式保持旧的内容。所以,这种看法更多是理智思考的结果。而现象学给予我们对相继性的理解强调了看似能够分隔的事件之间存在着不可分割的关系,如果对不同学习事件加以区分的话,当前学习事件不仅仅影响到上一个序列的学习,而是符合时间意识构造的特征。
4.表征学习路径的哲学根据及其问题
在人工智能领域,表征学习(representation learning)是机器学习领域的重要路径。[94]2018年以来,这种借助分离式表征学习方法克服灾难性遗忘的路径逐渐备受瞩目。“我们已经通过介绍几个新的关键构成部分引入了VASE,它是一种全新的长时间无监督表征学习的路径,建立在分离式因素学习的近期工作之上……我们已经显示VASE能够学习数据集序列的分离式表征。它无需体验灾难性遗忘,通过动态地分配多余表征新的信息来实现这一点”。[95]那么这一方法称为最有可能路径的根据是什么呢?根据伊琳娜·希金斯的看法,分离式表征方法有独特的优势。“不同于其他持续性学习路径,我们的算法不需要维持过去数据集的重演缓冲器,或者在每一个数据集关闭之后改变丢失功能。事实上,它不需要数据集呈现序列的任何先天知识,因为在数据分配中这些改变被自动推演。它以一种类似于生物智能的范畴知觉特性的方式解决了模糊性。最重要的是,VASE允许分享不同数据集之间潜在因素的语义意义,它使得VASE执行跨领域推演和想象驱动探索。总体来说,这些特性使得VASE成为一个学习表征的有前途的算法”。
首先碰到的问题是:如何理解数据表征和表征学习中的“表征”?在智能科学家看来,表征和方面(manifold)与特征(features)有关系。“一谈到表征,人们可以需要通过考虑在已学习表征中被捕捉或者反思(通过相应的变化)的输入空间中的变量来考虑一个方面(manifold)”。[96]我们为何需要表征学习?“一个AI必须基本上理解我们周围的世界,我们论证道如果它学习识别和分离隐藏在低层次感觉数据中的可观察环境中的下层解释性因素”。[97]这里的关键是“隐藏在低层次感觉数据中的可观察环境中的下层可解释的因素”,这是被识别和分离的对象。
这一路径让我们看到了其背后的现象学根据:侧显原则。“任何空间对象都必定在其中显现的视角、透视性的映射始终只是使它达到单面的显现。无论我们可能如何充分地感知某物,那些应归于它并且构成它的感性事物性的特性绝不会全部落入此感知之中”。[98]“在看桌子的前面时,只要我们愿意,我们能策动一个直观的表象进程,一个诸视角的再造性的进程,借此进程,这个物看不见的面便被表象出来……我们所做的无非是将一个感知进程当下化,在此进程中,我们在从感知过渡到新感知时会在原本的视角中从不断更新的各面看对象”。[99]
再看整个机器学习的实质:“机器学习就是算法通过对大量数据集合进行自动分析,来识别世界上的各种规律模式的途径。”算法如何识别出对象呢?“当处于各个连续层面的神经元都做出反应时,一幅关于世界的画面就算填充完整了,期初它的分辨率还仅仅是在概念性层次上(这是一条线、这条线是物体的边缘),随后采集到特征越来越细微的细节聚集起来,最高层次的认知标准被激活了,一个与恰当的标签联系起来,输出神经元最终给出判断:这是一个叫瑞吉的人正在阴影中”。[100]这明显与现象学的“充实”(fulfilment)概念是一致的。“充实即空意念和被充实意念之间的相符性的经验。一切知觉经验都包含着空意念和被充实意念的一种交织性混合物”。[101]
在这一领域,持续性学习获得了一种新的表述形式:如何确保旧的学习内容被迅速识别?这一表述方式改变了传统的提问方式,在传统的路径中,主要是追问如何确保旧的学习内容继续存在,不受新的学习的影响。从“继续存在”到“迅速识别”是旧内容保持到被识别的转变。表征式学习恰恰是指向不同的呈现面的学习方式。比如在人脸识别问题上,机器可以通过不同姿势如侧面的人脸来识别出最原初的正面形象。
5.结论
可以说,分离式表征路径是人工智能领域面对灾难性遗忘提出的最具希望的方案,这一方案让我们看到AI具有想象力、预测力等多种未来可能性,让我们看到灾难性遗忘被克服的前景。通过上面的分析,我们也看到这一路径的可能性哲学根基,这种根基的提出更加论证了这一方案的可靠性。但是,正如本书前面提出的,AI领域灾难性遗忘现象并不是一个孤立的属于技术范围的问题,它让我们面对人类自身的老问题:AI对于我们理解自身及其人类文化发展和传承的问题有着怎样的启发?同时也让我们面临新的问题,AI的预测能力与回忆能力到底如何不同于人类自身?
此外,从问题本身看,灾难性遗忘涉及是学习的持续性和断裂性的关系,对于人类个体而言,存在着特定阶段的遗忘现象,对于人类特定的认知结构来说,这种现象是必然的一个结果吗?随着人工智能领域对于遗忘作用的正视:遗忘在神经网络决策中的正面作用,这一点会为我们对人类文化延续现象与断裂现象的思考给予启发。对于人类文化来说,延续与断裂是共存的现象,各有其意义。断裂所产生的结果并非是灾难性的,而是具有创新的意义,如此,我们会对以断裂为基础的遗忘正视,遗忘对于人类社会而言,并非是传统记忆哲学中所说的记忆能力的削弱或者是违背记忆伦理的行为,而是体现出一种新的意义,那种对于个体来说,是促进成长的意义,对于社会来说,是促进创新的意义。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。