由于短文本噪声大、稀疏性强、歧义性普遍,因此“理解”短文本对于机器来说很难,但是人类通常能够轻而易举地理解。这是因为,人类拥有语言知识和常识,能够积累知识并做出推断。语言的理解建立在认知的基础上,如果想让机器也具备语言认知能力,那么机器就需要拥有与人类差不多的语言知识。那么,“如何利用人类语言知识来培育机器智能呢”?为了回答这个问题,有研究将目光投向在人类精神世界和语言范畴中占有重要地位的概念(Concept)信息。参照以往研究[4−5],“概念”被定义为一组(类)实体或事物的总称,属于相近(或相同)类别的词语有相似(或相同)的概念表达及语义内涵。例如,词语“Jeep”(吉普)和词语“Honda”(本田)都属于概念CAR(汽车)。概念是人脑对客观事物本质的反映,是思维活动的结果和产物,是思维活动借以开展的基本单元。例如,“汽车”这一概念让我们能够认知形形色色的汽车,把握其共性本质,而无须纠结于不同特定汽车的细微差别。心理学家Murphy[6]在其高引专著The Big Book of Concepts的开篇写道:“Concepts are the glue that holds our mental world together...”(概念将万物相连……)。2003年,Nature(《自然》)杂志发表观点:“Without concepts,there would be no mental world in the first place...(概念筑成精神世界……)”。概念的形成是人类认知从具体进入抽象的第一步,人类通过概念认知世界,概念是人类认知世界的基石。毫无疑问,概念知识能够促进人类学习的认知过程;同样,本书认为概念知识也可以用于培育机器智能,引入概念信息是本书在让机器具备认知能力的征程中迈出的至关重要的一步。因此,面向短文本表示建模研究及应用需求,为了解决传统文本处理方法在短文本上所面临的挑战,需要从篇幅有限且噪声大的短文本中挖掘更多语义信息(如语义层次更深的概念信息);同时,需要构建相关框架,使各类语义信息能够充分地融合与交互,进而实现对短文本的语义的高效表示建模。
本书所使用的概念知识资源是目前规模最大、质量最高的概率化词汇语义知识库Probase[7]。知识库Probase同时被作为本书的词表。该知识库包含百万量级细粒度的、被明确定义的概念,而一个词语可能从属于多个概念。例如,在知识库Probase中,词语“tiger”(老虎)所从属的概念包括ANIMAL(动物)、WILD_ANIMAL(野生动物)、JUNGLE_ANIMAL(丛林动物)等。所以,降低概念空间的维度对于降低计算复杂度是十分有必要的。而且,可以通过降维来创造更有意义的相关性度量方式,这对后续概念化和向量化相关工作大有裨益。Li等[8]使用k−中心聚类(k−Medoids Clustering)算法,将知识库Probase中所有百万量级的个体概念聚成5000个互斥的概念类簇(Concept Cluster)[5]。例如,ANIMAL(动物)、WILD_ANIMAL(野生动物)、JUNGLE_ANIMAL(丛林动物)等个体概念都被聚合在概念类簇Animal(动物)下。因此,效仿以往研究策略,本书不在所有个体概念上进行概念化研究,而是在上述概念类簇上进行短文本概念化研究与相关分析。为了便于描述,下文使用“概念”指代一个概念类簇。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。