在对资源实体生成主题信息之后,我们还需要将主题之间的关系计算出来,这里采用了自然语言处理中的词向量的计算方法,通过训练将文档中的每一个词映射成一个固定长度的短向量,这些向量共同组成了一个词向量空间,空间中的每一个点代表了一个词语,词语之间的距离就可以通过词向量空间中的“距离”进行表示。
例如词语正弦定理可以表示为向量[0.729-0.177-1.07 0.109-0.542…],不同词语向量以余弦距离或欧式距离作为向量差异,得到词语之间的距离,我们便能够通过词语向量进行关联分析,为进一步的知识关联做准备。以图8-8为例,假设将词语“余弦”、“正弦”、“动量”和“增势”等词语置入三维空间中(实际应为多维空间,维数由词向量的维数确定),“余弦”和“正弦”两个词语的欧式距离最近,说明其语义较接近,而离“动量”和“增势”等词语较远。
这种训练方法最成功的算法是Bengio等人在机器学习领域重要会议NIPS(Neural Information Processing Systems)上提出的三层神经网络构建的语言模型,可以生成词语的多维向量对词语进行数学表达。多维向量可以将词汇列表放置到多维空间中,通过计算多维空间的余弦距离或欧氏距离形成词汇之间的关系[94]。该算法的基本假设是:相似的词语拥有相似的语境,即特定的语境只有确定的语义才能够与之匹配。通过最大化条件概率,使得单词和语境之间的对应关系最大化,进而满足该假设。而满足条件概率最大化的词语向量,也就成为了词语语义的合理表示。
基于主题模型的资源聚合主要参考了复杂网络的相关算法。复杂网络即呈现高度复杂性的网络,根据钱学森的定义即“具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络”[95]。复杂网络是复杂系统的抽象,现实中许多复杂系统都可以用复杂网络的相关特性进行描述和定性,它具有结构复杂,小世界,网络进化,连接多样性等特点。小世界表示不管网络规模多大但是任意两个节点间却有一条相当短的路径,同时网络中各个节点会形成小规模内聚的网络分布并且相互联系的状况,同时网络自身会根据节点的变化而发生形态的变动。类似地,大数据背景下的学习资源中的聚合方式一般也是依据相似性查找的方法,在资源库中将具有相似关系的资源节点根据关联程度聚合成不同的主题资源集合,不同的资源节点之间也有不同程度的关联。
因此我们在聚合过程中将学习资源库的构建过程作为一个复杂网络对待,在词向量组成的向量空间中,以主题词语为代表的资源个体可以作为复杂网络中的系统个体,个体之间的词向量距离表示个体之间的关系。同一集合内的节点与节点之间的连接很紧密,而集合与集合之间的连接比较稀疏。设图G=G(V,E),资源聚合的目的就是在图G中确定n(≥1)个社区使得各集合的顶点集合构成V的一个覆盖,形成过程如图8-9所示。
图8-9 复杂网络中的资源聚合过程
将学习资源库通过复杂网络模型抽象之后,我们使用标签传播算法(LPA)这种基于图的半监督学习方法来对资源节点的相互关系和聚集形式进行计算。LPA算法由Zhu X J于2002年提出,该算法需要初始化一部分带有标签的资源节点,每个标签代表一个资源集合,每个节点的标签按相似度传播给相邻节点[96]。通过不断迭代的传播过程,已标注数据逐步将自身的标签复制给周围的未标注数据,同一个标签代表的资源集合形成一个相对稳定的整体,直到整个系统趋于稳定时完成标签传播过程。该过程利用少量的人工标注标签作为指导,通过资源个体的主题模型和代表词语自动关联周围的未标注数据,从而自动构建能够体现学习资源库内在关系的网络结构,完成资源群体的标记和划分[97]。
标签传播算法(LPA)的计算过程如下:(www.xing528.com)
第一步:为已经标注的节点设定标签,假设(x1,y1)…(xl,yl)为已经标记的数据,{y1…yl}为类标签。标签的总数为C,并且在已有标记中均使用过。
第二步:准备对未标记的节点(xl+1,yl+1)…(xl+u,yl+u)进行标注。计算网络中某一个资源节点周围的所有节点的欧式距离,距离越小,权重越大,将出现权重最大的那个标签赋给当前节点,其中的权重大小可以通过参数σ参数进行控制。
第三步:逐轮刷新所有节点的标签,直到达到收敛要求为止。
具体的标签选择过程如图8-10所示,计算主题“?”的节点周围的节点权重和顶点度,主题1的平均权重为1,主题2和主题3的平均权重都为3,而标签2的顶点度之和为2,标签3的顶点度之和为4。因此中间的顶点将选择3作为其标签。
由于一个资源实体对应有多个标签,因此对每个节点所能归属的资源集合进行划分的时候,还需要考虑到多标签传播的问题。这里借鉴SLPA重叠型社区发现算法的思想,记录每一个节点在刷新迭代过程中的历史标签序列,当迭代停止后,对每一个节点历史标签序列中标签进行排序,选取最靠前的多个标签为该节点的标签。
图8-10 标签选择过程示意图
通过该算法,可以利用未标注数据之间的语义关系和邻近数据的标记,从已标记的数据预测和传播标签,由此形成以主题为核心,以标签为关联的知识网络,运算方式适合大量学习资源数据信息的结构化整理工作,并且为后续的检索与分类,语义分析,语料标注,信息推荐提供基础。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。