首页 理论教育 基于主题模型的聚合结构在个性化网络学习服务中的应用

基于主题模型的聚合结构在个性化网络学习服务中的应用

时间:2023-11-26 理论教育 版权反馈
【摘要】:学习资源知识组织技术主要有基于目录、元数据和语义等聚合方式。基于图论的划分则是为学习资源所处的数据空间构建一个相适应的图,图的节点对应于学习资源中的最小单元,图的边可以理解为单元数据之间的相似性度量,以单元数据之间的连接特征作为聚合结构的局部特性。如图8-6所示,这里我们采用了基于主题模型的设计思路。

基于主题模型的聚合结构在个性化网络学习服务中的应用

学习资源的多元化发展一直存在着资源整合、集成和融合的问题,也有很多种方法用来形成结构化和有序化的资源体。有研究人员指出:资源的聚合不等同于整合,整合仅仅将分散的资源归集到一起,而聚合则是在整合基础上的进一步分类和聚集[92]。学习资源知识组织技术主要有基于目录、元数据和语义等聚合方式。基于目录的聚合方法是应用最广泛的,例如基于OPAC资源系统的美国国会图书馆目录门户提供的馆藏目录资源检索和OCLC公司(联机计算机图书馆中心)的在线编目联合目录。基于元数据的聚合方法一般采用类似SCORM的CAM中定义的关系元数据进行加工、整理和扩展,试图在元数据之间建立关系,以元数据作为资源的语义和关系表达形式对知识库重新进行梳理[93]。基于语义的聚合方法主要用到信息与知识集成等相关技术,通过为数字资源添加能够被计算机所理解的语义,并在此基础上对不同层次不同来源的本体进行再构建,并对其进行系统化处理,从而形成新的知识体系的技术。本体的构建工具一般需要人工辅助,例如斯坦福大学开发的开放源代码的本体构建工具Protégé以及Apache公司发布的基于Java的Jena工具包等。

学习资源的聚合结构有多种,例如聚类划分、层次划分、基于图论和基于模型的划分等。聚类划分是以相似性为基础,对数据进行无监督的自动分类统计方法,代表算法为K-means。它的基本思想是选取学习资源中多个节点作为聚类初始节点,采用距离作为相似性的评价指标,即认为两个节点的距离越近,其相似度就越大,然后根据聚类准则函数收敛情况动态调整。层次划分方法对给定的学习资源数据集进行层次似的分解,将数据划分为不同的分组,通过不停的迭代进行临近分组的组合,直到满足预定条件停止迭代,根据迭代过程的不同可以分为“自底向上”和“自顶向下”两种结构。基于图论的划分则是为学习资源所处的数据空间构建一个相适应的图,图的节点对应于学习资源中的最小单元,图的边可以理解为单元数据之间的相似性度量,以单元数据之间的连接特征作为聚合结构的局部特性。基于模型的方法则是预定义一个模型,例如基于文本特征的向量空间等,然后将数据集进行分类和调整以满足该模型。(www.xing528.com)

在对学习资源进行聚合结构设计之前,我们必须对学习资源个体进行结构化的表示,以方便我们对非结构化的学习资源表现形式进行统一。如图8-6所示,这里我们采用了基于主题模型的设计思路。主题可以简单地认为是语义相似的词的集合,集合里面汇集的是出现概率较高并且和主题具有强烈相关性的词语。我们把学习资源的基本单元结构分为主题(Topic)、资源实体(Occurrences)和关联(Association)。一个学习资源实体可能有多个主题,在抽象的学习资源体系中,主题可能表示为代表性的名词术语、作者、关键词等,主题与主题之间形成关联,并以此延生为资源实体之间的关联。该算法通过聚合具有内在联系的资源实体体形成一个庞大的资源库协助学习者进行开放式的学习,并且资源实体之间根据主题分析而非人工整理形成高度的语义关联,提高学习者在资源查找和探索的效率

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈