语义数据的提取主要分为有监督、半监督和无监督的自动提取三种情况。有监督语义数据提取的基本思想是应用统计学的方法来发现两个事物之间的关联关系,对于目标实体上下文中的词语提取需要人工参与,且人力开销较大,而半监督的语义数据自动抽取方法更注重自动化的计算机处理,只需要少量的已标注数据,无监督的语义数据提取则从未标注的数据中学习和提取语义信息,难度最大。用于语义关系抽取的方法 有 很 多,例 如Bootstrapping、Co-training和Adaboost算 法 等。Bootstrapping算法是一种广泛用于知识获取的机器学习方法,该方法利用有限的样本数据作为种子,通过多次重复抽样以及模式匹配,将种子进行扩充并重新建立一个新样本,其标注模型是一个不断迭代的过程。Co-training使Bootstrapping的思想扩展,主要用于二元分类问题,其基本思想是构造两个不同的分类器,利用小规模的标注语料来对大规模的未标注语料进行标注,可以应用到网页分类、图像标注和词语分析等场景中。但该方法需要构建两个充分冗余视图,并且要求两个特征视图满足一致性和独立性假设,不符合许多实际应用的要求。Adaboost语义提取算法也是一种迭代算法,它针对一个训练集训练不同的分类器,再将这些分类器组合起来构建一个更高精确度的强分类器,可以简单地认为是一个弱分类算法提升过程。该算法主要考虑的问题是训练集如何调整提高弱分类器的分类能力以及如何将各个弱分类器组合成最终的强分类器[90]。
提高计算机对学习资源的语义理解能力是为了对学习资源进行关联分析做准备,这种关联形式可以简单的分为显性和隐性两种模式。显性关联是指不经过复杂的语义分析,以原始数据现存的数据结构和层次目录为基础,包括资源目录、超级链接和RSS聚合等,对学习资源重新梳理和归类。隐性关联不能通过人为规划的资源链接和目录形式体现,需要通过数据挖掘技术分析出计算机能够处理的潜在联系。隐性的关联需要将学习资源个体进行语义分析和描述,再通过聚类和推理等方法对数据资源进行结构化的划分。隐性的关联要求资源个体在进行关联时是从知识领域上的解释和逻辑出发,体现学习资源所要表达核心内容的概念及概念间的关系[91]。(www.xing528.com)
学习资源的显性关联一般用链接的方式关联数据对象,主要依靠人工的结构化数据梳理形成联系,主观性较强,无法体现数据的内在联系。而通过语义分析和关联之后,一方面可以提高对学习资源进行语义搜索时的准确性,为进一步的知识检索和学习推荐提供服务;另一方面还可以为将分散的学习资源分类聚集,根据内在逻辑动态规划为结构清晰的资源群体。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。