首页 理论教育 语义数据自动提取在基于语义网的网络学习服务中的应用

语义数据自动提取在基于语义网的网络学习服务中的应用

时间:2023-11-26 理论教育 版权反馈
【摘要】:语义数据自动提取是指利用计算机软件,采用自动语义提取算法,从待处理文件中自动、准确提取语义数据,并形成各种可重复利用的结构化数据文件,如RDF三元组等。随着待标注语义数据不断增加,研究者开始致力于半监督语义数据自动提取。而自动语义数据提取中,不易获取具有独立特征的冗余视图。Adaboost方法迭代次数的增加在不会导致过拟合的同时可降低训练错误率上界,且支持框架方式,适合用于语义数据自动提取[18]。

语义数据自动提取在基于语义网的网络学习服务中的应用

语义数据自动提取是指利用计算机软件,采用自动语义提取算法,从待处理文件中自动、准确提取语义数据,并形成各种可重复利用的结构化数据文件,如RDF三元组等。

(1)有监督语义数据提取

基于扩展关联规则的非类属关系获取方法关联规则挖掘的基本思想是应用统计的方法来发现两个事物之间的关联关系,在对本体概念非类属关系的获取中可以借助这种算法思想来提取本体概念集中具有相关关系的概念对。

有监督方法对关联数据集或知识本体的依赖程度较高,在现有条件下,能用于为学习资源进行语义自动提取训练的数据不足[15]。因此,从训练数据集中抽取的特征受到限制,对于目标实体上下文中的词语提取需要人工参与。有监督语义数据提取需耗费大量人力。

(2)半监督语义数据自动提取(www.xing528.com)

由于有监督语义数据提取方法训练数据不足且人力开销较大,因此半监督语义数据自动抽取方法应运而生。随着待标注语义数据不断增加,研究者开始致力于半监督语义数据自动提取。用于语义关系抽取的半监督学习方法主要有Co-training方法、Lable Propagation方法、Bootstrapping方法和Adaboost方法。由于Co-training方法需要基于两个充分冗余视图。而自动语义数据提取中,不易获取具有独立特征的冗余视图。Lable Propagation方法当数据规模大时,计算成本和内存耗费大,对数据不平衡的响应较慢[16]。Bootstrapping方法在大规模数据处理时,能较好平衡计算的时空开销。Bootstrapping方法通过重复采样,统计学习,对所获得假设进行组合,形成最终的假设用于具体分类任务。但Bootstrapping方法是一种基于统计的分类器简单组合方法,未子分类器的权重[17]

(3)基于Adaboost的语义数据自动提取

Adaboost方法不需特征筛选,支持构建高精确度的构造简单的子分类器,为正确分类的样本赋予低权值,从而改变样本分布,得到弱分类器加权组合。Adaboost方法迭代次数的增加在不会导致过拟合的同时可降低训练错误率上界,且支持框架方式,适合用于语义数据自动提取[18]

对于某些概念RDF,从起始概念开始进行检索及相关性判断。在大数据集中时,直接相关概念的提取仅需要很少时间。但随着时间推移,数据集中满足相关度阈值的概念越来越少,检索效率出现较大幅度下降。此时可引入人工参与。有的学者认为,机器学习方法可以用于判断相关性,对检索结果满意度、时间开销等因素建立决策模型,使概念检索在适宜时间终止。因为RDF中存在索引,而针对特定概念进行相关性判定需要不断读取数据,计算相关度,将其与预设阈值比较后加以排序,最终返回判定结果。这个操作时间开销较大。因此,设计一个合适相关性判断决策模型直接关系到语义应用的效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈