首页 理论教育 基于机器学习的自动提取:改善个性化网络学习服务

基于机器学习的自动提取:改善个性化网络学习服务

时间:2026-01-27 理论教育 小霍霍 版权反馈
【摘要】:图4-3基于机器学习的语义数据自动提取基于神经网络的机器学习法具有基于属性-值的特征,与书中所关注的语义数据自动提取任务中提取后的语义数据表示方式相似,属于连接主义学习方法,具有较高准确率,但需要设置较多参数,影响易用性。基于神经网络的机器学习法由于缺少有效算法的支持,在信息提取领域未得到推广。统计学习方法是近年最受关注的机器学习方法,遵循结构风险最小化原则,最典型的有支持向量机、核映射等方法。

语义数据自动提取中的许多工作涉及机器学习方法。语义数据自动提取与机器学习的关系如图4-3所示。将语义数据自动提取任务归入人工智能的研究范围,自动提取出的语义数据具有知识的特征,可以看做知识工程领域中知识生成、知识管理的子任务。无论是人工智能到知识工程的研究都以机器学习为主要研究方向。机器学习的一般过程主要包括构建学习器,处理已标记数据及无标记数据,添加类别标签,对结果进行泛化。与信息提取领域结合较紧密的机器学习方法有直推学习、主动学习、符号学习、半监督学习等。其中,符号学习关注基于描述逻辑等符号表示系统的逻辑运算及推理,不适于对大规模数据进行处理。

图示

图4-3 基于机器学习的语义数据自动提取

基于神经网络的机器学习法具有基于属性-值的特征,与书中所关注的语义数据自动提取任务中提取后的语义数据表示方式相似,属于连接主义学习方法,具有较高准确率,但需要设置较多参数,影响易用性。另外,采用试错法影响效率。基于神经网络的机器学习法由于缺少有效算法的支持,在信息提取领域未得到推广。从实例中学习的方法与归纳逻辑程序设计思想相近,采用一阶逻辑知识表示方法,从实例中推理,对于形式化表示的本体、RDF等数据的自动分类中具有较好表现,但仍然无法处理大规模数据。(https://www.xing528.com)

统计学习方法是近年最受关注的机器学习方法,遵循结构风险最小化原则,最典型的有支持向量机、核映射等方法。在数据表达较规范、实体名称无歧义的状态下,统计学习法取得稳定的分类结果,但无法用于表达复杂数据及数据间的复杂关系。有学者提出基于图正则化框架的半监督学习方法,在测评中取得较好的效果[25]。在图正则化框架中基于聚类假设演化为以生成式模型为分类器的半监督学习法,如基于流形假设则演化为基于协同训练的半监督学习法。这些半监督学习法在一些领域和具体的应用中取得一定效果。

由于一种分类器往往仅对某一类数据有较好处理效果,因此集成学习法进入研究者的视野。集成学习可分为同态集成和异态集成。采用相同原理学习器进行组合的集成学习法为同态集成学习法。采用不同原理学习器进行组合的集成学习法为异态集成学习法。同态集成学习法常将不同的统计学习分类器进行组合以获取更佳分类效果。集成学习法根据任务的侧重点不同可分为基于聚类的集成学习、基于排序的集成学习、基于选择的集成学习(动态选择、静态选择)、基于优化的集成学习、基于启发的集成学习。常用的集成学习算法主要包括Bootstrap、Jacknife、Bagging、Boosting、Radom forest、Adaboost等[26]。这里可以采用基于启发式集成学习算法,需要根据所处理数据的特性和任务要求,对学习器进行融合。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈