与语言学中所称“语义关系”不同,为了明确研究范围,本书所称语义数据,主要指可以被计算机“理解”的、概念间存在的具有类属性质的包含关系、前后序关系以及具有非类属性质的SameAs关系。
语义数据自动提取基本步骤:首先,完善领域词典。通过本体推理方法计算本体的概念结构。在本体概念中选择语义区分度明显的部分概念作为机器学习的分类。利用半监督机器学习方法进行分类学习。对待测学习资源中的实体进行分类识别,获得命名实体识别结果。对实体的概念做进一步的求精和细化。构建半监督机器学习训练集。确定与网络学习资源相关的一个或多个领域本体。然后,根据从领域本体中获得相应的概念对学习资源描述中的语义关系元数据进行提取。将提取完成的数据写入网络学习资源本体库。语义数据自动提取中的概念的聚类采用自底向上的方法,用平均距离法表示类间的距离,在所有类的相似度均小于给定的相似度阈值时,算法终止。
(1)基于启发式集成学习的语义关系提取方法
半监督语义关系提取方法在非人工干预的条件下自动实现待处理无标记数据利用。在训练数据较缺乏的情况下,通过利用一些没有类标的数据,提高学习准确率。数据进行聚类,通过数据内在属性和联系,将数据自动整理为某几种类型,属于非监督学习。可以通过查询语义数据云图获知待处理数据中部分类别,该部分数据可作为训练数据,通过已标注数据进行归纳总结,得出一个“数据-类别”映射函数,对其余数据进行分类,这就属于监督学习。
半监督语义关系提取方法是:首先,对输入的文档进行预处理,以文本块为单位,识别出包含一个概念的所有文本块。通过对LOD进行查询,获得概念在语义数据云图中所对应的具体类。然后,提取出这些类的属性实例以及和其他类之间的关系实例。依次提取概念名称、类、属性、关系后,在此基础之上生成RDF文档三元组。
设Ltr={(xi,yi)}为给定训练集,对每个训练个体xi,,yi, 输入变量xi={xi1,xi2,…,xip}∈RP,输出变量yi∈∅={y1,y2,…,yc},C为类的个数。令LV、Lt分别表示大小为Nv和Nt的验证集和测试集。T={C1,C2,…,CT}表示基于Ltr训练的基学习器集合,H={MC1,MC2,…,MCH}表示启发器基于LOD获得的类映射结果,S={C′1,C′2,…,C′S}表示基于启发器从T中获得的基学习器集合。
启发式集成学习基于LOD获得的类映射结果进行启发运算,对基分类器进行筛选及合并。在待优化问题实例获取可接受的计算成本内,给出一个近似最优解。由于最优基学习器子集S可通过穷举法获得,但对于r的每个子集T,可获得具有最小泛化误差的集成学习器子集S=。该过程需要对(Ti)个子集进行计算,因此有必要通过启发运算降低基学习器筛选的时间开销。(www.xing528.com)
启发式集成学习需要确定最终保留的基学习器的数量是在总体数量的10%之内。依靠启发器自适应设置合理的基学习器权值及效用阈值以提高基学习器效用数量比[27]。
启发器作用主要在于通过LOD等资源进行查询,构建适用于处理当前数据的基学习器组合模式,选定基学习器衡量指标,以较小时间代价排除效用阈值低于预计值的基学习器。由于基学习器的准确性与多样性间存在矛盾,要使集成学习器具有较强的泛化能力,需要保障基学习器多样性处于一定范围内,且算法需具备一定鲁棒性,在外界扰动情况下,进行自适应平衡[28]。启发器对特性互补的算法、模型之间进行预匹配,在减少基学习器选择时间的同时提高分类准确率。
例如,Random Forests model(RF)对参数选择不敏感,不容易过拟合。而GBRT是一个Gradient Boosting的方法,在步长(Step Size)和迭代轮数之间存在平衡(Trade-off)。要获得全局极小值则步长很小,而迭代轮数会增大。RF为GBRT提供一个接近终点的起点(Start Point)。在步长较小的情况下,也能较快的结束迭代。
将Random Forests(RF)和Gradient Boosted Regression Trees(GBRT)算法置入集成学习算法序列中。用RF学习一个排名函数,用这个排名函数的输出初始化GBRT。
(2)语义数据自动提取示例
以输入的网络学习资源片段为例,“RAM(Random Access Memory)是指随机存储器。在RAM中的存储单元内容可按需随意取出或存入。按照存储信息的不同,RAM又分为静态随机存储器(Static RAM、SRAM)和动态随机存储器(DynamicRAM、DRAM)……”。通过命名实体识别,获知该网络学习资源片段是一个存储器的实例。然后,在上下文中找出包含“随机存储器”的句子,在本例中即是,“随机存储器又分为静态随机存储器(Static RAM、SRAM)和动态随机存储器(Dynamic RAM、DRAM)”。然后通过基于语义数据云图的命名识别算法,可提取出概念的包含关系:分为概念名:“静态随机存储器”,概念名:“动态随机存储器”;根据本体规范生成三元组:随机存储器,包含静态随机存储器、随机存储器,包含动态随机存储器。最后,将提取的数据生成RDF文档形式。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。