首页 理论教育 学术文本中的问题生成与排序:理论、方法与应用

学术文本中的问题生成与排序:理论、方法与应用

时间:2023-11-20 理论教育 版权反馈
【摘要】:为了实现特定形式标题的自动生成,可以对处理文本中的词汇或者词汇序列使用排序模型进行排序,排序的目标是最大化词汇序列与WM或WF中元素的相似度。例如,对于图4.1所示的文本,为了抽取表示核心问题的词汇序列,排序模型能够得到类似于表4-1所示的排序结果。

学术文本中的问题生成与排序:理论、方法与应用

给定摘要(或者全文)文本d={w1,w2,w3,…,wm}和标题t,本节所指标题生成任务的目标是从文本中选择合适的词汇序列p替换“基于X的Y研究”中的X和Y占位符以得到生成标题tgenerated,任务的目标是最大化相似度函数sim(t,tgenerated),相似度函数sim(t,tgenerated)用于衡量t和tgenerated的语义相似度。

从文本中生成标题本质上是一个自动摘要(automatic summarization)问题。自动摘要的方法很多,大多数自动摘要方法能够作用于标题生成任务。本节采用了传统自动摘要方法的研究思路,对论文摘要(或全文)中的词汇序列进行排序,利用排序结果生成标题。

无论标题是“基于X的Y”“Y based on X”“Y using X”或者是“X algo-rithm based Y”,等等,一旦能够确定这些标题中的占位符X和Y所指代的词汇的功能,就可以直接使用这些词汇作为标题生成模型的学习依据。记标题为T,标题中的反映核心方法的词汇序列集合为WM={p1,…,p m},反映核心问题的词汇序列集合为WF={p′1,…,p′n},通常,m或者n为1。

为了实现特定形式(这里指类似于“基于X的Y”)标题的自动生成,可以对处理文本中的词汇或者词汇序列使用排序模型进行排序,排序的目标是最大化词汇序列与WM或WF中元素的相似度。例如,对于图4.1所示的文本,为了抽取表示核心问题的词汇序列,排序模型能够得到类似于表4-1所示的排序结果。

表4-1 词汇序列排序示例

(www.xing528.com)

续表

在训练中,可以使用特定形式的标题给出的信息计算词汇序列的得分,但在实际识别中,标题信息并不能被得到。为此,需要使用其他特征构建排序模型,可以使用的特征包括:词汇序列的内部词汇特征、词汇序列前后的词汇特征、词汇序列的句法特征等。

确定词汇序列的特征后,另一个需要解决的问题是如何排序,本章使用机器学习排序的方法,基于词汇序列的特征表示对词汇序列进行排序。方法的细节将会在4.5节中交代。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈