首页 理论教育 学术文本的标注流程与规范

学术文本的标注流程与规范

时间:2023-11-20 理论教育 版权反馈
【摘要】:在标注过程中,标注人员随机挑选文献进行标注,如果发现挑选文献所反映的内容超出了标注人员的知识范畴,则不予标注。例如,在图2-18的片段中,2PP、pattern discovery等都不会被标注为方法,简而言之,这个句子不在标注范围之内。由于指代消解技术的限制,人们可能不能处理这里的指代关系,但在标注时,仍然需要将其标注为MainApplication、MainMethod。图2-18不予标注的片段示例图2-19代词标记的示例

学术文本的标注流程与规范

标注只针对标题和摘要进行。标注的类别包括:

• Method:方法、技术与解决问题的途径;

• Application:研究的应用点或解决的问题;

• MainMethod:在整个研究工作中使用的主要方法、技术或解决问题的途径;

• MainApplication:整个研究工作主要处理的应用点或解决的问题;

• OtherMethod:不直接参与研究工作的,作为背景存在的方法;

• OtherApplication:不直接参与研究工作的,作为背景存在的问题;

• DataSet:研究中采用的数据、数据集;

• Tool:研究中开发的或者应用的工具、系统;

• Measure:研究中采用的指标。

文本在被标注之前经过了术语识别的处理,本书使用了一个较大的计算机领域词典,利用最大正向匹配方法对领域术语进行查找,并将其标记为一个词汇单元。(www.xing528.com)

本书并没有直接在词汇层面上进行标注,而是在组块上进行。为此,待标注数据需要通过组块分析获得组块表示,标注工作的最小单元是组块。在组块分析时,对标题使用了OpenNLP Chunker,而对摘要使用Stanford Parser的组块分析功能。之所以使用两种不同的组块分析工具,原因在于标题的句式同Stanford Parser默认的句法分析模型的训练数据差别较大,句法分析得到的解析结果效果较差,而基于此的组块分析效果自然也就难以达到理想的效果,相比较而言,使用简单模型构造的OpenNLP Chunker在短文本组块分析上效果较好。

标注时,遵循了一些标注规范,其中较为重要的有:

①标注人员必须对标注的文档知识较为熟悉,不标注不熟悉的文档。在标注过程中,标注人员随机挑选文献进行标注,如果发现挑选文献所反映的内容超出了标注人员的知识范畴,则不予标注。

②如果句子不是对论文所述科研工作的反映,则这些句子不会被处理。这些句子可能是对背景信息的交代,或者是对某个概念的解释,但并没有反映科研工作行为。例如,在图2-18的片段中,2PP、pattern discovery等都不会被标注为方法,简而言之,这个句子不在标注范围之内。

③文本中会出现一些代词或者具有代词意义的名词词组,这些词汇如果体现出了全局方法或者全局问题的意义,也将被标注。由于指代消解技术的限制,人们可能不能处理这里的指代关系,但在标注时,仍然需要将其标注为MainApplication、MainMethod。同样,对于有局部意义的问题、方法也做如此处理。如图2-19所示,“our approach”即被标注为全局方法。

图2-18 不予标注的片段示例

图2-19 代词标记的示例

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈