本节针对计算机学科数据构建了一个学术文本词汇功能标注数据集。标注数据来源于美国计算机学会ACM数据库,笔者收集了该数据库1950—2010年所收录文献的元数据,数据大小共215 710篇。
标注针对标题和摘要进行。在这些文献中,存在一些摘要为空或者无意义摘要的文献。这些文献对于后续分析并无意义,需要去除。摘要为空的文献共44 783篇。部分文献虽然摘要不为空,但摘要实质上是丛书的说明,如标题为Support for Relaxed Currency and Consistency Constraints in MTCache的论文摘要为:
The 2004 ACM SIGMOD International Conference on Management of Data,held in Paris in the week of June 13-18,is thefirst SIGMOD ever held outside of North America,and it has chosen a place that is rich in tradition but also rich in new departures,one of the focal points of the age of enlightenment and the place of the French revolution in 1789.We hope that...
本书采用了一个简单的过滤方法,过滤摘要重复数超过2的论文,经过过滤,去除论文5 076篇。(www.xing528.com)
在所有论文中,还存在一些标题为“Brief Announcement”“Editor's Message”等形式的论文,这些论文多是通知、编辑说明,不属于科研论文,因此,这些论文也需要去除。通过人工标注,确定40个标题,通过过滤,共去除论文613篇。最终得到论文165 238篇,构成了后续标注以及实验所用的数据来源。部分过滤标题词汇见表2-1。
表2-1 部分过滤标题词汇
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。