首页 理论教育 组织机构名称识别技术的最新进展与优化

组织机构名称识别技术的最新进展与优化

时间:2023-07-05 理论教育 版权反馈
【摘要】:如果说第一代组织机构名称识别技术的关键词是“匹配”,第二代的关键词是“估量”,那么第三代的关键词则是“预测”。近几年,深度学习在计算机视觉、图像处理等方面取得了巨大的成功,也在自然语言处理领域得到重视,成为组织机构名称识别技术的最新发展趋势。这种方式对机构组织名识别的F-1值为88.61%。这一研究建立了大数据组织机构名研究的范式。而上海交通大学杨昭的研究则是直接借助大数据技术进行组织机构名识别。

组织机构名称识别技术的最新进展与优化

如果说第一代组织机构名称识别技术的关键词是“匹配”,第二代的关键词是“估量”,那么第三代的关键词则是“预测”。近几年,深度学习(即深层神经网络)在计算机视觉、图像处理等方面取得了巨大的成功,也在自然语言处理领域得到重视,成为组织机构名称识别技术的最新发展趋势。深度学习的基本工作方式是:逐层提取外部输入数据的特征,从数据中学习复杂的特征,完成多层神经网络的训练,完成对识别对象归类的预测。目前,在命名实体识别领域中流行的深度学习模型是卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network,RNN)。

有学者(Li et al,2016)使用深度信念网络,在大量无标注语料中无监督地训练语言模型,得到词性特征与词特征各自的分布式表示,再输入构建的深度信念网络中,最后构建6层网络架构。这种方式对机构组织名识别的F-1值为88.61%。学者(Yin et al.,2019)提出采用BiLSTM-CRF模型,也就是用卷积神经网络来提取根本层面的特征,以捕捉字符的内在和内部相关性,并通过自我注意(self-attention)机制来捕捉字符之间的依赖性。实验表明该模型在CCKS-2017和TP_CNER数据集上的F-1值分别达到93.00%和86.34%。陈娟、王卓薇、程良伦基于深度学习模型,通过依次学习训练数据集里的字特征、句子特征以及高级句子的特征,然后结合高层句特征与字特征,用以训练字的标注网络模型Lattice LSTM-CNN-CRF,从而得到未知字的标注值,再进行实体扩展(分类、属性、副标题),最后引入马尔科夫逻辑网络优化整体识别效果。(陈娟,王卓薇,程良伦,2021)以上作者在人工构造的中国地理特产数据集上测试,该方法实体识别精确率为92.82%,召回率为92.10%,F-1值为92.56%。

近几年自然语言处理领域颇具影响力的工作当属2017年谷歌大脑的Vaswani等人提出的Transformer模型。该工作摒弃了传统深度学习中的卷积和递归操作,完全依赖注意力(attention)机制,通过多头自注意力(multi-headed self-attention)机制来构建编码层和解码层。其编码器由6个编码模块组成,编码模块均由自注意力机制和前馈神经网络组成。与已有的模型相比,Transformer模型通过参数矩阵映射进行注意力操作,并多次重复该过程,最后将结果拼接起来,就能一步到位获取全局特征(Vaswani et al,2017)。

2018年谷歌在Vaswani等人的基础上,提出双向Transformer网络结构预训练语言模型(bidirectional encoder representations from transformers,BERT)。应用这一模型,谷歌在当年11项自然语言处理任务中取得了令人瞩目的成绩。这一模型成为目前最好的突破性技术之一。这两年越来越多的研究者也开始将BERT引入命名实体识别任务。武汉大学杨飘、董文永在中文命名实体识别任务上引入BERT预训练语言模型,提出了BERT-BIGRU-CRF网络结构,该模型在MSRA中文语料上可以获得较好的效果,F-1值达到95.43%(杨飘、董文永,2020)。

近年来,随着大数据技术的兴起,大数据也开始用于组织机构名称识别或歧义消解。(www.xing528.com)

中国科学院张建勇等(张建勇等,2019)为消除组织机构名称歧义,精确识别科研实体,通过对来自不同渠道获取的多源元数据进行装载、清洗、汇聚和融合,通过实体分析技术建立以论文为中心,连接期刊、机构、基金和作者的名称规范元数据领域模型。然后根据科研实体在文献特征方面的区别,设计消除歧义规则,并基于百度研发的有监督的神经网络语义匹配算法SimNet,实现名称消歧和归一。作者以中国、美国、英国三国各自的两所顶尖高校数据为例,实验表明该方法与InCites机构规范相比对标吻合度达80%以上。这一研究建立了大数据组织机构名研究的范式

上海交通大学杨昭(杨昭,2020)的研究则是直接借助大数据技术进行组织机构名识别。具体说来,该研究旨在解决教育科研类组织机构名称的多样性对机构名称检索数据的准确性和全面性的影响,而提出利用共现视角和异质网络挖掘方法,构建一级机构-二级机构-三级机构三重异质共现网络模型,并将机构名称归一化问题转化为异质共现网络挖掘问题,挖掘其中文本属性、地理属性和关系属性,以识别同一关系、隶属关系、相继关系、相关关系等的隐形关系,实现机构名称归一化。杨昭以2008—2018年上海交通大学WoS(web of science)文献题录数据机构名称归一化为例,实验表明:上海交通大学一级机构识别精确率达到99.70%,召回率达到99.40%,F-1值达到99.50%;上海交通大学二级机构识别的精确率达到99.40%,召回率达到97.80%,F-1值达到98.50%。

虽然以上两项研究都存在主要局限于高校领域、组织机构名称同质化的问题,但作为组织机构名称识别领域新的尝试,可以从研究范式上给我们带来很多启发。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈