首页 理论教育 经典低资源NLP方法:2019软件工程论文专集

经典低资源NLP方法:2019软件工程论文专集

时间:2023-11-06 理论教育 版权反馈
【摘要】:图1通过NER 技术抽取实体在实际应用中,由于标注数据稀少,但又期望能达到足够好的效果,在经典的机器学习方法里,往往可以通过对特征进行概率统计学习,来形成抽取模型。通过分词、词性标注、句法结构分析等,掌握到“参加本次活动”这样的定语修饰词,以及后续13 个字,经典方法是用概率计算方法判断出现在“是人工智能公司”前面的词汇是公司名的概率。在经典NER 方法中,达观的经验是条件随机场效果较好。

经典低资源NLP方法:2019软件工程论文专集

在众多文本处理场景中,NER(Named Entity Recognition)命名实体识别,又称专名识别,是最为常见的一项任务,使用的范围非常广,因此本文中我们以NER 任务为例来讲解。命名实体通常指文本中具有特别意义或者指代性非常强的事物,例如人名、地名、机构名、书名、时间,以及其他专有名词等。NER 的任务就是从原始的非机构化文本中自动抽取出上述实体,或者按业务需求识别出更多特定类别的实体,比如产品名称、型号、价格等。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体,如在金融行业文本中,债权人、债务人、利润总额、资产负载率等,这些特定意义的信息,都可以视为实体。如图1。

图1 通过NER 技术抽取实体

在实际应用中,由于标注数据稀少(这个原因来自很多实际条件的限制),但又期望能达到足够好的效果,在经典的机器学习方法里,往往可以通过对特征进行概率统计学习,来形成抽取模型。其具体算法思想是由工程师标定特征,通过对训练数据进行特征统计和挖掘,形成抽取模型。

下面简单举例说明,假设标注的样本数据是:

百度是一家人工智能公司→NER(公司名:百度)

需要抽取出“参加本次活动的达观数据是一家人工智能公司”这句话里的公司名。通过分词、词性标注、句法结构分析等,掌握到“参加本次活动”这样的定语修饰词,以及后续13 个字,经典方法是用概率计算方法判断出现在“是人工智能公司”前面的词汇是公司名的概率。

在经典NER 方法中,达观的经验是条件随机场(CRF)效果较好。条件随机场使用势函数和图结构上的团来定义条件概率P(y|x)。给定观测序列x,链式条件随机场主要包含两种关于标记变量的团,即单个标记变量{yi}以及相邻的标记变量{yi-1,yi}。在条件随机场中,通过选用合适的势函数,并引入特征函数,可以得到条件概率的定义:

其中:

(www.xing528.com)

其中tk(yi-1,yi,x,i)是定义在观测序列的两个相邻标记位置上的转移特征函数,用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响,sl(yi,x,i)是定义在观测序列的标记位置i 上的状态特征函数,用于刻画观测序列对标记变量的影响,λk和ul为参数,Z 为规范化因子。

可以将tk(yi-1,yi,x,i)和sl(yi,x,i)两个特征函数统一为:fk(yi-1,yi,x,i),则有:

其中:

已知训练数据集,由此可知经验概率分布Y),可以通过极大化训练数据的对数似然函数来求模型参数。加入惩罚项后,训练数据的对数似然函数为:

其中的σ 是可以调节的惩罚权重。对似然函数L(w)中的w 求偏导,令:

可以依次求出wi[1]。在上述情况下,如果带来干扰的训练样本不多,则CRF 还是可以取得尚可的效果的。但是前置的句法结构分析、词性分析等一旦出现误差,会带来连锁反应。例如“参加本次活动的”这样的定语有时需要进行剔除才能确保NER 识别的精度,不得不让工程师针对每个场景进行很多繁琐的预处理和后处理工作。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈