达观服务了非常多的大型企业,发现命名实体识别在大型企业里面的应用场景,基本都是对一些行业内常见类型的文本进行实体抽取,进而通过RPA(机器人流程自动化)代替人进行自动操作。如财务合同,可自动抽取出甲方、乙方、总金额等数十个字段,进行财务核算;如几百页的招股说明书,需要抽取出董事、监事、高管、财务表、重大合同、上下游供应商等数千个字段;如司法裁判文书,需抽取出原告、被告、律师、罪名、判罚结果等上百个字段。这些场景有几个共同的特点是:
(1)都是具备特定格式的规范文书。相比于互联网中的五花八门的各类评论和文章,这些行业文档内容规范,行文准确,很少会出现错字,语法错误等问题。文档的撰写会遵从行业规范,每个人撰写风格差异小,会有特定行业固定的套路。
(2)这些文档训练语料极为稀少,比如招股说明书或者合同,即便是大型企业内部历史积累的语料也不会很多,获得标注的更少。
这些场景由于行业属性非常强,所以通过全网文书计算词向量的方式效果往往不好,用行业语料进行训练,由于数据量较少,也不能达到很好的效果。达观在服务上百家大型客户实践中,研发了一套结合行业经验的算法模型,可以在这些低资源文档的场景,达到非常好的效果。
这个算法的核心思想是,利用行业专家经验,通过知识沉淀的方法,帮助系统掌握行业规律,通过知识图谱将专家经验输入给模型,极大提升算法的效果。
对于每个抽取的字段,行业专家可以梳理出这个字段的重要词,重要句式、重要段落、重要位置、重要上下文,把这些信息进行编码加入模型中。
图4 是将行业专家梳理到核心词使用的例子。假设“委员”和“委员会”是核心词,需要对“美国联邦通信委员会最近正式批准苹果展开5G 通信试验”的每个字生成词向量。这里的方法是通过2-gram、3-gram、4-gram 和5-gram 对每个字进行编码,编成8 个位,每种gram 各2 个位表示上文是否是核心词和下文是否是核心词。以“委”字为例编码方式为:(www.xing528.com)
(1)2-gram 就是“信委”和“委员”,“信委”不是核心词,而“委员”是核心词,所以编码为“01”。
(2)3-gram 就是“通信委”和“委员会”,“通信委”不是核心词,而“委员会”是核心词,所以编码为“01”。
(3)4-gram 就是“邦通信委”和“委员会最”都不是核心词,所以编码为“00”。
(4)5-gram 就是“联邦通信委”和“委员会最近”都不是核心词,所以编码为“00”。
然后我们再通过训练两个独立的LSTM 双向网络,一个是用经典LSTM 结构,一个是将以上专家特征(或者领域知识)合并进来后,并最终将把所有的行业向量和原始的字向量进行拼接,作为CRF 层的输入,这样双层BiLSTM+CRF 模型可以较好地融合领域知识来提升提取效果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。