2019软件工程论文集-引入业务知识与领域常识

时间：2026-01-26 理论教育烨版权反馈

【摘要】：达观服务了非常多的大型企业，发现命名实体识别在大型企业里面的应用场景，基本都是对一些行业内常见类型的文本进行实体抽取，进而通过RPA代替人进行自动操作。达观在服务上百家大型客户实践中，研发了一套结合行业经验的算法模型，可以在这些低资源文档的场景，达到非常好的效果。这个算法的核心思想是，利用行业专家经验，通过知识沉淀的方法，帮助系统掌握行业规律，通过知识图谱将专家经验输入给模型，极大提升算法的效果。

达观服务了非常多的大型企业，发现命名实体识别在大型企业里面的应用场景，基本都是对一些行业内常见类型的文本进行实体抽取，进而通过RPA（机器人流程自动化）代替人进行自动操作。如财务合同，可自动抽取出甲方、乙方、总金额等数十个字段，进行财务核算；如几百页的招股说明书，需要抽取出董事、监事、高管、财务表、重大合同、上下游供应商等数千个字段；如司法裁判文书，需抽取出原告、被告、律师、罪名、判罚结果等上百个字段。这些场景有几个共同的特点是：

（1）都是具备特定格式的规范文书。相比于互联网中的五花八门的各类评论和文章，这些行业文档内容规范，行文准确，很少会出现错字，语法错误等问题。文档的撰写会遵从行业规范，每个人撰写风格差异小，会有特定行业固定的套路。

（2）这些文档训练语料极为稀少，比如招股说明书或者合同，即便是大型企业内部历史积累的语料也不会很多，获得标注的更少。

这些场景由于行业属性非常强，所以通过全网文书计算词向量的方式效果往往不好，用行业语料进行训练，由于数据量较少，也不能达到很好的效果。达观在服务上百家大型客户实践中，研发了一套结合行业经验的算法模型，可以在这些低资源文档的场景，达到非常好的效果。

这个算法的核心思想是，利用行业专家经验，通过知识沉淀的方法，帮助系统掌握行业规律，通过知识图谱将专家经验输入给模型，极大提升算法的效果。

对于每个抽取的字段，行业专家可以梳理出这个字段的重要词，重要句式、重要段落、重要位置、重要上下文，把这些信息进行编码加入模型中。

图4 是将行业专家梳理到核心词使用的例子。假设“委员”和“委员会”是核心词，需要对“美国联邦通信委员会最近正式批准苹果展开5G 通信试验”的每个字生成词向量。这里的方法是通过2-gram、3-gram、4-gram 和5-gram 对每个字进行编码，编成8 个位，每种gram 各2 个位表示上文是否是核心词和下文是否是核心词。以“委”字为例编码方式为：(https://www.xing528.com)

（1）2-gram 就是“信委”和“委员”，“信委”不是核心词，而“委员”是核心词，所以编码为“01”。

（2）3-gram 就是“通信委”和“委员会”，“通信委”不是核心词，而“委员会”是核心词，所以编码为“01”。

（3）4-gram 就是“邦通信委”和“委员会最”都不是核心词，所以编码为“00”。

（4）5-gram 就是“联邦通信委”和“委员会最近”都不是核心词，所以编码为“00”。

然后我们再通过训练两个独立的LSTM 双向网络，一个是用经典LSTM 结构，一个是将以上专家特征（或者领域知识）合并进来后，并最终将把所有的行业向量和原始的字向量进行拼接，作为CRF 层的输入，这样双层BiLSTM+CRF 模型可以较好地融合领域知识来提升提取效果。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

2019软件工程论文集-引入业务知识与领域常识

相关推荐

2019软件工程论文集-引入业务知识与领域常识

相关文章：

相关推荐