【摘要】:使用深度学习的优点是不需要工程师告诉算法要提取哪些特征,而是由算法从标注数据中自动学习并寻找到关键特征,再进行预测(提取)。深度学习源自经典的BP 神经网络模型,一般由输入层、隐藏层、输出层组成,其中隐藏层的数目按需确定。深度学习增加了网络层数,将每一层的输出作为下一层的输入,将底层的简单特征进行多层组合抽象为高层的特征表示。NER 最常使用的深度神经网络结构是长短时记忆网络LSTM。
使用深度学习的优点是不需要工程师告诉算法要提取哪些特征,而是由算法从标注数据中自动学习并寻找到关键特征,再进行预测(提取)。深度学习源自经典的BP 神经网络模型,一般由输入层、隐藏层、输出层组成,其中隐藏层的数目按需确定。深度学习增加了网络层数,将每一层的输出作为下一层的输入,将底层的简单特征进行多层组合抽象为高层的特征表示。NER 最常使用的深度神经网络结构是长短时记忆网络LSTM(Long Short Term Memory)。长短期记忆网络的原理可见图2。
1)单元状态丢弃
如何做长期记忆的更新?输入ht-1和Xt,ht-1是上一个时刻这个cell 隐状态的输出,Xt是当前输入,它们两个通过这个函数计算后的输出是0~1 之间的某一个值。这一步,决定上个时刻神经元状态留下的比率是多少。
2)新信息选择
上下文中获得了新的信息,不能只是把老的神经元状态更新,还要把新的信息添加进去,通过这两个公式来添加,第一个公式输出0~1 的系数,第二个公式要选出量是多少。有了第一步和第二步之后就开始第三步神经元状态更新。(www.xing528.com)
3)单元状态更新
第一步的输出0~1 和ct-1相乘决定上一时刻这个神经元状态留下多少。第二步算出来系数和信息量相乘决定留下多少新增信息,然后把上一步剩下的和这一步新增的加起来,做一个更新,这个更新就是现的神经元状态值。
4)确定输出
现在单元的状态更新完了,接下来就要输出,这个输出有两个:第一个对外而言是一样的,是隐藏的输出ht,决定留下多少老的信息,留下多少新的信息,第二个再把老的信息和新的信息相加就是最终的结果[2]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。