为了对序列进行标注,本章使用条件随机场模型(CRFs)。
条件随机场模型由Lafferty[67]提出,是一个使用图模型方法描述的序列标记模型。条件随机场模型可以视为隐马尔可夫模型的一个扩展。
首先定义隐马尔可夫模型的联合概率P(y,x),其中,y是状态序列,而x是观测序列,根据隐马尔可夫模型的定义,可以得到x和y的联合概率分布:
其中,表示从状态t-1跳转到状态t的概率,表示从状态t生成观测xt的概率。
公式(3.1)所示的公式是HMM的基本公式,现在给出它的一个等价的表示,以方便后续的扩展。利用对数函数和指数函数的性质,也即:
这一性质,可以将公式(3.1)表示为:
公式(3.2)中,可以进一步将转换为条件函数表示。是状态之间的状态转移概率,可以表示为一个的矩阵,S是状态集合的长度。可以将表示为:
同理,也可以将状态—观测转移概率表示成特征函数形式:
从而得到扩展但等价的HMM联合概率分布表示:
上式也可以表示为:
公式(3.3)中存在着两个分解式,现在分成A和B两个部分,A部分和B部分都可以看做一个权重因子乘上一个特征函数,可以表示为一个特征函数,表示当序列元素和前一个元素分别为i和j时返回1,B部分同样可以如此理解。将A部分和B部分分别改写成权重*特征函数的形式,引入两个特征函数表示,分别是u(yi-1,yi,x,i)和s(yi,xi,i),分别对应A和B部分中除权重因子以外的部分,由此得到公式(3.3)的新改写:(www.xing528.com)
到目前为止,公式(3.5)还不够泛化,现在需要做两步工作。第一步,将序号t记为i,而将同t关联的特征视为第i个或者第i组特征,得到:
第二步,考虑到λk u(yi-1,yi,x,i)以及μk s(yi,xi,i)都是一元线性函数,只能处理单一特征,为了支持多特征,采用一元线性回归到多元线性回归的转换方法,得到HMM进一步的扩展形式:
公式(3.7)在一定的限定条件下同HMM是等价的,实际上,去除面向HMM的限定,公式(3.7)已经构成了条件随机场(condition random fields,CRF)的基本公式。CRF可以视为HMM的多特征表述形式。
uk(yt,yt-1,xt)是特征函数,表现为向量形式,计算使用的特征由多个特征函数共同去顶。为了进一步简化公式(3.7),设存在fk的两个分量,分别是:xj=1{y=i}1{y′=j}和xj=1{y=i}1{x=o}。
uk(yt,yt-1,x_t)使用二值特征函数,表示当前句子中第i个位置上是否具有第t个特征,并且取决于当前状态xj和前一个状态xj-1。
例如,特征列表中的第k个特征是:前一个词属于方法类,同时当前词是“present”,则该函数可以表示为:
λk是特征权重,在学习模型时,学习任务实际上就是找出最为合适的λ权值。设训练集为D={<o1,s1>,<o2,s2>,…,<on,sn>},学习任务的目标是最大化函数,即:
通过学习可以获得模型的各个参数,在得到参数取值以后,可以通过求解概率最大化问题寻找最优路径,从而得到序列标注结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。