基于概率分布的语言模型主要依据字、词或字对、词对在文本中的分布概率或出现频率,利用概率统计理论和归纳方法,通过数学抽象,将概率或频次构成某种数学关系式,以实现对文本中字或词之间关系的表示,实现对文本的数学描述。由于不考虑过多的上下文信息,因而不涉及相邻词之间的转移概率问题,构造方法相对简单,一般可通过下列步骤实现概率分布模型的构造:
(1)统计计算文本中的词频或串频,以及词对出现的频率;
(2)利用最大似然法(MLE)等方法,求取词或词对的概率;
(3)利用概率统计理论和归纳学习方法,从统计数据中归纳抽提(或学习)出词语间的定性关系,形成表述词语间关系的语言模型;
(4)利用训练语料对模型中的参数进行定量估计和确定。
互信息模型就是基于概率分布的典型模型,它通过两个词的同现概率以及每个词在文本中的出现概率来反映文本中两个词间的联系强度,已被用在自然语言处理的许多领域。用下述的概率关系式表示词w1、w2之间的相互关系:(www.xing528.com)
其中P(w1,w2)是词对(w1,w2)的同现概率,P(w1)、P(w2)分别代表词w1、w2的出现概率。当w1、w2之间的联系关系较强时,MI(w1,w2)>0;当w1与w2之间的联系较弱时,MI(w1,w2)≈0;而当MI(w1,w2)<0时,则w1与w2在文本中的分布为互补分布。当然,还可以根据应用的需要,利用概率分布原理构造新的模型。
例如,在进行汉语分词时,为了解决歧义切分问题,可依据文本中字、词或字、词对的分布概率来构造用于分词歧义排除的模型如下:设xyz是一个有序的字串,如果xy和yz都是词,则在分词时,就会出现切分歧义。可定义下面的数学关系式解决字y与x或z成词的歧义问题:
其中P(x,y)、P(y,z)分别是x与y以及y与z的同现概率;r(x,y)、r(y,z)分别表示x与y以及y与z的同现频次;r(x)、r(y)则分别表示x和y在文本中的出现频次。
这就是一个应用字或字对在文本中出现的频次与概率而构造的模型。由定义可知,当tx,z(y)>0时,y有与后继z相连的趋势,值越大,相连趋势越强;当tx,z(y)=0时,不反映任何趋势;当tx,z(y)<0时,y有与前趋x相连的趋势,值越小,相连趋势越强。它通过对3个汉字间结合力强弱的度量,实现歧义消除。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。