目前,信息处理领域常用的特征选择方法(基于信息度量的特征选择)多是基于信息熵理论。熵的概念最早起源于统计热力学,表示系统的混乱、杂乱的程度,熵值越高表明系统的混乱程度越大;反之,熵值越低则系统的混乱程度越低。
1.不同熵的计算
信息熵:信息论中,熵也称作信息熵或者Shannon熵,其采用数值的形式表示随机变量的不确定程度。计算方法如下:
式中的X表示随机变量,P(x)表示随机变量X取值为x的概率。信息熵H(X)的大小与X的取值无关,仅与X的分布有关,X的概率分布越大则其信息熵越大。以上是连续性变量X的信息熵计算方法,如果X为离散变量,则它的信息熵可采用式(4-2)计算:
联合熵:联合熵用于计算多个变量间共同拥有的信息量,假设有两个随机变量X和Y,(X,Y)为二者对应的联合随机变量,其对应的概率分布为P(x,y),则X和Y的联合熵为:
类似地,如果X和Y均为离散型随机变量,则上式可表示为:
条件熵:条件熵表示一个变量对另一个变量的依赖程度,在随机变量Y已知的情况下,变量X对其依赖的程度即为条件熵,其计算方法如下:
其中P(x,y)为变量X和Y的联合概率分布,P(x|y)为已知Y的情况下X的概率分布,即条件概率,由式(4-5)可知,如果X完全依赖于Y,则条件熵的值为0,表示Y包含X的所有消息。如果X和Y均为离散型随机变量,则二者的条件熵采用下式计算:
2.基于信息度量的特征选择方法
常用的基于信息度量的特征选择方法有三种,分别是:术语频度(Term Frequency,TF)、信息增益(Information Gain,IG)和互信息(Mutual Information,MI)。(www.xing528.com)
术语频度:术语频度[100]为术语在文档中出现的次数,该方法计算语料集合中每个术语的出现频度,并将频度低于指定阈值的术语删除。术语频度方法基于以下假设:出现次数少的术语不但在分类中提供不了足够的类别信息,而且将其删除也不会影响全局的性能,如果频度低的术语为噪声数据,将其删除肯定会提高分类的准确性。术语频度方法是最简单的降低特征维数的技术,对于大规模语料集合,其时间计算复杂度为线性。在后续研究中发现,基本的术语频度方法存在明显的不足,例如:对于一些不重要的助词或者介词(的、了、吗、在等)在每篇文档中出现的次数都可能较高,显然简单依据词频选择特征词是存在弊端的,为了解决该问题,出现了TF-IDF(术语频度-倒排文档频度)度量方法,其计算方法如下:
其中,wij为术语ti在文档dj中的权重,nij表示ti在文档dj中出现的次数,表示文档dj中的词语总数,|D|表示语料中的文档总数,|{j∶ti∈dj}|表示语料D中出现术语ti的文档数,|{j∶ti∈dj}|+1的目的是为了避免分母为0的情况出现。
信息增益:信息增益[101]实际上是上述信息熵和条件熵的差值,假设系统原先的熵为H(X),在条件Y已知的情况下系统的条件熵为H(X|Y),则信息增益为:
假设上式中的X代表类别的集合,Y代表特征kj存在和不存在两种情况,信息增益计算公式可转化为:
其中{Xi}(1≤i≤m)表示目标空间的类别集合,P(kj)表示kj的先验概率,即出现在文档中的概率,表示特征kj不在文档中出现的概率,Xi类在文档集合中出现的概率也属于先验概率,用P(Xi)表示。在文档包含特征kj的前提下,类Xi出现的条件概率用P(Xi|kj)表示,在文档不包含特征kj的情况下,类别Xi出现的概率用条件概率表示。
互信息:互信息[102]是为了衡量两个变量间相互依赖程度而引入的,用于衡量两个变量间共同拥有的信息含量。给定一个类别C,特征k,若它们的边缘概率分布分别为P(C)和P(k),则类别C和特征k的互信息为:
其中P(C,k)为类别C和特征k的联合概率分布。由式(4-10)可知,如果特征k和类别C完全无关或相互独立,则它们的互信息为0,意味着二者不存在相同的信息,即不存在依赖关系,反之它们具有一定程度的依赖关系。互信息MI(C,k)越大,特征k包含的类信息越多,即互信息仅依据包含类别信息的多少来衡量特征的重要性。
假定有m个类别C1,C2,…,Cm,当不知道特征k属于哪个类别时,k的互信息计算方法如下:
式(4-10)和式(4-11)均为基本互信息的计算公式。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。