对于单变量的信息,可以认为信息可能具有某种概率分布特征,并且可以对数据独立采样的频度做出限制,这样可以对所表达信息的数据进行压缩,而不会丢失信息。
如果一个随机变量X 共有n 个符号或包含n 个可能发生的事件,每个符号出现的概率为pi,香农认为可观察第i个符号具有的信息量为I(p),I(p)应当具有如下的特征:
(1)I(p)是单调递减的,随着该符号出现的概率增加,该符号带来的信息相应减少了,反之亦然,这符合日常生活中的规律,某事出现的频度越高,带来的新鲜信息越少;
(2)I(p)≥0,信息是没有负数的;
(3)I(1)=0,表达总发生的事情,并没有可以用来交流的信息;
(4)I(p1p2)=I(p1)+I(p2),独立的两个事件产生的信息量是可以相加的。
香农发现,用对数函数表示可以表达上述这些特征。把I定义为
特征(2)导致k<0,特别是,k可以选为:其中,x>1。可以选以2、10为底的对数或自然对数。
这样,特别能满足第(4)的特征,因为我们期望表明:在信息交流中,分别出现的两个独立事件的信息量是可以叠加的。(www.xing528.com)
如果事件i发生的概率为pi,并对其进行N 次采样,那么,i的发生次数n1=Npi,收到的总的信息量为
那么,收到每个事件的平均信息量是
式(6-3)就是香农最终定义的信息熵(entropy)公式。其中,pi是第i 个原符号出现的概率。b通常为2、10或e。
如果某个符号出现的概率pi=0,那么,。
根据上面对熵的定义,可以度量信息量。例如,假设一个随机变量只有两个可能值,且是等概率的,那么
熵为最大值,无法预测扔硬币的结果!
如果概率是不相等的,例如,正面出现的概率为p=0.7,那么
极端情况是硬币只出现一面,这时熵为0,没有不确定性。熵反映了信息的随机性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。