设信源(随机变量)X的概率空间为
式中,X的值域为符号集合A:{a1,a2,…,ar},P(ai)(i=1,2,…,r)是消息(随机事件)ai的概率。
当信源X发出某一具体消息ai时,其提供的自信息是I(ai)。信源发出的消息不同,提供的自信息就不同,所以自信息本身是一个随机变量,不能用来表征整个信源的不确定度。为此,可以引入平均自信息的概念来表征整个信源的不确定度。
定义2.7[1] 在离散随机变量集X上所有元素的自信息的数学期望定义为集合X的平均自信息(或平均自信息量),即
平均自信息量H(X)又称为随机变量X的信息熵、信源熵,简称熵。
熵的单位与自信息量的单位相同。有时把事件ai发生的概率P(ai)简记为pi,记P=(p1,p2,…,pr),则信息熵H(X)又可以记为
熵这个名词是Shannon从物理学中热熵的概念借用过来的。热熵是表示分子混乱程度的一个物理量,因此,Shannon用熵来描述信源的平均不确定度。但是在热力学中任何孤立系统的演化,热熵只能增加不能减少,而在信息论中,信息熵正相反,只会减少,不会增加,所以有人称信息熵为负热熵。为了纪念Shannon在信息论领域作出的杰出贡献,信息熵也称为Shannon熵或Shannon信息熵。
【例2.15】
随机变量X的概率分布为P(ai)=2-i(i=1,2,…,∞),求H(X)。
解 这是一个可数无限集的离散信源,其熵为
【例2.16】
布袋内放100个球,其中红球80个,白球20个。若随意摸取一个球,共摸取n次,则获得的信息量是多少?
解 设a1表示摸出红球事件,a2表示摸出白球事件,则该随机事件的概率空间为
如果被告知摸出的是红球,所获得的信息量为I(a1)=-log P(a1)=-log 0.8 bit;
如被告知摸出来的是白球,所获得的信息量为I(a2)=-log P(a2)=-log 0.2 bit。
假设每次摸出一个球后又放回去,再进行第二次摸取。则摸取n次中,红球约出现nP(a1)次,白球约出现nP(a2)次,摸取n次后总共所获得的信息量为nP(a1)I(a1)+nP(a2)I(a2),这样,平均摸取一次所能获得的信息量约为
显然,上式就是信源X的信息熵H(X)。
例2.16进一步说明了信源熵H(X)是信源的随机变量X的平均自信息的实际意义。(www.xing528.com)
【例2.17】
计算信源X和Y的熵,其概率空间分别为
解 根据信源熵的定义式(2.22),得
由例2.17可见,信源符号的概率分布越均匀,则平均不确定度越大,即信源Y比信源X更不确定。
【例2.18】
高清电视屏上约有1920×1080=2.07×106个栅格点,按每一点24 bit进行量化,则共能组成个不同的电视画面。按不同的电视画面等概出现计算,平均每个画面可以提供的信息量为
【例2.19】
有一篇千字文章,假定每个字可以从一万个汉字中任意选,则共有不同的千字文篇数为
N=100001000=104000篇
仍按等概计算,这样平均每篇千字文可以提供的信息量为
以上两例说明,“一个高清电视画面”平均提供的信息量,要远远大于“一篇千字文”提供的信息量。当然,这是理论计算,事实上任何任意从万字表中取出的千字并不能组成有意义的文章。词、句子、段落和文章的组成是有一定规律的,所以有意义的文章数将大大小于上述计算值。千字文提供信息量也比计算值小得多,因而要表示一篇千字文并不需要1.33×104bit。电视画面也一样,实际值将远小于107bit。
因此,信息熵是从平均意义上来表征信源的总体信息度量的一个量,其含义来源于自信息量的含义,也可以从多个不同的角度来理解:
1)信息熵H(X)表示了随机变量X中所有事件是否发生的平均不确定度的大小。
2)信息熵H(X)表示了随机变量X中事件发生,提供的平均信息量的大小。
3)信息熵H(X)表示了确定随机变量X中到底哪个事件发生时,所需的平均信息量的大小。
4)信息熵H(X)表征了随机变量X的随机性。
5)信息熵H(X)(以“bit”为单位)表示了如果用二元数据将随机变量X中的各个元素表示出来,所需要的二元位的个数的平均值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。