本节介绍信息论的一些基本概念,如信息量、熵等,比较抽象和概括地叙述通信中的信息传输过程。
通信的任务是传递信息,信息包含在消息当中。在通信系统中形式上传输的是消息,但实质上传输的是信息。消息只是表达信息的工具、载荷信息的客体。在通信中被利用的实际客体是不重要的,重要的是信息。消息是以某种具体形式表现出来,而信息则是抽象的、本质的内容。香农认为信息是事物运动状态或存在方式的不确定性的描述。通信的结果是消除或部分消除不确定性,从而获得信息。
用数学语言描述,不确定性就是随机性,具有不确定性的事件就是随机事件。可以用概率论和随机过程理论对这种不确定性进行测度。具有不确定性的消息才有传输的意义。一个预先确知的消息不会给接收者带来任何信息,也就失去了传递的必要。因此,在讨论信息的测度之前先讨论消息的统计特性。
1.消息的统计特性
可以将消息分成两大类,即离散消息和连续消息。产生离散消息的信源称为离散信源;产生连续消息的信源则称为连续信源。
离散信源只能产生有限种或可数种符号,离散消息可表征为有限个状态的随机序列,可以用离散型随机过程的统计特性来描述。
若离散信源是包含n种符号x1,x2,…,xn的集合,每个符号出现的概率分别为P(x1),P(x2),…,P(xn),可以用概率场
来描述离散信源。例如,汉字电报的四单位十进制数字电码中,数字0~9的出现概率如表1.5.1所示。
表1.5.1 汉字电报中数字代码的出现概率
一般来说,离散信号中各符号的出现并不是独立的,而常常是相互关联的。当前出现的符号,其概率与先前出现过的符号有关,也就是必须用条件概率来描述离散消息。
一种简单的情况是只考虑前一个符号对后一个符号的影响。这是马尔可夫链问题,可以用转移概率矩阵
来描述。
连续信源可能产生的消息数目是无限的,其消息取值也是无限的,必须用概率密度函数才能反映其统计特性。消息各点之间的统计关联性可以用二维甚至多维概率密度函数来描述。通常只考虑各态历经的平稳随机过程。
2.离散信源的信息量
我们必须定义一个物理量来描述信息量的大小,这个物理量应当符合客观规律和逻辑上的合理性。
根据客观事实和人们的习惯概念,消息出现的可能性越小,其携带的信息就越多。如果秋天气象预报西安有雨,人们觉着很正常,则其信息量很小。若气象预报西安有雪,人们会很意外,显然这个信息量就很大,因为秋天有雪的可能性极小。可见信息量的大小与消息出现的概率有关。
另一方面,当消息的持续时间增加时,其信息量也随之增加。一般来说,一份100字的报文所包含的信息量大体上是另一份50字报文的两倍。可以推论,若干独立消息之和的信息量应该是每个消息所含信息量的线性叠加,即信息具有相加性。这样推论是合乎逻辑的。
然而,对于由有限个符号组成的离散信息源来说,随着消息长度的增加,其可能出现的消息数目却是按指数增加的。
例如,二元离散序列中,10位符号所构成的随机离散序列的信息量是20位符号序列信息量的1/2,但10位序列可能出现的消息数为210,而20位序列可能出现的消息数却为220。
考虑到这些因素,1928年哈特莱在他的《信息的传输》一书中,首先提出用消息出现概率的对数测度作为离散消息的信息度量单位。
离散消息xi所携带的信息量为
式中,P(xi)为消息xi发生的概率。
当对数以2为底时,信息量单位称为比特(bit);
当对数以e为底时,信息量单位称为奈特(nit);
当对数以10为底时,信息量单位称为哈特莱。
目前应用最为广泛的单位是比特,经常将log2简写为log。
注意,这里的比特(bit,binaryunit)与计算机术语中的“比特(binarydigit二元数字)”的含义有所不同,它们之间的关系是每个二元数字所能提供的最大平均信息量为1比特。
例1.5.1 已知二元离散信源有“0”“1”两种符号,若“0”出现概率为1/4,求出现“1”的信息量。
解 由于全概率为1,因此出现“1”的概率为3/4。由信息量定义式(1.5.3)可知,出现“1”的信息量为
以上是单一符号出现时的信息量。
对于由一串符号构成的消息,假设各符号的出现互相统计独立,离散信源的概率场如式(1.5.1)所示,则根据信息相加性概念,整个消息的信息量为(www.xing528.com)
式中,mi为第i个符号出现的次数;P(xi)为第i个符号出现的概率;n为离散消息源的符号数目。
以上讨论的是单个离散信源X所产生的信息量。当存在两个离散信源X和Y时,它们所出现的符号分别为xi和yi,则定义这两个信源的联合信息量为
式中,P(xiyj)为信源X出现xi而信源Y出现yj的联合概率。可见,当X和Y统计独立时,联合信息量即等于X和Y各自信息量之和。
对于通信系统来说,发送端信源发出的消息和接收端收到的消息可以分别看成是离散符号集合X和Y,X为发送的符号集合,通常它的概率场是已知的,P(xi)称为先验概率。接收端每收到离散信源Y中的一个符号yj以后,接收者要重新估计发送端各符号xi的出现概率分布,条件概率P(xi/yj)又称为后验概率。
这里定义,后验概率与先验概率之比的对数为互信息量,即
互信息量反映了两个随机事件xi与yj之间的统计关联程度。在通信系统中的物理意义是接收端所能获取的关于X的信息的多少。
当xi与yj统计独立时,互信息量为零;当后验概率为1时,互信息量等于信源X的信息量。
3.离散信源的平均信息量
用符号出现概率来计算长消息的信息量非常烦琐,为此引入平均信息量的概念。
平均信息量是指每个符号所含信息量的统计平均值,n个符号的离散消息源的平均信息量为
这个平均信息量的计算公式与统计物理学中热熵的表达式很相似。在统计物理学中,热熵是一个物理系统杂乱性的度量,在概念上二者也有相似之处。因此我们把信源输出消息的平均信息量称为信源的熵。
当消息中各符号的出现统计相关时,平均信息量不能再用式(1.5.7)来计算,而要用条件概率来计算。若只考虑前一个符号的影响,也就是相邻两符号间具有统计关联性,那么前后符号分别为xi和xj的条件平均信息量为
条件平均信息量又称为条件熵。
当离散信源中每个符号等概率出现且各符号的出现统计独立时,可以证明该信源的平均信息量最大,且最大熵为
因此,减小或消除符号间的关联,并使各符号的出现趋于等概率,将使离散信源达到最大熵。以最少的符号数传送最大的信息量,是通信理论中信源编码所要研究的问题。
4.连续信源的信息度量
在后面将详细讨论的抽样定理中指出,如果一个连续信号的频带限制在0~fH内,则可用间隔为1/(2fH)的抽样序列无失真地表示它。
通过抽样把时间上连续的信号变成时间上离散的样值序列,再经过量化使之成为时间上和幅度上都是离散的离散消息,这样把连续消息可以看成是离散消息在时间上和幅度上取值为无限多个的极限情况。因此可以定义连续消息的平均信息量为
式中,p(x)为连续消息信号在每个抽样点上取值的一元概率密度函数。称h(X)为相对熵,其与绝对熵相差log(1/dx)。
应当注意,式(1.5.10)表示的是相对的信息度量,它与坐标系有关。这一点是可以理解的,因为连续信源的可能取值数是无限多个,若设取值是等概率分布,则信源的不确定性为无限大。当确知输出为某值后,所获得的信息量也将是无限大。可见,h(X)已不能代表信源的平均不确定性的大小,也不能代表连续信源输出的信息量。但这样定义可与离散信源的熵在形式上统一起来,而且在任何包含有熵差的问题中这样定义的连续信源的熵具有信息的特性,因此,连续信源的熵h(X)也称为差熵。
前面指出,离散消息源当其所有符号等概率输出时,其熵最大。而连续消息源的最大熵条件则取决于消息源输出取值上所受到的限制。常见的限制有两种,即峰值受限和均方值受限。
可以求出均方值受限时最佳分布的最大熵为
式中,σ2为x的均方值;hmax(X)的单位为bit。
峰值受限情况下最佳分布时的最大熵为
式中,A为连续消息源输出的峰值,即x的取值范围为(-A,A);hmax(X)的单位为bit。
使连续消息的概率密度函数变换为最佳分布以求得最大熵,同样也是信源编码所要解决的问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。