当前音频处理技术主要着力于对信源的操作,即在信号发送前对信源进行压缩编码,减少传输或存储所带来的开销。然而,信号的压缩并不是无休止的,它的极限便是熵值。早在20世纪初,在信息理论的众多研究成果中,熵这一概念就得到了广泛的关注和应用。
1865年Rudolph Clausius在热力学研究中首次提出熵,并用来定量阐明热力学第二定律[56]。1896年Ludwig Boltzmann把熵与系统的微观状态数联系起来,从统计物理学出发建立了著名的玻尔兹曼关系式[57]。直至1948年,美国工程师香农(Claude Elwood Shannon)在前人成果的基础上,围绕信息的度量展开讨论,提出了信息熵等概念[58],将熵的概念扩展到信息论领域,奠定了信息论的基础。此时,围绕无失真信源编码展开的讨论,给出编码极限性能的数学表达式,但缺点是对如何构造一个好的编码不能给出具体的指导。
从20世纪50年代起,通信技术界就把主要精力转向信源编码和信道编码的具体构造方法上,涌现出D.A.Huffman提出的Huffman编码(1952年)、P.Elias提出的算术编码(1963年)以及A.N.Kolmogorov提出的通用编码等一系列无失真的信源编码方法(1965年)。上述编码方法在音频信号处理应用中都使用信息熵[59]来估计音频信号中的信息量。作为信息处理领域中一个重要的成员,信息熵给出了信源压缩的理论极限值,为无损压缩指明了方向。20世纪90年代的心理声学研究表明,人耳的听觉感知存在听觉极限[60,61](Limits of Perception)和掩蔽效应[62,63](Masking Effects)等现象,这使得人耳的主观可感知音频信息量小于客观音频信息量。若考虑人类的听觉感知特性,在处理音频信号时可忽略人耳不可察觉的信息[64]。然而,此时的信息熵却无法用于度量音频信号中可感知信息量的大小。
1988年Johnston结合心理声学,提出感知熵[18,65](Perceptual Entropy,PE),解决了无感知失真前提下理论压缩极限的量度问题,并给出了计算方法。
式中:PE的单位是比特每样点(bits/sample);N是变换的样点数;nint表示取整操作;bi表示子带的起始谱线标号;ωk表示FFT谱线;ni和ki分别表示第i个子带的允许失真和谱线数。利用上式对多种单声道音频信号的感知信息量PE进行计算,如表1-1所示。表中最后一列给出了现有编码器达到接近透明音质时的典型码率,略低于PE上限对应的码率。(www.xing528.com)
表1-1 单声道信号的PE与实际码率的比较
音频感知是一个物理、生理和心理共同作用的过程,存在着个体的差异,因此表1-1中计算PE时采用的心理声学模型参数取值偏向保守,PE值趋大。此外,语音编码器AMR和AMR-WB利用了人类发声模型的先验知识,压缩码率进一步降低。去除这些因素的影响,从上表可以看出,单声道信号的PE给出了十分准确的接近透明码率的信息量估计值。因此,当前主流的感知音频编码器(如MP3和AAC等)都将PE作为一项重要的心理声学指标[66,67]。在随后的几十年中,感知熵得到了广泛的应用,并成为感知音频编码领域的重要基础理论。
1992年的MPEG-1 mp3标准中,PE作为重要的心理声学指标,采用音调估计的方法进行计算,使PE能更好地反映信号特征。1995年钟声将感知熵应用到图像压缩中,通过PE表征的视觉感知信息量,指导统计冗余的信息量去除[68];1995年徐盛等人在MPEG-2 AAC的量化算法研究中,通过引入基于感知熵的比特估算技术,降低量化的循环迭代次数[69];1997年D.E.Tsoukalas等人在语音增强技术研究中,提出利用掩蔽阈值和感知熵结合的自适应谱线参数选取算法,增强了语音效果[70];2005年刘伟等人在数字水印研究中,通过感知熵判定分析帧内是否嵌入数据,从而增强了系统的稳健性[71]。感知熵PE作为信源编码中信号可感知信息量度量的重要理论和方法,从最初形成时提供性能极限和进行概念方法性指导发展到现在指导实际系统提高性能。
如上所述,感知熵的定义是建立在心理声学基础上的,仅就音频感知来说,它考虑了单耳听音情况的PE估算模型,其局限性也是明显的。最突出的就是听觉系统有两个输入通道,即左耳和右耳。对于双耳听音来说,感知的信息量既不是左耳和右耳分别听音的简单叠加,也不是左耳和右耳单独听音的平均,而是引入了新的信息,即空间定位信息。当前的感知熵PE的估算模型在立体声/多声道音频信号信息量估算时,受估算模型的限制而采用各声道PE简单叠加的方法,显然此时信息量的估算值偏大。究其根本在于PE计算所依赖的心理声学模型并没有包含听觉系统的全部特性,缺少空间感知特征的描述,导致估算偏差较大,即难以准确估算立体声/多声道信号中的空间信息量,亟待新的理论方法。为此,本文展开了双耳线索感知信息度量方法的研究工作。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。