数字化以后的视音频信号已经没有模拟视音频的特征,成为统一的二进制比特流的形式。这样,将视频和音频信号数字化后进行记录和传输有着十分明显的优势,但数字化后图像和声音信号的数码率均太大,尤其是编码后的视频数据,这给存储和传输带来很多困难,需要进行压缩。
1.数字视频压缩编码
数字信号有很多优点,但当模拟信号数字化后其频带大大加宽,一路6MHz的普通电视信号数字化后,其数码率将高达167Mbps,对储存器容量要求很大,占有的带宽将达80MHz左右,这样将使数字信号失去实用价值。数字压缩技术很好地解决了上述困难,压缩后信号所占用的频带大大低于原模拟信号的频带。通过数据压缩,可以减少视频文件的数据量。以压缩形式存储、传输视频信号,节约了存储空间,提高了传输效率,并且降低了对计算机硬件实时处理视频信息的要求,从而可以保证非线性编辑系统编辑、制作出高质量的电视节目。
(1)数字视频压缩的必要性和可能性
①视频压缩的必要性
以4∶2∶2信号格式为例,采用10b∶t编码,标清信号的比特率达到270Mbit/s,要求信道提供135MHz的带宽。高清信号的比特率达到1.485Gbit/s,要求信道提供742.5MHz的带宽。由此可以看出如果不降低数字电视数据量和数据码率,不仅无法在普通的数据存储设备有效地存储数字电视信号,而且也无法在适当的信道带宽内有效地传输数字电视信号。
因此,要想降低数字电视的数据量和码率,就需要对数字电视信号进行压缩。在保持信号质量的前提下,设法降低码率及数据量,才能使数字视频标准得到应用。而这种降低码率的过程,被称为压缩编码,或信源编码。数字压缩编码技术是使数字信号走向实用化的关键技术之一。
②视频压缩的可能性
图像数据的压缩机理来自两个方面:一是利用图像中存在大量冗余度可供压缩;二是利用人眼的视觉特性带来的数据冗余。
信源之所以可以压缩是因为视频图像信息内存在着大量的规律性,或称相关性。由于图像是以块和轮廓组成的,在同一帧内(帧内)或相邻帧之间(帧间)存在着大量相同的内容,在传输的前一个样值中也包含了后一个样值或后一帧中相关位置或相关频率的样值内容,这就是冗余内容。要去除信息中的相关性,去除冗余码。
信息冗余量有许多种,如空间冗余、时间冗余、结构冗余、知识冗余和视觉冗余等,数据压缩实质上是减少这些冗余量。可见冗余量减少可以减少数据量而不减少信源的信息量。从数学上讲,图像可以看作一个多维函数,压缩描述这个函数的数据量实质是减少其相关性。
另外,图像最终是由人眼观看的,一个高质量的编码是指编码后复原图像与原始图像在主观感觉上差别极少。从而,人眼的视觉特性是图像压缩编码的另一个重要依据。人眼是视觉特性包括亮度辨别阈值、视觉阈值、视觉对于不同图像内容的分辨力不同及“掩盖效应”等特性。
(2)视频压缩编码方法的分类
编码压缩方法有许多种,从不同的角度出发有不同的分类方法,比如根据解码后的数据与压缩前原始数据是否相同可分为两大类:
一类是无损压缩(Lossless),又称为可逆编码(reversible coding),这种方法的目标是在图像没有任何失真的前提下使码率达到最小。可使接收端解码后的信息量与发送端原信息量完全相同,因此再现的图像也与原图像严格一致,也即压缩后的图像完全可以恢复或无损伤。
另一类是有损压缩(Lossy),又称不可逆压缩(non-reversible coding),这种方法的目标是在给定码率下使图像获得最逼真的视觉效果,或者是在给定的允许图像失真度的条件下使码率达到最小。编码过程中会损失一部分信息,因此接收端解码后再现的图像质量会比原图像质量有所降低,即压缩后图像有损伤,不能完全恢复。但如果视觉上能够接受甚至觉察不出质量的降低,则这种压缩就是可行的。
根据图像压缩编码方法在多媒体中的应用,从压缩编码算法原理上可以分类,如图2-7所示。
图2-7 图像压缩编码方法分类
衡量一个图像压缩编码方法优劣的重要指标是:
①压缩比要高,有几倍、几十倍,也有几百乃至几千倍;
②压缩与解压缩要快,算法要简单,硬件实现容易;
③解压缩的图像质量要好。
选用编码方法时一定要考虑图像信源本身的统计特征、多媒体系统(硬件和软件产品)的适应能力、应用环境以及技术标准等因素。
(3)数字视频压缩的基本方法
压缩编码的方法有几十种之多,并在编码过程中涉及较深的数学理论基础问题,本节主要介绍在数字电视中普遍应用的几种压缩编码方法。
①预测编码
预测编码利用像素的相关性,先根据前几个抽样值计算出一个预测值,再取当前抽样值和预测值之差,将此差值编码并传输,此差值称为预测误差。由于抽样值及其预测值之间有较强的相关性,即抽样值和其预测值非常接近,使此预测误差的可能取值范围比抽样值的变化范围小。所以,可以少用编码比特来对预测误差编码,从而降低其比特率。此预测误差的变化范围较小,它包含的冗余度也小。这就是说,利用减小冗余度的办法,降低了编码比特率。
只用到帧内像素的处理称为帧内预测,是利用图像信号的空间相关性来压缩图像的空间冗余。用到前后帧像素的处理称为帧间预测,是利用图像序列在时间上的相关性来压缩图像序列的时间冗余。要得到较大的码率压缩就必须使用帧间预测编码,需要使用大容量的帧存储器存储前一帧的图像。
常用的预测编码方法有差分脉冲编码调制(DPCM)和运动补偿,其原理是基于图像信号冗余度高的事实,当前的像素值可用与它临近的像素值得到。
A.差分脉冲编码调制(DPCM)
差分编码的基本思想是发端将当前样值和前一样值相减所得差值经量化后进行编码并传输,收端将收到的差值与前一个样值相加得到当前样值。我们都知道,电视图像基本上是由面积较大的像块(如蓝天、草地、服装等)组成。虽然每个像块的幅值各不相同,但像块内各样值的幅度是相近的或相同的,幅值跃变部分相应于像块的轮廓,只占整幅图像的很小一部分。帧间相同的概率就更大了,静止图像相邻帧间的相应位置的像素完全一样,这意味着前后像素之差或前后帧间相应位置像素之差为零或差值小的概率大,差值大的概率小。
B.运动补偿编码
通常,电视节目画面镜头不切换,相邻帧的图像内容差别不大,许多情况下仅仅很少一部分内容在运动,此时,只需要知道画面中哪部分在运动及其运动方向和位移量,就可以根据前一帧图像内容估计出当前帧图像。如果将前后两帧相减(移动物体作相应位移)得到的误差作编码所需比特要比帧内编码所需的比特少,帧间差集中在零附近,可以用短的码字传送。
这是一种帧间编码的方法,其原理是利用帧间的空间相关性减小空间冗余度。图像的运动处理主要有运动估计(Motion Estimation,ME)和运动补偿(Motion Compensation,MC)两个过程。
运动估计的方法有很多,其中块匹配法由于硬件复杂度小,广泛应用在数字视频压缩国际标准中。块匹配法把图像分成若干子块称为宏块(Macro Block,MB),设宏块图像是由N×N个像素组成的像块,并假设一个像块内的所有像素作一致的平移运动。像块在上下左右四个方向搜索,搜索范围限制在水平和垂直(-M,M)范围内,即在(N+2M)×(N+2M)个像素范围内搜索,以求得最优匹配,从而得到运动矢量的估值。衡量匹配好坏的准则可以是均方误差最小准则。搜索方法可以是全局搜索法,即对搜索范围内的每一点都计算均方误差,选最小值即对应最优匹配。
②正交变换编码(Transform Coding)
变换编码的基本思想是将在通常的欧几里得几何空间(空间域)描写的图像信号变换到另外的向量空间(变换域)进行描写,然后再根据图像在变换域中系数的特点和人眼的视觉特性进行编码。
③统计编码
统计编码解决的是如何利用信息论原理来减少数据冗余的问题。哈夫曼编码、游程编码和算术编码都属于统计编码。
A.霍夫曼编码
霍夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫作Huffman编码。下面引证一个定理,该定理保证了按字符出现概率分配码长,可使平均码长最短。
定理:在变字长编码中,如果码字长度严格按照对应符号出现的概率大小逆序排列,则其平均码字长度为最小。可以按照如下步骤编码(先考虑D=2的情况)。
a.将信源发出的M个消息,按其概率递减顺序进行排列,得:
q(x1)≥q(x2)≥q(x3)≥…≥q(xM);
b.将概率最小的二个消息分别编码为“1”和“0”,(一般,将概率大的编码为“1”,概率小的编码为“0”),再对这两个消息求概率之和;(www.xing528.com)
c.将上述概率之和作为一新消息的概率,与余下的消息一起组成一组新的信源,再按概率递减顺序重新排列,如果概率之和与原信源的某个概率相等,则把概率之和排在上面,这样可使合并消息重复编码的次数减少,使短码得到充分利用;
d.如此一直进行下去,直到两个合并消息的概率之和为1;
e.从最后一步骤开始,沿编码逆程取下各步骤得到的码符号,如此构成的码符号序列即为对应消息的码字。
B.游程长度编码
读出数据和表示数据的方式也是减少码率的一个重要因素。读出的方式可以有多种选择,如水平逐行读出、垂直逐列读出、之字形读出和交替读出等,其中之字形读出(Zig-Zag)是最常用的一种。由于经DCT变换以后,系数大多数集中在左上角,即低频分量区,因此之字形读出实际上是按二维频率的高低顺序读出系数的,这样一来就为游程长度编码(Runleng th Encoding)创造了条件。
所谓游程长度编码是指一个码可同时表示码的值和前面几个零,这样就可以把之字形读出的优点显示出来了。因为之字形读出在大多数情况下出现连零的机会比较多,尤其在最后,如果都是零,在读到最后一个数后只要给出“块结束”(EOB)码,就可以结束输出,因此节省了很多码率。
C.算术编码
在算术编码中,把被编码的信息表示成0~1之间的一个间隔数,在传输任何信息之前,信息的完整范围是(0,1),当一个符号被处理时,区间范围就依据分配给这一符号的那部分范围而变窄。
信息越长,编码表示它的区间就越小,表示这一区间所需的二进制位就越多。
2.数字音频压缩编码
在实际应用中,未经压缩的音频资料量很大,不适合直接存储和传输。音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
(1)数字音频压缩的必要性和可能性
①音频压缩的必要性
数字音频的质量取决于:采样频率和量化位数这两个参数,为了保真在时间变化方向上取样点尽量密,取样频率要高;在幅度取值上尽量细,量化比特率要高,直接的结果就是存储容量及传输信道容量要求的增大。
音频信号的传输率=取样频率×样本的量化比特数×通道数
取样频率=44.1kHz
样本值的量化比特数=16
普通立体声的信号通道数=2
数字信号传输码流大约1.4Mbit/s
一秒钟的数据量为1.4Mbit/(8/Byte)
数字音频的出现,是为了满足复制、存储、传输的需求,缓解音频信号的数据量对于进行传输或存储形成巨大的压力。音频信号的压缩是在保证一定声音质量的条件下,尽可能以最小的数据率来表达和传送声音信息。
信号压缩过程是对采样、量化后的原始数字音频信号流运用适当的数字信号处理技术进行信号数据的处理,将音频信号中去除对人们感受信息影响可以忽略的成分,仅仅对有用的那部分音频信号进行编排,从而降低了参与编码的数据量。
②音频压缩的可能性
数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余,包括时域冗余、频域冗余和听觉冗余。
A.时域冗余的表现形式
幅度分布的非均匀性:信号的量化比特分布是针对信号的整个动态范围而设定的,对于小幅度信号而言,大量的比特数据位被闲置。
样值间的相关性:声音信号是一个连续表达过程,通过采样之后,相邻的信号具有极强的相似性,信号差值与信号本身相比,数据量要小得多。
信号周期的相关性:声音信息在整个可闻域的范围内,每个瞬间只有部分频率成分在起作用,即特征频率,这些特征频率会以一定的周期反复出现,周期之间具有相关关系。
长时自我相关性:声音信息序列的样值、周期相关性,在一个相对较长的时间间隔也会是相对稳定的,这种稳定关系具有很高的相关系数。
静音:声音信息中的停顿间歇,无论是采样还是量化都会形成冗余,找出停顿间歇并将其样值数据去除,可以减少数据量。
B.频域冗余的表现形式
长时功率谱密度的非均匀性:任何一种声音信息,在相当长的时间间隔内,功率分布在低频部分大于高频部分,功率谱具有明显的非平坦性,对于给定的频段而言,存在相应的冗余。
语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值,而在另一些频率上出现谷值,这些共振峰频率具有较大的能量,由它们决定了不同的语音特征,整个语言的功率谱以基音频率为基础,形成了向高次谐波递减的结构。
C.听觉冗余
根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型,将通过听觉领悟信息的复杂过程,包括接受信息、识别判断和理解信号内容等几个层次的心理活动,形成相应的连觉和意境。
由此构成声音信息集合中的所有数据,并非对人耳辨别声音的强度、音调、方位都产生作用,形成听觉冗余。
由听觉冗余引出了降低数据率、实现更高效率的数字音频传输的可能。
(2)数字音频压缩的基本方法
音频压缩算法主要分为时域压缩技术、子带压缩技术和变换压缩技术。
①时域压缩技术
时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质>400kbps),编解码延时最短(相对其他技术)。此类压缩技术一般多用于语音压缩、低码率应用(源信号带宽小)的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如G.721、G.722、Apt-X等。
②子带压缩技术
子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等人于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其他参数选择的,因此又可称为感知型(Perceptual)压缩编码。
③变换压缩技术
变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。