多媒体计算机不仅要处理文本、数字信息,更重要的是它要具有综合处理声音、图像、图片、动画、视频等数据信息的能力。而这些信息数据量都是非常大的,这就给数据的存储和传输带来了很大的困难。因此,多媒体数据压缩技术便成了多媒体计算机的一项关键技术。
一幅A4大小的图片,若以中等分辨率(300 dot/in)进行采样,每个像素用24位二进制位存储彩色信号,则该幅图片的数据量约为25MB。一片650MB的CD-ROM,可以存放26幅图片。双通道立体声激光唱盘,采样频率选为44.1 kHz,若用16位采样精度,则每秒信息量为176 KB。650MB的CD-ROM可存大约1小时的音乐。对于数字电视图像,以.SIF格式、NTSC制为例,4∶4∶4采样,每帧数据量为253 KB,30帧/s,数据量为7.59 MB,一片CD-ROM可以存放大约85秒的数据。这些数据可以看出数字化信息的数据量是非常庞大的,这么大的数据量,仅仅考虑存储就有很大的困难。更何况现在的网络时代,我们需要的是对这些多媒体信息进行传输;对于这么大的信息量,如果不进行数据压缩几乎是不可能实现的。因此,数据压缩技术便成了推动多媒体技术继续发展的必要且关键的技术,通过数据压缩可以大大降低数量;与之相对应的就是大大减轻了对存储、传输介质的要求,提高了传输速率,同时使计算机能够实时处理音频、视频信息,使人们之间的实时交流得以实现。
数据压缩之所以能够实现,是因为这些多媒体数据都存在着冗余信息。数据是信息的载体,人们真正感兴趣的是数据所携带的信息,而不是数据本身。数据压缩技术就是研究如何利用数据的冗余性来减少数据量的方法。图像、视频、音频数据中的冗余类型有如下几种:
(1)空间冗余
空间冗余是静态图像存在的最主要的一种数据冗余。例如,在一幅静态图像中有一块颜色均匀的区域,那么这些像素的数据是完全一样或十分接近的,但是原始图像中基于离散像素采样来表示物体颜色的方式是逐点进行描述的,这样就产生了空间冗余。我们就可以利用这种冗余来对静态图像数据进行压缩,从而达到减少数据量的目的。
(2)时间冗余
时间冗余是语音或序列图像中常见的冗余。序列图像实际上就是一组连续画面,一幅画面称为一帧。那么相邻的帧之间通常十分类似,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性就称为时间冗余。在音频信息中,在相当长的时间段内,语音信号表现出很强的周期性,因而存在着很大的数据冗余,这些都给数据压缩提供了可能性。
(3)结构冗余(www.xing528.com)
在有些图像中存在明显的纹理结构,比如条形图案、印花图案等,在结构上存在着很大的重复性,这种冗余称为结构冗余。在进行数据压缩的过程中,就可以利用这种结构冗余减少数据量。
(4)知识冗余
有许多图像或文字数据的理解与某些知识有相当大的关系。比如一些结构化的图像(如人脸等),这类规律性的结构可由先验知识和背景知识得到,这就是知识冗余。我们可以根据已有的知识,对这些图像中所包含的物体构造其基本模型,并创建对应各种特征的图像库,那么图像的存储就只需要保存一些特征参数,从而可以大大减少数据量。
(5)视觉和听觉冗余
由于人类的视觉系统受生理特性的限制,对图像的注意是非均匀的和非线性的,也就是说人眼并不是对图像的任何变化都能感觉到。而在记录原始的图像数据时,通常假定视觉系统是线性的和均匀的,就对一些人眼不能察觉的数据也进行了记录,这显然是不必要的,这样就产生了视觉冗余。我们在进行数据压缩时,就可以利用那些人眼察觉不到的变化来减少数据量。听觉冗余是指人耳对不同频率的声音的敏感性是不同的,不能察觉所有频率的变化。因此,对有些频率的声音不必特别注意,从而存在着听觉冗余。
分类的标准不同,数据压缩的种类也不同。根据压缩后有无质量的损失来分,数据压缩可分为无损压缩和有损压缩两种。无损压缩是指数据经过压缩,没有任何损失或失真,在对压缩过的数据进行解压缩后,可以完全恢复压缩前的信息。因此,“无损压缩”是一种可逆压缩。其原理是在压缩时去除或减少冗余。一般来说,无损压缩的压缩比例较低,一般用于文本、数据的压缩。和无损压缩相对应的就是有损压缩。有损压缩是指经过压缩后不能将原来的文件信息完全保留,其解码数据与原始数据有一定的误差的压缩,显然,这是一种不可逆压缩方式。有损压缩对于原来的数据信息来说有一定失真,但是,这部分损失掉的信息是不易被人耳或人眼觉察到的。因此,并不影响信息的表达,是可用的。有损编码主要应用于图像、声音、动态视频等数据的压缩。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。