声音的数字化就是将连续变化的模拟声音信号转换成离散的数字信号,包括采样、量化和编码三个主要过程,如图2-1所示。
图2-1 声音数字化的过程
自然界的声音经过话筒后,机械运动被转化为电信号,这些电信号由许多正弦波组成,是在时间和幅度上连续变化的模拟量。在时间上连续,是指在一个确定的时间范围内,声音信号的幅度值有无穷多个;在幅度上连续,是指幅度的幅值有无穷多个。与模拟信号相对应的是数字信号。数字信号指的是时间和幅度都用离散的数字表示的信号。数字信号的特点是一个时间范围内的信号只有有限的幅值,而每个幅值只能取有限的数值。
音频信号的数字化是一种必不可少的技术手段。音频信号数字化后,具有更好的保真度和更强的抗干扰能力。数字化后的声音可以利用计算机进行处理,可以不失真地远距离传输,能够与图像、视频等其他媒体信息进行多路复用,以实现多媒体化与网络化。
采样是对模拟信号在时间上的离散化,量化是对模拟信号在幅度上的离散化,编码则是按照一定的规律,将量化后得到的数据表示成计算机能够识别的二进制数据格式。
上述数字化的过程又称为脉冲编码调制(Pulse Code Modulation,PCM),通常由模/数(A/D)转换器来实现。
数字音频信号经过处理、记录或传输后,当需要重现声音时,由数/模(D/A)转换器进行解码,将二进制编码恢复成原始的模拟声音信号,通过音响设备输出。
对声音进行直接数字化处理所得到的结果称为波形音频文件,是对外界连续声音波形进行采样并量化的结果。
声音的数字化过程由计算机中的声卡来完成。
1.声音的采样(www.xing528.com)
信息论的奠基者香农(Shannon)指出,在一定条件下,用离散的序列可以代表一个连续函数。这为数字化技术奠定了基础。
声音的采样是每隔一段相同的时间间隔在模拟音频的波形上采集一个幅度值,即在时间上对模拟信号进行离散。每次采样所获得的数据称为采样样本,它们与采样时间点的声波信号相对应。将一连串采样样本连接起来,就可以描述一段声波。其中,每秒钟对声波采样的次数称为采样频率。采样频率的倒数是两个相邻采样点之间的时间间隔,称为采样周期。
2.声音的量化
采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。而对于固定位数的二进制数所能表示的数值个数有限。量化就是将信号的连续取值近似为有限多个离散值的过程,即在幅值上对模拟信号进行离散。具体过程是:先将整个幅度划分为有限个小幅度(量化间隔)的集合,把落入某个量化间隔内的采样值表示成相同的一个量化值,如8位量化位数表示每个采样值可以用28(256)种不同的量化值之一来表示。显然,量化间隔越多,误差相应就越小,但生成的数字信号的数据量就越大。
量化值与实际值是有误差的,因为量化时,每个采样数据均被四舍五入到最接近的整数,这个误差就是量化误差。如果波形幅度超过了可用的最大值,波形的底部和顶部将会被削去,会造成严重的声音失真。
3.声音的编码
编码是根据一定的格式和原则将经过采样和量化得到的离散数据以二进制的形式进行记录。对数字音频要进行压缩编码,目的是在保证重建音频质量的前提下,以尽量少的位数来表征音频信息;或者是在给定的数码率下,使得解码恢复出的重建声音的质量尽可能高。
为了对音频数据进行有效的压缩,编码算法需要从采样数据中去除数据冗余,同时保证音频质量在许可的范围内。
根据压缩后的音频能否完全重构出原始声音,可以将音频压缩编码技术分为无损编码及有损编码两大类。而按照具体压缩编码方案的不同,又可将其划分为波形编码、参数编码和混合编码等。对于各种不同的编码技术,其算法的复杂度、重建音频信号的质量、编码效率(即压缩比)、编解码延时等都有很大的不同,因此应用场合也各不相同。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。