数字录音新的实用概念介绍与分析
朱慰中
21世纪初,广播电视技术领域与其他领域一样,正在或已经接近完成了由模拟向数字技术过渡的历程。数字技术给各行各业提供了比模拟技术更为有效和广阔的应用前景。在广播电视技术应用中的最为常见的数字录音已无处不在我们周围的生活之中。由于以前在一些有关数字录音概念方面的图书、资料的表述不甚普遍,本文将介绍有关数字录音的一些新的实用概念及其一些发展动向,期望能与有关从事数字录音人员共同探讨。
1.模拟与数字的对比(Analog versus Digital)
在模拟时代,声音是被记录在模拟录音机上的。在磁带上的磁畴以模拟音频波形的图形来排列的。而数字录音则把音频信号转换成一串联1和0的数字编码。
模拟录音机和数字录音机所放出的声音有所不同。模拟录音机所放出的声音比较精确,而且声音还带有一点温暖感。这是因为它们有轻微的三次谐波失真、磁头磨损(低频提升)和磁带饱和等原因所致。但是模拟录音机却往往伴有一些磁带咝咝声、频率响应误差、抖动和晃动、调制噪声以及复印效应等缺陷。
数字录音机就不会有这些问题,所以它们的声音非常干净。虽然老式的数字录音机与模拟机相比有些刺耳,但每更新一代后就会有所改进。尤其是在目前,数字录音机在24比特和96kHz下所录出的声音已可以完全与模拟机一样柔和。
与模拟录音机和开盘式磁带相比,数字录音机和它们的磁带更趋于低成本、小型化、允许更便捷地查找定时信息的位置以及允许更便捷地装载记录媒体。
2.数字录音(Digital Recording)
像模拟磁带录音机一样,数字录音机也是把音频存储到磁性媒体上的,但是它们所使用的是不同的记录方法。最常用的数字录音方法———脉冲编码调制或称之为PCM方式。
数字录音可以降低噪声、失真、速度变化以及数据误差等。由于数字重放磁头仅仅读出那些1和0的信号,所以它对磁性媒体的噪声和失真很不灵敏。在记录和重放期间,那些数字被读入到一个缓存器,而且又以一种恒定的速率读出,这样就消除了在旋转媒体上的速度变化。在记录期间的里德—所罗门编码以及在重放期间的解码,用冗余的数据来为一些丢失的比特加以校正。
如果是在像一张擦伤的CD盘上做数字录音的话,那么会出现误差(取样丢失)。这些误差通常可以用内插法来加以校正。这种算法会查找空白取样的前后数据,会“猜测”出应该是一个什么样的值。如果误差超过了校正的范围,结果会导致音频有一种无声点或是爆裂噪声。
几乎所有的数字录音设备使用相同的A/D、D/A转换处理,但是它们使用不同的存储媒体:DAT录音机记录在磁带上,硬盘录音机记录在硬磁盘上,CD机和DVD录音机记录在一张光盘上,闪存式录音机记录在闪存卡上,取样录音机则记录在计算机的存储器上等。这其中任何一种设备的声音质量,主要取决于它们的A/D和D/A转换器的质量。
数字音频在计算机的硬盘上是以波形文件或是AIFF文件格式来被记录的。两种都是音频文件的标准格式。波形(. wav)文件用在PC机上;AIFF (Audio Interchange File Format—音频内部交换文件格式)格式用于Mac。两种格式都是使用线性PCM(脉冲编码调制)编码,不使用数据压缩。两种wave(波形)格式是Riff和Broadcast(广播)wave(波形),它们可便于在音频工作站之间的程序素材内部进行交换。
3.比特深度(Bit Depth)
如前所述,音频信号是经过了每秒数千次测量后而产生的一串二进制数[叫做字(word)]。每个字的字长愈长(具有更多的比特),那么每次测量的精度就愈高。短的字长对信号电压给出很差的分辨率(高失真);长的字长则给出好的分辨率(低失真)。比特深度(Bit depth)或分辨率(Resolution)是字长(Word Length)的另一种术语。
16比特的字长已足够(但不是最好)用于高保真重放。它是目前CD盘的标准。有些数字录音机提供20或24比特的字长。比特愈多,则声音愈柔和并且更清晰和透明,但是它们需要更大的存盘存储空间和更快的硬盘驱动。用24比特录音而制成的CD盘的声音会更好听。
4.取样率(Sampling Rate)
取样率是A/D(模/数)转换器在录音期间对模拟信号的取样或测量的速率。例如,一个48k Hz的取样率就是每秒钟有48000个取样;也就是说,对声音的每秒钟内发生48000次测量。取样率愈高,那么录音的频率响应愈宽广。根据奈奎斯特(Nyquist)定理,录音频率的上限为取样率的二分之一。所以CD盘使用44. 1k Hz的取样率时,那么它们的频响上限可达到22. 05k Hz。
用于高质量音频的取样率可以为44. 1k Hz、48k Hz、88. 2k Hz、96k Hz或192k Hz。取样率愈高,则声音愈柔和并且更清晰和透明,但是它们需要更大的存盘存储空间和更快的硬盘驱动。CD质量为44. 1k Hz/16比特。一种96k Hz的取样率可以用在DVD上。最顶级的是超级音频CD(SACD)或是线性PCM的取样率为192k Hz/24比特(也有人更喜欢用96k Hz/24比特取样率)。
概括地说,一个数字音频系统对模拟信号作每秒数千次的取样,以及对每个取样作量化(分配其一个数值)。取样率影响高频响应。比特深度影响动态范围、噪声和失真。
在数字传输方面,一个立体声节目的两个声道采用多路复用传输方式。也就是说,来自声道1的一个字跟随着声道2的一个字,声道2的一个字又跟随声道1的一个字,依此类推。
5.数据速率和存储需求量
(Data Rate and Storage Requirements)
数字音频的数据速率(每秒钟的字节数)可用下式计算:
比特深度/8×取样率×声轨数
其得数除以1048576以后得到每秒兆字节(MB/sec)数。例如,一个24比特/44.1khz、16声轨记录的数据速率应为
(24/8×44100×16)/1048576=2MB/sec
把数字音频记录到硬盘上去的时候,需要占用大量空间。其存储的需求量可通过下式计算:
比特深度/8×取样率×声轨数×60×分钟数
其得数除以1048576以后得到兆字节(MB)单位。再除以1024得千兆字节(GB)单位。例如,假如要用24比特、44.1kHz、16声轨的条件下录一场时间长达2个小时的音乐会,那么所需要的硬盘空间容量应为:
(24/8×44100×16×60×120)/1048576=14534.9MB或14.2GB。6.数字录音电平(Digital Recording Level)(www.xing528.com)
在一台数字录音机内,录音电平表是一种峰值读数的LED(发光二极管指示)或是LCD(液晶显示)光柱表,在其顶端的读数为0dBFS(FS意为满刻度)。在一台16比特的数字录音机内,0dBFS表示全部16比特都工作。在一台24比特的数字录音机内,0dBFS则表示全部24比特都工作。OVER(过载)指示意为输入电平超过了产生0dBFS所需的电压,也意味着在输出的模拟信号波形上有某些短时间的削波。这种削波可发出令人厌恶的声音。
有些制造商在校正他们的表头时,使在0dBFS时的量化比特数稍低于16或24比特,使之减少一点儿动态余量。当在设定录音电平时,一种方法是让光柱表在最大值对准-5dB或-3dB,这样在不可预期的峰值来到时不致超过0dBFS。如果正在作24比特录音,那么,这时候的录音电平不会太临界,因为一个16比特的信号正位于48dBFS处。
7.时钟(The Clock)
每一台数字音频设备都有为它的信号作定时设定的时钟。时钟是运行在取样率上的一系列的脉冲。当把数字音频从一台设备转移到另一台上去的时候,它们的时钟必须同步。有一台设备必须提供主时钟,而另一台设备则应该作为子时钟。如果从一台设备上发送数字音频信号时,那么接收设备要与发送设备的时钟相同步,这些时钟信号都是内含在它的数字信号内的。
如果有一台设备(例如是一台数字调音台)从许多信号源那里收到数据时,那么它立刻会选择一台作为字时钟信号源的设备。把这台设备的字时钟输出连接到一台字时钟分配单元的输入。然后从每台分配单元的输出接一根线缆到每一台其他设备的输入。这种方法就可以把全部设备加以同步。
8.数字音频信号格式(Digital Audio Signal Formats)
数字音频信号共有四种基本格式:AES/EBU、S/PDIF、ADAT光缆传输和TDIF。
现分别介绍如下:
①AES/EBU(也称做AES3-1985):2声道专业格式。使用一种端接卡侬(XLR)头的平衡110欧姆阻抗的屏蔽双绞线线缆。信号包含有数字音频加一个字时钟信号,或是运行在另一根线缆上独立的字时钟信号。AES/EBU线缆可使用的长度可达200公尺。如果字时钟线缆在25英尺以下时,可使用不平衡的75欧姆阻抗的BNC(同轴电缆接插件)插头座。如果字时钟线缆在超过25英尺以上时,则应使用平衡的110欧姆阻抗的AES数字线缆。
②S/PDIF Sony/Philips数字接口(也叫做EIAJ CP-340TypeII或IEC958):2声道用户或半专业格式。信号包含有数字音频加内含的字时钟信号。使用端接RCA(莲花接插件)或BNC(同轴电缆接插件)接插件的75欧姆阻抗的同轴电缆,或使用端接Toslink接插件的光缆。光端接口要避免接地回路以及光缆损失。AES/EBU比S/PDIF的信号有较高的电压。
③ADAT光缆传输:这是Alesis ADAT模块式数字多轨机所使用的一种光缆传输,在一根端接Toslink接插件的光缆的输入和输出上发送8通路的数字音频。每8条通路的传输需要有一根独立的光缆。
④Tascam TDIF(Tascam数字接口):这是Tascam牌子的DA-88型或类似的模块式多轨数字录音机使用端接标准DB-25接插件的多芯电缆。TDIF在单根线缆上发送8通路的数字音频输入和输出,线缆使用长度不能超过5公尺。
9.信号格式的转换(Converting Signal Formats)
AES和S/PDIF的信号大致相似,但是没有必要相兼容。可以用格式转换器来对它们做转换。有些声卡和数字调音台可以作这种转换。ADAT和TDIF也可以做很满意的转换。
有些数字音频设备不能正确地运行AES或S/PDIF格式信号。所以它们不能与其他一些设备相连接在一起工作。
10.比特补偿器(Dither)
硬盘录音机、软件和数字调音台等都可以在24比特运行,但是在终端却接有一台16比特的CD机。当你把24比特音频文件作为一个16比特文件保存后再转移到CD上的时候,那么最后的8个比特被截短或被切除。其结果可能会导致一种在很低电平时的粒状般的静电噪声。这种失真可以用加入低电平的随机噪声到信号中去的方法来加以克服。解释如下:
一个24比特的分辨率可以抓住音乐节目中最为安静的部分:诸如一种长长的音乐淡出和混响的结尾等那样的极低电平的信号。但是这种信号被截短到16比特后,可以使这些低电平的信号发出粒状般的或是模糊的声音,这是因为16比特与24比特相比,对模拟波形的测量精确度要来得低。这种模糊的的声音,被叫做量化失真,在正常的电平时是不存在的。
为什么会引起这种失真呢?每个数字化的字是由一定数量的比特来组成。在量化期间,A/D转换器分配尽可能靠近的数字号码来代表每次取样的测量电压。最末位或是最右位的比特(最小的重要的比特least significant bit 或LSB)开关的打开或是关闭要取决于转换器围绕这一个字的值是上升还是下降。如果在16比特内出现开关时,那么在安静的段落期间,可能会出现轻微的但是可听到的模糊的噪声。
也就是说,一个24比特的录音在底下8比特内有可能出现256个电平。但是信号被截短到16比特之后,就失去了分辨的能力。
为解决这一问题,在由24比特被截短到16比特之前,有一种比特补偿(dithering)的措施,即把一种随机的噪声(一些随机的1和0)加入到24比特信号中的底下的8比特(大约在-100dB)上。这一噪声用一些24比特的信息来把第16位比特调制成为脉冲-密度调制(pulse-density modulation)的形式。被调制方波的平均值由一个低通滤波器来恢复。这样大部分24比特的声音质量会得到恢复,而且其量化失真被改变成一些轻微的咝咝声。
要使被加入的咝咝声不明显,则可使用噪声整形的方法。噪声整形是把一个取样滤波器加到噪声上,能降低对我们人耳最敏感的中频段内的噪声电平,而只是增加了对人耳很少可以听得到的噪声中的高频段的电平。
与一个被截短了的信号相比,一个被截短后并经过比特补偿后的信号听起来会更清晰、透明一些。淡出声和混响的尾声较为柔和些,并且具有更多声音上的细节。本底噪声以下的信号变成清晰可闻。
当需要把一个高比特深度的信号源转换到16比特的CD格式时,为得到最佳的声音质量,就只要使用一回比特补偿器(dither)。例如,在24比特下录音,之后在整个录音阶段加以保持,只有在最后阶段刻录一张CD盘之前才把它使用比特补偿到16比特。不要在已经作过比特补偿的素材上再作比特补偿———关闭任何的比特补偿。当在两个文件之间作衔接时,要确保每个文件是未作过比特补偿过的,只有在母带制作期间的文件衔接之后才可以加入比特补偿。
要审听比特补偿的效果,开始用一首干净的24比特的录音作品,在你的编辑软件内降低电平50dB,并把它作为一个16比特文件输出。有三种输出的方式:没有比特补偿器、用比特补偿器以及具有加入噪声整形的比特补偿器。接着,把输出的录音内容恢复正常,使录音信号达到表头指示上的峰顶为0dBFS。然后用耳机在高电平下审听16比特文件的结果。比较其处理过程并审听哪一种方式的声音最佳。通常情况下,被截短后未加比特补偿器的信号总是伴有剧烈的粒状般的噪声,而被截短后加入比特补偿后的信号伴有轻微平静的咝咝声或很寂静。
还有需要比特补偿的另一种应用。数字信号处理———诸如电平的变更、均衡或混响等———在处理器的芯片内部进行,通过在每个取样上执行数学运算来完成。这些运算产生了比存在于原始节目中要长得多的字长。但是处理器必须输出与原始信号相同的字长。例如,一个16比特的音频文件在经过处理之后可能会产生32比特的字长。这个32比特的字长必须在处理器的输出端被转换成16比特。超出的比特数必须被截短或切除,但是这样一来会引起失真。所以要用到比特补偿,比特补偿可以在D/A(数/模)转换器内能自动地进行。也可以在某些数字编辑程序内和外接的D/A转换器上做人工设定。只要在处理器的输出之前,执行一次比特补偿即可。
在转换到16比特时使用优良的比特补偿算法,就有可能保持大部分的24比特的质量(超低失真和精美的细节)。有一种这样的系统为Sony Super Bit Mapping产品。另一种产品为来自Power-r Consortium LLC的POW-r TM心理声学最佳优化字长降低算法(Psychoacoustically Optimized Word-Length Reduction algorithm)。它可把高分辨率、较高的字长(20至32比特)降低到一种CD标准,而仍可保持高分辨率录音的清晰度和透明度。换句话说,16比特CD所发出的声音像初始的24比特录音一样好。
此外,还可以通过一台多通路24比特的A/D转换器发送音频,用POW-r来对其处理,并把结果记录到16比特录音机上。在重放时所发出的声音非常像24比特的录音。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。