首页 理论教育 语音记录和重现:实现方法与技巧

语音记录和重现:实现方法与技巧

时间:2023-06-17 理论教育 版权反馈
【摘要】:这就解释了为什么CD高保真音效应从44.1Hz取样,且带有16位的分辨率通过双音频通道。图4-20 人耳是一个精巧的声音传感器,能感受到大频率范围和音调范围的声音 当然,人的讲话并不能认为是周期信号,然而用傅里叶变换处理此类信号支持了大多音频处理方法。图4-21 这幅声音比特图表现了采样压力曲线波形及其频率—频域, 每20ms都会确定一个新的频谱。

语音记录和重现:实现方法与技巧

这类想法正如第1章所提到的那样,清晰地处理播放及录制的音乐或者是人的讲话。在第1章音乐中,作曲家需要确定时间间隔(节拍)和频率(乐章)以便创作出音乐信号。乐章的时间越短,频谱就越不易准确表示,乐章被指定的精确性越少。时间长些的乐章可以在频率上更易定位,因此也就越易达到期望的效果。问题在于大多数音符的时间间隔同其周期相比显得长了些,因此其频率特征表现得十分优异。然而,不确定的情况清楚地与音乐机理相连,正如其决定了音符判定的数量界限。

从正弦建模信号功率的说明角度来考虑演讲及音乐的编码。主要观点就是正弦信号是一种复杂的时间信号,但它有一个点支撑频谱。换句话说,复杂的时间函数可以通过单一频率点的方式存储,并且可以通过频率及相位对函数进行还原。这里在表示时间函数的时候,所需的存储空间会有显著的下降。例如:建立一个电子钢琴信号,可以记录每次的琴键敲击时的声音,并且可以将它们储存起来,以便在以后重放。更经济的是简化声音,识别声音的波谱,存储频谱信息,这可以用来重现所需的声音。这种结合有人耳理解的声音传感器,可帮助我们创建非常经济的演讲和音乐重现。

如图4-20所示体现了人耳的特有敏感性。人耳可听见的声音频谱从50Hz~20kHz,即人耳可以捕捉到该频段内的纯音色声音。这就解释了为什么CD高保真音效应从44.1Hz取样,且带有16位的分辨率(215=32768不同等级的声音)通过双音频通道。这个乃奎斯特取样标准表明,如果想分辨及回放20kHz的正弦波,取样的频率至少应为40Hz。这是理论的界限,这个值可以合理地近似。实际的CD编码仅比绝对界限高10%,这也告诉我们CD中使用的编码技术非常给力。

大多数演讲的频率被限制在400Hz~8kHz之间,如图4-20所示。因此,电话为了满足使用目标,将采样频率定在了16kHz。

978-7-111-59038-5-Chapter04-39.jpg

图4-20 人耳是一个精巧的声音传感器,能感受到大频率范围和音调范围的声音 (声音幅值可用20logP/Po表示,Po表征声音震荡压力)(www.xing528.com)

当然,人的讲话并不能认为是周期信号,然而用傅里叶变换处理此类信号支持了大多音频处理方法。例如在语音处理中,人的话语以非常高的频率进行第一遍采样,据说是25.6kHz。每帧声音信号持续20ms,每帧信号认为是有一定持续时间的周期信号(512个采样点),然后被等价表示,运用离散傅里叶变换分析其频谱。这种方式获得的频谱在分辨和之后合成原讲话内容中不同声音时很有用。如图4-21所示可以看出,时域中的信号在频域中被分为间隔为20ms的信号。此类变换也被称作时域—频域表示。此方法的有效性起源于此种事实:频谱的存储空间远远小于时域抽样信号存储空间。信号能量在时域中发散,在频域中更易收敛。这种处理方法可用于反向合成男声或女声说出任意输入的信号。与之相似的处理方法也可用于制造电子钢琴。

演讲信号的频率表达提供的经济型可以与人耳灵敏度知识更好地结合。有些频率需要高的声调人耳才能听到,如图4-20所示,利用少量的人耳不敏感的该频率的比特信息,MP3编码技术可以非常经济地存储声音信息而不需要牺牲保真性。(这种方法比普通的CD编码技术在同等编码频率下效率高12倍)。

978-7-111-59038-5-Chapter04-40.jpg

图4-21 这幅声音比特图表现了采样压力曲线波形及其频率—频域, 每20ms都会确定一个新的频谱。黑暗区域与高振幅波形相符

图像和声音的编码思路基本相同,如JPEG和MPEG标准。这类标准本质上代表了一个利用傅里叶谱的图像并缩短了傅里叶谱。以这种方式实现的压缩方法非常引人注目。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈