人耳可以听到频率在20Hz~20kHz之间的声波。这种声波被称为音频信号,主要分为3种:语音,频率在200Hz~3.4kHz之间;音乐声,频率在20Hz~20kHz之间;效果声,如自然现象产生的刮风、下雨、打雷等声音,或人工产生的爆破声、拟音等,对语音和音乐起补充作用。
根据统计分析,音频信号中存在着多种时域冗余和频域冗余,可以将其进行压缩。根据人耳的听觉特征,也能对其进行压缩。
1.时域冗余
音频信号的时域冗余主要表现为以下几点:
(1)幅度分布的非均匀性。音频信号中,小幅度值比大幅度值出现的概率要大。语音中的间歇、停顿会出现大量的低电平值。
(2)数值间的相关性。语音相邻数据之间存在很大的相关性,当采样频率为8kHz时,相邻数据间的相关系数大于0.85,甚至在相距10个数据时还可有0.3左右的相关系数;如果采样频率提高,数据间的相关性将更强。利用差分编码技术,可以有效地进行数据压缩。
(3)周期之间的相关性。一种声音在某一瞬间只含少数频率成分,在周期之间,存在着一定的相关性。
(4)基音之间的相关性。语音分为浊音(voiced sound)和清音(unvoiced sound)两种基音。浊音是由声带振动产生的,每一次振动使一股空气从肺部流进声道,发出元音和一些辅音的后面部分。各股空气之间的间隔称为音调间隔或基音周期。清音分成摩擦音和破裂音,由空气通过声道的狭窄部分产生摩擦音;声道在瞬间闭合,然后在气流的压迫下迅速地放开将产生破裂音。
浊音不仅显示出周期之间的冗余度,还存在对应于音调间隔的长期重复波形。对浊音最有效的编码方法是对一个音调间隔波形编码,并以其作为其他音段的模板。男、女声的音调间隔分别为5~20ms和2.5~10ms,而典型的浊音约持续100ms,其中有20~40个音调间隔。音调间隔编码能大大降低数码率。
(5)长时自相关函数。上述数值、周期间的相关性,都是在20ms时间间隔内进行统计的短时自相关。如果在几十秒的时间间隔内进行统计,便得到长时自相关函数。当采样频率为8kHz时,相邻数据间的平均相关系数高达0.9。
(6)静止系数。在讲话的时候,会出现字、词、句之间的停顿。分析表明,语音间隙静止系数为0.6。
2.频域冗余
音频信号的频域冗余主要表现在两方面:
(1)长时功率谱密度的非均匀性。在相当长的时间内进行统计平均,得到长时功率谱密度函数,呈现明显的非平坦性,意味着没有充分利用给定的频段,存在固有频率冗余度。(www.xing528.com)
(2)语音特有的短时功率谱密度在某些频率上出现峰值,而在另一些频率上出现谷值。峰值频率是能量较大的频率,称为振峰频率,它们决定了不同的语音特征。与视频信号类似,整个短时功率谱以基音频率为周期,形成了高次谐波结构,与视频信号的差异在于直流分量较小。
3.听觉冗余
音频信号最终是给人耳听的,可以利用人耳的听觉特性——人耳的掩蔽效应对音频信号进行压缩。
一个较强的声音的存在掩蔽了另一个较弱声音的存在,这就是人耳掩蔽效应。图1-34为人耳掩蔽效应的示意图,即“听觉阈值曲线和频域掩蔽效应图”a,b为同时存在的两个频率相近的声音,声音a最强,虚线以下表示是由于a存在,使人耳听不到的区域,因此这条曲线称为声音a的掩蔽曲线,图中的声音b在虚线以下,所以听不到,把每个频率的掩蔽曲线相叠加,就可以求出整个频带的掩蔽曲线。
图1-34 听觉阈值曲线和频域掩蔽效应图
例如,有两个人正在马路边谈话时,一辆汽车从他们身旁疾驰而过,此时,双方均听不到对方正在说些什么,原因是相互间的谈话声音被汽车的噪声所掩盖,这就好比小声音信号被大声音信号掩蔽掉了,这种现象称为掩蔽效应。人耳的掩蔽效应是一个较为复杂的心理学和生理声学现象,主要表现在频谱掩蔽效应和时间掩蔽效应。
(1)频谱掩蔽效应。人对各种频率可听见的最小声级称为绝对可听域,在20Hz~20kHz的可听范围内,人耳对频率3~4kHz附近的声音信号最敏感,对太低和太高的频率的声音感觉都很迟钝。如果有多个频率成分的复杂信号存在,那么绝对可听域曲线取决于各掩蔽音的强度、频率和它们之间的距离。图1-34是人耳的听觉阈值曲线和频谱掩蔽效应图,人耳只能听到掩蔽曲线以上的声音,低于图1-34曲线的频率成分人就听不见了,当然不必传送了。
(2)时间掩蔽效应。时间掩蔽效应分为前掩蔽和同期掩蔽、后掩蔽。在时域内,听到强音之前的短暂时间内,业已存在的弱音可以被掩蔽而听不到。这种现象称为前掩蔽。当强音和弱音同时存在时,弱音被强音掩蔽,这种现象称为同期掩蔽;当强音消失后,经过较长的持续时间,才能重新听到弱音信号,这种现象称为后掩蔽。这3种时域掩蔽效应的时间关系如图1-35所示。
图1-35 时域掩蔽效应
由图可以看到前掩蔽期间,人耳的听阈具有上升的趋势,且持续时间较短,大约只有10ms。在后掩蔽期间,人耳的听域具有下降的趋势,且持续时间较长,一般在100~200ms之间,这是由于人耳收集强声的时间大约为200ms。在编码时,可将时间上彼此相继的一些采样值归并成块,以降低码率。人耳除具有听觉掩蔽效应外,还对大于2kHz以上的高频率声音信号具有方向的特征,即人耳不能分别判断频率接近的高频声音信号的方向,在声音编码中可利用此特征,把多个声道信号的高频部分耦合到一个公共声道。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。