音频信号压缩的潜力与应用

更新时间：2025-01-10 工作计划版权反馈

【摘要】：根据统计分析，音频信号中存在着多种时域冗余和频域冗余，可以将其进行压缩。音频信号中，小幅度值比大幅度值出现的概率要大。基音之间的相关性。音调间隔编码能大大降低数码率。

人耳可以听到频率在20Hz～20kHz之间的声波。这种声波被称为音频信号，主要分为3种：语音，频率在200Hz～3.4kHz之间；音乐声，频率在20Hz～20kHz之间；效果声，如自然现象产生的刮风、下雨、打雷等声音，或人工产生的爆破声、拟音等，对语音和音乐起补充作用。

根据统计分析，音频信号中存在着多种时域冗余和频域冗余，可以将其进行压缩。根据人耳的听觉特征，也能对其进行压缩。

1.时域冗余

音频信号的时域冗余主要表现为以下几点：

（1）幅度分布的非均匀性。音频信号中，小幅度值比大幅度值出现的概率要大。语音中的间歇、停顿会出现大量的低电平值。

（2）数值间的相关性。语音相邻数据之间存在很大的相关性，当采样频率为8kHz时，相邻数据间的相关系数大于0.85，甚至在相距10个数据时还可有0.3左右的相关系数；如果采样频率提高，数据间的相关性将更强。利用差分编码技术，可以有效地进行数据压缩。

（3）周期之间的相关性。一种声音在某一瞬间只含少数频率成分，在周期之间，存在着一定的相关性。

（4）基音之间的相关性。语音分为浊音（voiced sound）和清音（unvoiced sound）两种基音。浊音是由声带振动产生的，每一次振动使一股空气从肺部流进声道，发出元音和一些辅音的后面部分。各股空气之间的间隔称为音调间隔或基音周期。清音分成摩擦音和破裂音，由空气通过声道的狭窄部分产生摩擦音；声道在瞬间闭合，然后在气流的压迫下迅速地放开将产生破裂音。

浊音不仅显示出周期之间的冗余度，还存在对应于音调间隔的长期重复波形。对浊音最有效的编码方法是对一个音调间隔波形编码，并以其作为其他音段的模板。男、女声的音调间隔分别为5～20ms和2.5～10ms，而典型的浊音约持续100ms，其中有20～40个音调间隔。音调间隔编码能大大降低数码率。

（5）长时自相关函数。上述数值、周期间的相关性，都是在20ms时间间隔内进行统计的短时自相关。如果在几十秒的时间间隔内进行统计，便得到长时自相关函数。当采样频率为8kHz时，相邻数据间的平均相关系数高达0.9。

（6）静止系数。在讲话的时候，会出现字、词、句之间的停顿。分析表明，语音间隙静止系数为0.6。

2.频域冗余

音频信号的频域冗余主要表现在两方面：

（1）长时功率谱密度的非均匀性。在相当长的时间内进行统计平均，得到长时功率谱密度函数，呈现明显的非平坦性，意味着没有充分利用给定的频段，存在固有频率冗余度。(www.xing528.com)

（2）语音特有的短时功率谱密度在某些频率上出现峰值，而在另一些频率上出现谷值。峰值频率是能量较大的频率，称为振峰频率，它们决定了不同的语音特征。与视频信号类似，整个短时功率谱以基音频率为周期，形成了高次谐波结构，与视频信号的差异在于直流分量较小。

3.听觉冗余

音频信号最终是给人耳听的，可以利用人耳的听觉特性——人耳的掩蔽效应对音频信号进行压缩。

一个较强的声音的存在掩蔽了另一个较弱声音的存在，这就是人耳掩蔽效应。图1-34为人耳掩蔽效应的示意图，即“听觉阈值曲线和频域掩蔽效应图”a，b为同时存在的两个频率相近的声音，声音a最强，虚线以下表示是由于a存在，使人耳听不到的区域，因此这条曲线称为声音a的掩蔽曲线，图中的声音b在虚线以下，所以听不到，把每个频率的掩蔽曲线相叠加，就可以求出整个频带的掩蔽曲线。

图1-34 听觉阈值曲线和频域掩蔽效应图

例如，有两个人正在马路边谈话时，一辆汽车从他们身旁疾驰而过，此时，双方均听不到对方正在说些什么，原因是相互间的谈话声音被汽车的噪声所掩盖，这就好比小声音信号被大声音信号掩蔽掉了，这种现象称为掩蔽效应。人耳的掩蔽效应是一个较为复杂的心理学和生理声学现象，主要表现在频谱掩蔽效应和时间掩蔽效应。

（1）频谱掩蔽效应。人对各种频率可听见的最小声级称为绝对可听域，在20Hz～20kHz的可听范围内，人耳对频率3～4kHz附近的声音信号最敏感，对太低和太高的频率的声音感觉都很迟钝。如果有多个频率成分的复杂信号存在，那么绝对可听域曲线取决于各掩蔽音的强度、频率和它们之间的距离。图1-34是人耳的听觉阈值曲线和频谱掩蔽效应图，人耳只能听到掩蔽曲线以上的声音，低于图1-34曲线的频率成分人就听不见了，当然不必传送了。

（2）时间掩蔽效应。时间掩蔽效应分为前掩蔽和同期掩蔽、后掩蔽。在时域内，听到强音之前的短暂时间内，业已存在的弱音可以被掩蔽而听不到。这种现象称为前掩蔽。当强音和弱音同时存在时，弱音被强音掩蔽，这种现象称为同期掩蔽；当强音消失后，经过较长的持续时间，才能重新听到弱音信号，这种现象称为后掩蔽。这3种时域掩蔽效应的时间关系如图1-35所示。

图1-35 时域掩蔽效应

由图可以看到前掩蔽期间，人耳的听阈具有上升的趋势，且持续时间较短，大约只有10ms。在后掩蔽期间，人耳的听域具有下降的趋势，且持续时间较长，一般在100～200ms之间，这是由于人耳收集强声的时间大约为200ms。在编码时，可将时间上彼此相继的一些采样值归并成块，以降低码率。人耳除具有听觉掩蔽效应外，还对大于2kHz以上的高频率声音信号具有方向的特征，即人耳不能分别判断频率接近的高频声音信号的方向，在声音编码中可利用此特征，把多个声道信号的高频部分耦合到一个公共声道。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作思路

策划书

留守儿童

关工委

内部审计

爱国卫生

业务员

信息技术

教研员

心理教育

居委会

社区学校

公司安全

部门月度

区安全

公司工会

乡镇基层

劳动保障

经理年度

内科年度

教学个人

前台个人

个人月度

配班个人

音频信号压缩的潜力与应用

相关推荐

音频信号压缩的潜力与应用

有关数字电视有线传输原理与维修的文章

相关推荐