首页 理论教育 压缩域特征优化技巧

压缩域特征优化技巧

时间:2023-07-02 理论教育 版权反馈
【摘要】:大量的音频数据都是按照MPEG标准进行编码和压缩的。压缩域特征的提取方法可以无需解码,直接从压缩后的音频数据中提取底层听觉特征。选取一段持续时间为2s的鸟叫声音频信号,提取其压缩域的四种特征,特征提取结果如图5-2所示。

压缩域特征优化技巧

人的耳朵在听声音时具有时间遮掩和频率遮掩的感知特性。比如:很多人都有这样的经历:在一个嘈杂的场所,经过一段时间后,就听不到太多的声音了,这就是典型的时间遮掩;另外,当一种频率的声音非常大,就会很难注意到这个频率附近的其他声音,这就是频率遮掩。

这种听觉心理学现象反映了人耳的一种听觉特性。实际上,在存储和传输音频信息的时候,可以利用这种特性来进行数据压缩。MPEG技术正是结合了这种人耳感知特性,而发展起来的一种通用多媒体数据压缩标准。大量的音频数据都是按照MPEG标准进行编码和压缩的。压缩域特征的提取方法可以无需解码,直接从压缩后的音频数据中提取底层听觉特征。

对于每个音频窗口,MPEG标准将其划分为32个子带(具体内容可参考ISO/MPEG的相关标准),首先计算每个子带的均方根,如下所示:

式中,整数i的取值范围为i∈[1,32];E(i)表示音频窗口中子带i的均方根;s(i,j)表示子带i对应的32维子带矢量,可以根据ISO/MPEG编码标准计算得到。在子带均方根E(i)的基础上,可以计算质心(Centroid)、衰减截止频率(Rolloff)、均方根(RMS)、频谱流量(Spectral Flux)这四种常用的压缩域特征,如下所示:

(1)质心(Centroid),从几何意义上讲,质心是矢量的平衡点,在这里它反映了音频信号在压缩域上的基本频率,计算公式如下:

(www.xing528.com)

(2)衰减截止频率(Rolloff),是指音频信号在衰减3dB时的截止频率值,反映了人耳对音频信号由强到弱变化的敏感性,计算公式如下:

(3)均方根(RMS),反映了音频信号的强度,即音量大小,计算公式如下:

(4)频谱流量(Spectral Flux),计算相邻两个音频窗口的均方根E(i)的差分,体现了音频信号的动态特征。

选取一段持续时间为2s的鸟叫声音频信号,提取其压缩域的四种特征,特征提取结果如图5-2所示。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈