首页 理论教育 基于内容的音频特征提取方法优化

基于内容的音频特征提取方法优化

时间:2023-07-08 理论教育 版权反馈
【摘要】:1)基于音频帧信息的特征提取音频信号分析的最小单位是音频帧。对音频帧的特征提取及分析是对音频分类的基础,因此要选择能充分表示音频时域和频域显著信息的特征进行分类,并且这些特征对环境的改变具有一般性和鲁棒性。同时,短时平均能量STE是区分音乐和静音的有效特征。相应地,辅音信号的过零率低,元音信号的过零率就高。2)基于音频片段信息的特征提取音频段是由若干音频帧组成的,也是进行音频检索的最小单位。

基于内容的音频特征提取方法优化

音频信号是随着时间变化的,是时域上的一种表示形式,但其数据过于庞大,不方便直接使用。而特征提取就是从原始音频信号数据中提取具有代表性的、数据量比较少的一种音频信号的表达形式。

由于音频信号具有短时平稳特性,我们可以根据这个特点以固定长度的音频帧作为一个统计单位,统计其中的各项属性来代表该帧的音频信号,即音频特征。音频特征提取有以下两种方法:一种是从叠加的音频帧中提取特征;另一种是从音频片段中提取。一般提取各音频帧的统计特征作为音频片段特征。

1)基于音频帧信息的特征提取

音频信号分析的最小单位是音频帧。对音频帧的特征提取及分析是对音频分类的基础,因此要选择能充分表示音频时域和频域显著信息的特征进行分类,并且这些特征对环境的改变具有一般性和鲁棒性。因为帧信息特征的提取是段信息特征提取的基础,因此帧的特征提取部分至关重要,下面将介绍音频帧特征的提取。

(1)短时平均能量(short time energy)。

短时平均能量计算公式如下:

式中,x(n)表示当前音频帧内的第n个采样点,N 则表示当前帧内采样点的个数。短时平均能量STE可以用来判断静音帧,如果某一帧的STE小于阈值,则认为该帧是静音帧,否则是非静音帧。对于静音帧,应该在分类器之前去除。而对于非静音帧,应该提取其更多的音频特征。同时,短时平均能量STE是区分音乐和静音的有效特征。通常,语音中含有比音乐中更多的静音,因而,语音的平均能量的变化要比音乐中的大很多。

(2)过零率(zero-crossing rate)。

“过零率”指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数,这个量能够大概反映信号在短时帧内的平均频率。

语音信号一般是由几个单词组成的,每个单词又由元音和辅音相交替的音节组成。语音产生模型指出,由于声道阻碍较大,所以辅音的能量集中在3k Hz以下,所带能量较小;反之,由于声道阻碍较小,元音所带能量较大。这样,语音信号在波形上表现为较短时间内的低能量辅音信号总是后继一个较长时间的高能量元音信号。相应地,辅音信号的过零率低,元音信号的过零率就高。因为语音信号开始和结束都集中了大量辅音信号,所以在语音信号中,其开始和结束部分的过零率总会有显著升高。因此利用过零率可以判断语音是否开始和结束。另外,因为大多数音乐信号集中在低频部分,其过零率不表现出突然升高或降落的跌宕特性,所以有时候也用过零率来区分语音和音乐两种不同音频信号。

(3)子带能量(sub-band spectrum energy)。

第i个子带的能量计算公式如下:

式中,DFT是傅里叶变换系数,它是对音频信号频率分布的频域特征的描述。通过计算不同子带能量占整个频带能量的比重来描述频率分布。

(4)带宽(band width)。

音频带宽指的是一定的频率范围。人耳所能感知的频率范围大概是20~3500Hz之间,但是能够被理解的有用的频率大概在200~3500Hz这个范围内,我们处理的音频信号的带宽可以反映音频信号的强弱,具体计算公式如下:

式中,DFT表示傅里叶变换系数,N表示一帧内采样点的个数,SC是频谱质心。(www.xing528.com)

(5)频谱质心(spectral centroid)。

音频的频谱质心是一个音频帧频谱能量平均分布点的表示,能够反映音频帧内信号的基本频率带,计算公式如下:

式中,N表示一帧内采样点个数,DFT表示傅里叶变换系数。

2)基于音频片段信息的特征提取

音频段是由若干音频帧组成的,也是进行音频检索的最小单位。音频段的特征可以通过提取音频帧的特征并进行综合而得出。对音频片段信息特征进行计算就是对音频段内包含的音频帧的特征进行均值、方差、标准差等统计量的计算。下面介绍几个音频片段特征。

(1)静音帧比例。

通过计算音频帧频域的能量,可以判定当前帧是否为静音帧。一段音频中静音帧数与总帧数的比例可由式(7-19)计算:

式中,M为一个音频片段中的静音帧总数,N为这个音频片段中的帧的总数。

(2)高过零率比。

高过零率比是基于对过零率的分析,通过设定过零率的阈值来计算该音频片段中过零率高于这个阈值的帧所占的比率,如下公式:

式中,M为高于阈值的音频帧数,N为该音频片段中的总帧数。

(3)子带能量比均值、带宽均值和频谱质心均值。

通过计算音频片段中各子带能量比的平均值、带宽平均值和频谱质心平均值来表征音频片段中的频率信息。

(4)频谱变迁(spectral flux)。

频谱变迁主要计算该音频片段中所有相邻两帧的频谱差异的平均值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈