音频信号是时间和幅度都连续变化的一维模拟信号,尽管其形式多种多样,但用现代信息技术手段进行处理的第一步都是对信号进行数字化处理及特征分析。
数字化处理主要是对音频信号进行采样和量化,将它变成时间及幅度离散的数字信号。将信号数字化后,为了能用传统方法对其分析,一般假设它在几十毫秒的时间内是短时平稳的,因此需要加窗操作获取其短时平稳特性。而在窗函数滑动的过程中对音频信号进行了重叠分帧,没有重叠的部分即称为帧移。之后就可以对窗内的信号进行特征计算。
常用的音频信号特征包含两方面内容:一是信号统计特征;二是信号感知特征。前者主要有信号的短时能量、过零率、频谱特征、短时自相关函数、平均幅度差函数等;后者一般包括基频、响度、梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC),以及线性预测(Linear predictive,PLP)系数等。
1)音频信号的统计特征
(1)短时能量。
音频信号的能量随时间变化比较明显,而在短时间内对其短时能量分析是对这种幅度变化的一个比较合适的描述方法。短时能量能够对信号的幅度大小进行有效判断,对音频信号的有声、无声判定非常重要。由于它对信号进行平方运算,因而可以认为增加了高低信号之间的差异,在一些应用场合不大适用。要解决这个问题有两个方法:一是采用对数能量;二是采用短时的平均幅值来表示能量的变化。
(2)短时过零率。
短时过零率指的是每帧信号通过零值的次数,是信号分析中比较简单的一种特征。对连续信号而言,是其时域波形通过时间轴的情况;而对离散信号而言,是采样点符号的变化次数。短时过零率在一定程度上能够反映音频帧的频谱性质。
(3)短时自相关函数。
相关函数常用于计算两个信号在时域上的相似度,根据两个信号的相关性分为自相关函数和互相关函数。如果两信号的波形完全不同,表示这两信号相互独立,则互相关函数几乎为零;如果二者波形相同,则互相关函数会在超前和滞后处显现峰值,以此求得相似度。而自相关函数倾向于信号自身的周期性、同步性。
(4)短时平均幅度差函数。
短时自相关函数由于其乘法运算量大,时间消耗太多,即使简化也无法避免乘法运算,通常采用与其有类似作用的函数,如短时平均幅度差函数来降低运算复杂度。(www.xing528.com)
2)音频信号的感知特征
(1)基频。
通常将语音和音调性音乐等标准周期信号的最低频率定义为基频,即基频的倒数为信号周期,它能够对发声体振动引起的周期性特征进行描述。在音频信息检索应用中,基频估计的好坏直接作为系统最终性能的判定。因此,针对纯净音频众多研究人员相继提出了不同的基频估计方法。但是在噪声条件下,基频估计的性能的可靠性还有待进一步提升。
传统的基频估计方法通常分为时域估计法、频域估计法和时域频域联合估计法。时域估计法计算效率比较高,在语音与音乐信号的检测中应用广泛。其中,平均幅度差函数法(average magnitude difference function,AMDF)与自相关函数法(autocorrelation function,ACF)在准确度以及鲁棒性方面都具有良好的性能,被广泛应用于语音与音频编码系统中。近年来,有学者在此基础上分别利用循环AMDF、加权ACF来改善传统时域基频估计的准确性。而Cheveigne等根据累积幅度差函数提出了YIN方法,在附加不同噪声成分的条件下降低了基频估计的总错误率。
(2)响度。
人耳对音调的感知特性在语音处理中广泛使用,但响度特征应用较少。
(3)梅尔频率倒谱系数(MFCC)。
MFCC在傅里叶变换和倒谱分析基础上,通过对短时音频帧中的每个采样点运用傅里叶变换获取其能量特征。
(4)线性预测倒谱系数(LPCC系数)。
线性预测是基于语音信号之间的相关性思想,用过去的样点值预测未来的样点值,通过对过去若干语音抽样点的线性组合逼近,使得实际的语音信号抽样值和线性预测抽样值间的误差达到最小来求解预测系数,这个预测系数能够反映语音信号的特征系数。
线性预测系数通过对一个短时帧内的有限个参数用数学模型近似地表示音频采样序列x(n),并把这些参数作为x(n)的重要特征,称其为线性预测系数。线性预测系数在音频信息检索方面和压缩编码领域都有广泛应用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。