首页 理论教育 音频的时域特征提取方法及其局限性

音频的时域特征提取方法及其局限性

时间:2023-07-02 理论教育 版权反馈
【摘要】:如果将音频看成一种二维信号,如图5-1所示,横坐标是时间轴,纵坐标表示音频在某一时刻的能量幅度,可以提取的时域特征包括短时过零率、平均能量、线性预测系数等。这种特征提取方法的优点是简单、易于求解,缺点是误差大、不精确,这主要是因为音频本质上是一种非线性信号。

音频的时域特征提取方法及其局限性

如果将音频看成一种二维信号,如图5-1所示,横坐标是时间轴,纵坐标表示音频在某一时刻的能量幅度,可以提取的时域特征包括短时过零率、平均能量、线性预测系数等。其中,过零率,顾名思义,是指在一个音频窗口的范围内,采样点的能量值从正到负和从负到正的变化总次数。

图5-1 音频的二维坐标表示

1.短时平均能量

简单地说,短时平均能量是指在一个音频窗口的较短时间范围内,所有采样点的平均能量。假设x表示一段音频,用(x1,…,xn)表示对x采样后得到的n个采样点,短时平均能量计算过程如下:将音频片段x的所有n个采样点x1,…,xn划分成的m个音频窗口,每个窗口包括几百个采样点,相邻的两个音频窗口之间有大约30%的重叠率,则对于某个音频窗口Wi(i∈[1,m]),其短时平均能量的计算公式为(www.xing528.com)

式中,E(xi)表示音频窗口Wi中采样点xi的能量值;F表示窗口函数,用于对离散信号序列截短。

2.线性预测系数

所谓“线性”是指用线性模型M(ξi)来模拟音频片段x=(x1,…,xn),这个模型中的参数ξi就叫做线性系数;通过已知的采样点建立线性模型M(ξi),并用于计算后续采样点的能量值,称为线性预测,因此,参数ξi也称为线性预测系数(Linear Predictive Coefficient,LPC)。这种特征在提取时一般是以音频窗口为对象,分别为每个窗口建立线性预测模型,其中的参数就作为这个音频窗口的特征。

这种特征提取方法的优点是简单、易于求解,缺点是误差大、不精确,这主要是因为音频本质上是一种非线性信号。然而,如果用非线性模型来建模,则又面临着计算量大、收敛性和稳定性差等缺点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈