【摘要】:以上介绍的时域特征、频域特征和压缩域特征是三种基本的听觉特征类型。从音频数据中提取听觉特征时,一方面需要考虑提取哪种类型的特征;另一方面由于音频是由一系列时序性的离散采样点构成的,因此,还需要考虑特征计算的基本单位,也就是特征计算的粒度。因此,从音频窗口中提取的特征可以反映这段时间内的听觉特性。
以上介绍的时域特征、频域特征和压缩域特征是三种基本的听觉特征类型。从音频数据中提取听觉特征时,一方面需要考虑提取哪种类型的特征;另一方面由于音频是由一系列时序性的离散采样点构成的,因此,还需要考虑特征计算的基本单位,也就是特征计算的粒度。
考虑到任何语义都有一定的持续时间,如:一段老虎的吼叫声被记录成3s的音频片段(也称为音频样本),因此,最直接的方法就是从整个音频片段中提取各种底层听觉特征(如:时域特征、频域特征和压缩域特征);然后,将所有的特征构成向量来表征音频片段。例如:一段5s的语音数据,采样率为22.5kHz,则共有10万多个采样点,若使用所有采样点的时域、频域、压缩域的能量均值来表征整段5s的音频,是比较粗糙的、不具代表性的、不能反映音频信息的底层听觉特性。
(www.xing528.com)
图5-2 四种压缩域特征的示意图
另一种方法是将音频片段划分成音频窗口,再从音频窗口中提取底层听觉特征,这种方法的理论依据是音频信号在长时间内不稳定,在短时间内相对平稳。因此,从音频窗口中提取的特征可以反映这段时间内的听觉特性。在实际应用中,通常是先把音频片段分成若干个音频窗口,然后从每个窗口中提取特征,得到听觉特征矩阵,最后计算特征矩阵中所有特征的统计值,如:均值、期望值、方差等,从而降低特征维数,可以作为音频片段的形式化表达方式。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。