特征计算的基本单位：探究特征计算的本质

时间：2026-01-23 理论教育眠眠版权反馈

【摘要】：以上介绍的时域特征、频域特征和压缩域特征是三种基本的听觉特征类型。从音频数据中提取听觉特征时，一方面需要考虑提取哪种类型的特征；另一方面由于音频是由一系列时序性的离散采样点构成的，因此，还需要考虑特征计算的基本单位，也就是特征计算的粒度。因此，从音频窗口中提取的特征可以反映这段时间内的听觉特性。

以上介绍的时域特征、频域特征和压缩域特征是三种基本的听觉特征类型。从音频数据中提取听觉特征时，一方面需要考虑提取哪种类型的特征；另一方面由于音频是由一系列时序性的离散采样点构成的，因此，还需要考虑特征计算的基本单位，也就是特征计算的粒度。

考虑到任何语义都有一定的持续时间，如:一段老虎的吼叫声被记录成3s的音频片段(也称为音频样本)，因此，最直接的方法就是从整个音频片段中提取各种底层听觉特征(如:时域特征、频域特征和压缩域特征)；然后，将所有的特征构成向量来表征音频片段。例如:一段5s的语音数据，采样率为22.5kHz，则共有10万多个采样点，若使用所有采样点的时域、频域、压缩域的能量均值来表征整段5s的音频，是比较粗糙的、不具代表性的、不能反映音频信息的底层听觉特性。

(https://www.xing528.com)

图5-2　四种压缩域特征的示意图

另一种方法是将音频片段划分成音频窗口，再从音频窗口中提取底层听觉特征，这种方法的理论依据是音频信号在长时间内不稳定，在短时间内相对平稳。因此，从音频窗口中提取的特征可以反映这段时间内的听觉特性。在实际应用中，通常是先把音频片段分成若干个音频窗口，然后从每个窗口中提取特征，得到听觉特征矩阵，最后计算特征矩阵中所有特征的统计值，如:均值、期望值、方差等，从而降低特征维数，可以作为音频片段的形式化表达方式。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

特征计算的基本单位：探究特征计算的本质

相关推荐

特征计算的基本单位：探究特征计算的本质

相关文章：

相关推荐