首页 理论教育 音频预处理和特征提取技术

音频预处理和特征提取技术

时间:2023-07-02 理论教育 版权反馈
【摘要】:音频有别于一般数据,本身是一种正弦波,检索前需要进行预处理或进行媒体转换,以提取音频特征或文本描述。语音识别技术是音频处理的重点研究领域。说话者检测是音频处理的重要领域,可用以进行语音数据的对齐和视音频的聚类。在音频数据中提取特征有两种方法,一是提取感性特征,如音高、响度;二是计算非感性属性或称物理特性,如对数倒频谱系数、线性预测系数、特征提取多在频域进行。

音频预处理和特征提取技术

音频有别于一般数据,本身是一种正弦波,检索前需要进行预处理或进行媒体转换,以提取音频特征或文本描述。

1.语音识别

语音是与文字一一对应的,区别只在于语言不同,文字不同,所以如果把语音识别出来变成文字,就可以借助于常规的信息检索技术进行检索处理,或者进行其他操作,如人机交互,这就是语音识别的初衷。语音识别技术是音频处理的重点研究领域。对于基于内容的音频信息检索,则首先应提取数据的音频特征,而后对音频特征进行匹配,从而进行音频数据的分类和检索。

语音识别技术已经从实验室走出来成为一种比较实用的技术。IBM的Via-Voice和Lernout&Hauspie的Voice Express是两种比较成功的系统,其中Via-Voice将成为国内计算机的标准配置。

2.关键词识别

关键词识别是指在给定音频数据中查询少量特定的单词或短语。它可以通过对需要的关键词和填充模型进行HMM训练,以使其与每一个单词匹配。相对于大词汇量识别系统,关键词识别系统既精确,计算量又小,而且对于实际的语音数据有较大的弹性。对于关键词识别技术,比较典型的测试是SWITCHBOARD集,它收藏了自然生成的电话对话。由于对话大都是关于某一主题的,因此有些研究组正试图自动检测某一对话的主题。来自BBN的研究人员曾综合大词汇量识别与关键词识别技术以解决主题确认问题。

3.大词汇量语音识别

不同于关键词识别,大词汇量识别将大量的语音数据转换成文本形式。然而,单纯对所有单词建立HMM模型的大词汇量识别有一些缺点:如果单词不在语音词典中,将无法识别;需要建立语言模型,而且要有大量的文本训练集。鉴于此,一般采用“子单词”方法,将单词分段,而不是对数以千万计的单词建立HMM模型。这样只需要用到几百个基于音节的子单词模型。将几个子单词合在一起就可构成完整的单词。例如,“right”就可以由3个子单词“R、AY、T”相加而成。另外,针对不同语言的特点,需要研究各单词的出现概率。ASR的一个优点是,大多数需要的音频数据是已知的,故可以离线操作。然而ASR系统的一个很大的缺点在于它的准确率较低。对于特定的领域,即使是最好的连续语音识别系统也只能达到90%左右的准确率。而对现实的任务如电话对话或新闻广播,只能有50%~60%的准确率。(www.xing528.com)

4.说话者检测。说话者检测是音频处理的重要领域,可用以进行语音数据的对齐和视音频的聚类。相对于语音识别而言,说话者识别是比较简单而实用的技术,即不管说的是什么,只需注意是谁说的。应用说话者识别进行多媒体数据流的分段是一个很有前途的领域。如果分析处理能在毫秒级足够准确的话,就可用来在音频或视频等多媒体数据中检测说话者的改变。有一种基于倒频谱差异的方法,该方法通过比较特征空间中相似区域的差别,以消除同一说话者内部的改变。当此差异大于适当域值时,即可认定出现了新的说话者或话音有显著变化。此方法可与视频处理方法相结合,迅速有效地从音频与视频流中提取信息。

5.音频特征与提取

在进行音频检索之前,首先要提取音频特征。音频有其自身的特点和属性。在音频数据中提取特征有两种方法,一是提取感性特征,如音高、响度;二是计算非感性属性或称物理特性,如对数倒频谱系数、线性预测系数、特征提取多在频域进行。这里介绍几个常见的特征:

(1)响度:这是较常用的感性属性特征。计算应在时域进行,一般是对每帧数据取平方和,然后计算其平方根。(此方法与入耳的频率响应无关)

(2)音调:这是与频率有关的感性属性。

(3)过零率:两个相邻取样值有不同符号时,便出现“过零”现象。单位时间过零的次数称为“过零率”。过零率应用极广泛,尤其在语音识别方面。过零率高的区段对应于清音或无声区,因此时噪声相对较高,过零率低的区段对应于浊音。可见,过零率是区别清音与浊音、有声与无声的重要标志。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈