1.音频分类
在音频检索应用中,常需要对音频数据分类。音频分类和聚类是两个不同的概念:聚类指特征空间的分割,根据音频特征和需要将样本分成个数不定的类;而分类则是判断一个给定样本所在的类别。采频分类一般采用相似性检索的方法,即计算音频特征的距离。距离可采用欧几里得距离、对称相对熵或其他相应的距离定义。
比较常见的聚类方法是采用平均矢量量化方法。Muscle Fish公司即应用此种方法先将带标识的数据加窗处理,对每帧数据提取音高、响度、亮度、带宽属性,而后对属性序列计算其均值、方差和其相关值,加上能量共13个特征,最后采用平均矢量量化的方法将其分配到矢量空间的特定区域中。要确定某数据的类别,计算其与各码本之间的距离,距离最小的码本所在的类即为所求。检索一个数据则提取矢量空间中与它最近的N个点。
还有一种基于树型结构的方法:对带标识的数据加窗后计算其特征,而后采用基于最大相互信息树的方法将矢量空间分成L个不相交的区域,然后根据各集在区域中的分布生成模板。计算欲检测数据与模板间的距离即可进行分类和检索。
2.音频检索方法
对音频进行检索,可有多种检索方法。
(1)基本属性检索。这与普通的文本检索基本相同,查找诸如文件名、大小、生成时间等一般属性,或取样率、声道数等音频属性。
(2)特征值检索。用户指定某些声学特性的值或范围用于检索。
(3)示例匹配检索(QBE)。用户提交或选择一个示例声音,针对某个或某些特性,检出所有与示例相似的声音。这是最高层次的检索方法,也最常见。
(4)浏览检索法。用某种或某些特性对声音分类或分组,把声音的内容分割成若干可独立利用的节点,即可以按任意顺序通过链路检索到所有相关的信息。(www.xing528.com)
音频数据库可以综合关系数据库和多媒体数据库的优点,在高层采用如上所述的方法,底层采用已很成熟的关系数据库,如DB2或Oracle,这样可以借助其完善的数据库组织、事务处理和高效的底层关系检索功能,中间可以应用ODBC接口,构成一个完整的系统。
至于数据库记录,主要包含以下内容。
一般属性:如文件名、文件格式、大小、日期等。
音频属性:如声道数、取样率、持续时间等。
特征属性:如声强、能量、带宽或MFCC系数等。
实际应用时,常加入索引,聚簇以提高检索效率。
音频技术已研究了20多年,但实用的搜索引擎还需时日。Internet上的多媒体流非常巨大,要有一些高效的搜索引擎从浩如烟海的数据库中找出需要的信息。语音识别的速度和准确率还有待提高,音频流的分析,音频数据的分类和整理都是迫切需要研究的课题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。