1)音频相似度
音频相似度作为音频检索的一个方面,很多文献也进行了研究。Aucouturier和Pachet等人率先使用(粗的)音乐体裁分类来评价他们的音乐相似性度量。典型的音乐流派使用了古典、迪斯科、嘻哈、爵士等音乐体裁。这些基本体裁的音乐通常能通过声音清楚地进行分别。
(1)音色。
音乐的音色是对音乐进行相似判别的一个主要方面,2000年Logan(洛根)是第一批研究音乐相似性度量方法的人之一。今天几乎所有常见的音乐相似方法仍然使用类似于洛根所使用的音色组件。
Mandel和Ellis提出了一个非常简单的变量来计算音乐相似度。他们也是根据Logan和Salomon使用的MFCCs,但与Aucouturier和Pachet方法不同,他们通过训练一个高斯混合模型(GMM),只估计MFCC向量的单多元高斯模型。通过这种方式,他们提出近似使用离散交叉熵来计算两个音乐模型之间相似度的解决方案。与旧的算法相比,Mandel和Ellis的方法除了速度非常快之外,也优于其他音乐相似性度量的质量。从那时起,他们的方法被称为计算音乐相似度的标准方法之一。
(2)节奏。
除了音色,另一个定义音乐相似度量方法的主要因素是节奏。这方面的工作已由Pampalk等人和Gouyon等人进行了研究。他们用华尔兹、伦巴舞、狐步舞、莎莎等古典舞音乐片段来评价算法的性能。
节奏是一种早期的对音乐节奏建模的比较算法模型。它工作的三个步骤如下:①音频转化为MFCC表示;②所有帧两两进行距离比较,并被记录在一个距离矩阵中;③通过寻找相似矩阵的自相关性来计算节奏谱。
Pampalk等人发表了一种使用韵律特征音乐相似度的计算方法,计算出所谓的节奏或波动模式。波动模式是每个音频信号的每个频率带的周期性二维表示方法。他们使用由Stanley Smith Stevens提出的若干规模、主观响度表示方法,并计算每一个频谱每帧128s的快速傅里叶变换(FFT)系数。两个波动模式的相似度通过欧式距离平方计算。
(3)多元特征。
除了显式的对节奏和音色建模的算法,大量的音乐相似性度量主要通过音频的多个特征来判定。
Tzanetakis和Cook创建了部分基于音色、节奏、音高特征的30维特征向量来计算音乐相似性。特征向量的音色部分是通过计算MFCC得到的,节奏特征是通过计算直方图特征得到的,音高是通过计算向量元素的多音高检测算法得到的。Tzanetakis和Cook是提出结合了多个方面的音乐特征到单一的音乐特征来计算音乐相似性方法的学者之一。他们的相似性算法被集成在一个叫MARSYAS的开源音频处理框架中。
同Tzanetakis和Cook一样,Neumayer等人把音色和节奏混合在一起作为音乐相似度量方法。其节奏特点都来源于波动模式,音乐的音色特点是通过Bark频谱的统计描述计算出来的。
(4)情绪或情感。
越来越多的出版物通过自动检测情绪和情感来计算两个音频片段间的相似度。这是通过分析原始音频信号信息(通常基本情绪的变化使用罗素的基于二维评价值-唤醒度图)来进行判定。进行音乐分类方法的音乐情绪通常使用由Farnsworth介绍的形容词组(恐惧、悲伤、安静、放松、快乐、惊讶等等)。(www.xing528.com)
其他用于构建音乐相似性度量的方法考虑了与音乐有关的文化和上下文信息。此信息可以从Web页或社会网络挖掘。音乐上下文信息包括艺术家或乐队传记、新闻、花絮、主唱歌手和乐队成员信息、歌词、音乐录影带,甚至是接到某些类型的时尚音乐。
由此可以看到对音乐相似性的度量主要有三个方面:一是从音乐体裁分类,通过音乐风格来度量;二是从音乐的上下文信息进行度量;三是从融合到音乐中的感觉,情绪以及情感来度量。
基于内容的音乐相似性度量方法只使用音频信号来建立相似模型。其共同之处在于他们都是通过“帧袋”(bag of frames,类似于文本信息检索中的“词袋”)方式提取的,其音乐特征是通过计算独立的音频片段得到的。
第一批提出基于内容的音乐相似度计算方法的是Logan和Salomon。他们是第一批探讨两块音乐片段之间相似性问题的学者。他们用梅尔频率倒频谱系数(MFCCs)来计算音乐相似度。Logan建议将每26毫秒(与13毫秒跳跃大小)的音频计算MFCCs的13个系数作为音频信号的特征。MFCC向量的k均值聚类定义了每个音乐片段的特征。
Aucouturier和Pachet建立了基于Logan和Salomon思想的方法。他们利用MFCC向量上的高斯混合模型(GMMs)来对相似特征进行建模。为了计算两个GMMs之间的相似度,他们用了Monte-Carlo的从一个GMM随机采样方法来计算可能从这个GMM生成的样本。
以上算法都是通过计算移动距离来计算两个音乐片段之间的相似性的。
2)音频分段
通常我们将检索目标的音频数据作为一个整体进行直接检索。当输入的音频数据不完整,有部分缺失时,可能出现无法检出的情况,增加正确检出的难度。当对实时音频流进行检索时,数据的无法预知性、不可再现性要求系统能够及时处理到来的数据。系统必须能够实现实时获取音频数据、计算特征、匹配计算的功能。其中一个比较简单的方法就是对音频数据进行分段,对每个片段独立检出,独立计算相似度,最后汇总检出结果,以达到实时、快速、准确检索的要求。
分段式音频检索方法的基本思想如图7-9所示,对样例模板进行特征提取后,对其分段,每段独立计算相似度,根据一定的阈值及计算规则,得出最后的相似结果并输出。
图7-9 分段式音频检索方法示意图
从输入的待检音频数据源中检索重复片段的同时,结合各个片段的时序关系即可得出最终的检索结果。
分段检索方法中,每个片段独立进行检索,设定检出片段的数量作为阈值,当检出的片段满足阈值时,即可判定音频检出。这样检索的好处就是当被检测目标不完整,有部分残缺时,也能够检出,有很好的残缺鲁棒性。
从算法原理来看,分段检索方法就是将待检音频切分成若干片段,在音频库输入流中进行滑动匹配,检测这些片段是否出现。从另外一个角度看,如果把音频库输入流划分成片段,然后在待检音频上进行滑动匹配,也可以实现同样的检索效果。具体选择哪种方式,取决于实际的检索系统所处的工作环境下输入数据流的特点及检索应用的需求。
基于内容的音频检索虽然经过了几十年的发展,但是如何有效地从多媒体信息中检索出需要的信息,在国内外仍处于研究、探索阶段。本小节介绍了如何提取音频特征以及几种检索方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。