首页 理论教育 音频流自动分割技术

音频流自动分割技术

时间:2023-07-02 理论教育 版权反馈
【摘要】:许多研究尝试通过基于听觉特征的分析方法,设计音频流的自动分割算法。实际上,音频流的自动分割和视频流的结构化技术有一定的异曲同工之处。音频流的自动分割可以采取与上述视频流分割类似的方法,即基于底层内容特征值突变检测的分析方法。目前,在音频流的自动分割研究中也出现了大量的监督式分类方法。

音频流自动分割技术

一段几十分钟或者几个小时的音频数据往往包含非常丰富的语义信息。例如:交通音乐广播电台播放的半个小时的节目中,很可能包括了歌曲、交通路况信息、广告、主持人语音等不同的信息;或者是一段足球比赛的录音,有比赛前奏响的国歌声、进球之前对运动员传球路线的解说声、进球时观众兴奋的叫喊声等描述多种语义的语音信息。

许多研究尝试通过基于听觉特征的分析方法,设计音频流的自动分割算法。如果能够将一个较大的音频流分割为若干个小的片段,使得每个片段在内容和属性上具有相似性,不但更有利于听众选择性地收听音频信息,而且对音频素材的后续管理、分析、识别和检索等应用也更加方便。

实际上,音频流的自动分割和视频流的结构化技术有一定的异曲同工之处。与音频类似,视频流也是一种非结构化的时序数据,并且包含了丰富的语义。一般而言,视频流的分割技术是根据视频镜头在底层内容特征上是否发生了突变,来判断是否有镜头切换。例如:在一段新闻联播的视频流数据中,从主持人播报新闻的镜头切换到了亚运会比赛的现场画面,这时就会发生底层视觉特征上的突变,从而可以以此为边界将视频流分割开来。

音频流的自动分割可以采取与上述视频流分割类似的方法,即基于底层内容特征值突变检测的分析方法。这一类方法的主要思想是对两个相邻的音频窗口,分别提取底层听觉特征,构成各自的特征向量,并计算两者间的距离,如果距离大于某个阈值,则在这两个窗口之间进行切分。这种音频分割方式属于非监督式的学习方法,即:针对未标记的数据,通过对数据进行分析找出其内在规律。(www.xing528.com)

在5.2节中图5-2给出了四种压缩域特征的曲线图,在此基础上,可以采用基于距离度量的非监督式方法,得到如图5-4所示的音频分割结果。图中的竖线表示计算机识别出来的分割点,(a)(b)(c)(d)分别是基于质心、衰减截止频率、均方根和频谱流量特征,得到的四种切分结果。

图5-4 基于四种压缩域特征的音频分割结果

此外,与非监督式方法不同,监督式的学习方法则是通过对有标号的训练样本进行分析,从而实现对未标记的测试样本进行识别和标记的目的。目前,在音频流的自动分割研究中也出现了大量的监督式分类方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈