类似于光,声音是一种波动现象,声波的峰值随着时间连续变换,产生连续的模拟信号。计算机里存储的音频信息是通过连续采样得到的一系列时序性离散值。因此,我们可以直接对一幅幅的静态图像进行特征分析、模式识别和检索,然而对于时序性的音频信号,如一段30min的音频,首先需要将音频数据流分割成不同长度的子段,然后再对各个子段进行分析、识别和检索等处理。
音频的这种时序性与视频信息有着类似之处。音频和视频一样,都是属于连续的数据流,一秒钟的视频一般包括20~30帧的图像。但是,从本质上来看,音频比视频更具有不稳定性,即使在较短的时间内,音频信号都有可能发生剧烈变化。由于视频的连续帧之间具有时间和空间的相关性,存在一定量的冗余帧,因此,视频信号比音频信号相对稳定。
在视频内容分析领域,通常是将视频流结构化成镜头、关键帧、组、场景等多层次的结构,并以关键帧作为视频分析和表示的基本单位。而在处理音频时就无法使用音频“关键帧”,实际上,通常采用音频“窗口”(也称为音频帧)的技术,即:对离散的音频采样点进行分析和划分,一个音频“窗口”大约包括几百个采样点,持续几毫秒的时间。(www.xing528.com)
此外,从音频数据中提取的底层内容特征往往非常巨大,音频特征的提取过程可以简单描述如下:假设一段连续音频信号流经过采样后,得到的离散音频信号表示为x=(x1,…,xk),即:从连续音频信号中得到了k个采样数据;将其划分为n个窗口,也就是说,将这k个数据分成n组,每一组就是一个音频窗口,每个窗口包含[k/n]个采样点;那么,如果从每个窗口的所有采样点中提取m个特征,最后可以得到m×n个特征,也就构成了这段音频的特征。
从上述例子可以看到,音频特征的提取是以窗口中的采样点集合为基础的,而不是单独某一个采样点的特征。这也是音频所特有的特征分析方法。对于视频而言,传统的方法是对视频数据中的每一个图像帧进行分析,提取其底层内容特征,通过统计分析后,将一段视频流中所有的图像帧分割为若干个镜头,然后从每个镜头中选取关键帧,并以关键帧中提取的特征来表达整个视频流。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。