首页 理论教育 化分析及其应用结构化分析视频的时序性特征及应用

化分析及其应用结构化分析视频的时序性特征及应用

时间:2023-07-02 理论教育 版权反馈
【摘要】:视频是一种时序性的非结构化数据,不仅包含了丰富的语义信息,而且在底层特征上包括视觉、听觉、文字字幕等多通道的特征。为了有效地组织、分析和利用视频信息,需要对视频中复杂的内容特征进行分析,其中,视频结构化是重要的组成部分。从帧到镜头需要进行镜头边缘检测和分割,也是视频流的进一步结构化处理。图4-2视频流的结构化示意图

化分析及其应用结构化分析视频的时序性特征及应用

视频是一种时序性的非结构化数据,不仅包含了丰富的语义信息,而且在底层特征上包括视觉、听觉、文字字幕等多通道的特征。为了有效地组织、分析和利用视频信息,需要对视频中复杂的内容特征进行分析,其中,视频结构化是重要的组成部分。如图4-1所示,视频流的多层结构化表示关系到视频的高维索引、聚类、摘要和目录生成等后续处理,是视频内容分析的基础。

图4-1 视频内容分析的简化示意图

如图4-1所示,在视频结构化的过程中需要对底层内容特征进行分析,这些特征包括:从图像帧中提取的静态的视觉特征、相邻帧之间的动态变化特征、视频流中的听觉特征、视频镜头的时间和空间特征以及视频字幕中提取的文本特征等。在特征提取的基础上,结合镜头分割、检测等技术,将连续的视频帧划分为长短不一的镜头;之后,将镜头进一步组合成不同的场景,称为视频结构化。下面是视频结构化中的一些基本概念。

1.帧(Frame)

视频流是由连续的图像帧构成的,帧是视频流中的基本组成单位,每一帧均可看成一个独立的图像。一秒钟的视频包括20~30帧的图像,也就是说,采样率一般为20~30帧/秒。

2.镜头(Shot)

镜头是指摄像机连续拍下的不间断的帧序列,在物理上是一个整体。例如:播音员播报一个新闻事件的视频镜头,或者是新闻发言人现场发言的一个视频镜头。从帧到镜头需要进行镜头边缘检测和分割,也是视频流的进一步结构化处理。一般而言,同一个镜头中的图像帧序列在底层视觉特征上变换较为缓慢,相反地,如果相邻的图像帧在视觉特征上发生了突然性地、明显地变化,则可以认为是发生了镜头切换,那么,可以以此为界进行镜头切分。视频镜头的自动分割是视频分析领域的研究热点,经典的分割算法包括帧差分法、颜色直方图法、压缩域差法等。(www.xing528.com)

3.关键帧(Key Frame)

镜头是由图像帧序列构成的,镜头中具有显著特性的图像帧称为关键帧,可以用来代表镜头的内容。一个镜头可以包括若干个关键帧,这是由镜头的复杂程度决定的。最简单的关键帧提取方法是将镜头的第一个帧和最后一个帧直接作为关键帧,以这两个帧来表示整个镜头,十分简单和有效。

4.场景(Scene)

视频镜头可以进一步地结构化处理,即:由镜头组成场景。场景是由语义上相关、时间上相邻的若干个镜头组成,表达了一定的语义概念。例如:“跳远比赛”这个场景可以由“运动员完成跳远动作”“裁判评分”“观众助威”“颁奖仪式”等若干个镜头组成,各个镜头表达了相关的语义,将其综合起来,可以形成一个完整的语义场景。如果用关键帧表示镜头,则场景可以由各个镜头所对应的关键帧集合来表示。

上述概念之间的关系可以用图4-2表示。除上述结构之外,还可以将镜头划分成组(Group),组是一种介于镜头和场景之间的一个结构化方式。例如,在一段美国总统奥巴马发表演讲的录像中,镜头在奥巴马和观众之间来回切换,可以将所有以奥巴马为主的镜头划分为一组,将包含观众画面的所有镜头划分为另一组,而整个演讲录像属于一个场景。

图4-2 视频流的结构化示意图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈