在视频结构化描述技术框架内,着重针对视频中的人员面貌特征结构化描述相关技术进行了初步探讨。为了有效地解决人体动作和行为的多样性和复杂性等问题,将人员相关领域知识本体引入到视频图像数据的自动化分析之中。作为引申,从静态特征、动态特征、事件关联及业务知识模型4个方面对人员行为相关领域知识展开阐述,并给出了人体动作的知识模型组织图。在人员特征表达与运动建模方面,介绍了常见的人体静态特征描述与提取方法,并对人体运动分类和运动建模方法进行了阐述。最后,在人脸特征语义描述方面,给出了一个RDF框架下的语义描述实例。
人员信息的结构化描述,可以分为两个层面:人员脸部特征的结构化描述和人员行为特征的结构化描述。前者着眼于重点关注人员库中人脸图像的高效检索,属于图像侦查领域的业务应用范畴;后者则支持公共安全视频监控中异常事件的自动预警和预警事件的高效检索。
随着目前警用人脸数据库的日益完善,所包含的人脸数据量日益庞大,本来就不甚成熟的人脸图像检索技术在大型数据库中进行目标搜索时往往力不从心。刑侦破案中所能提供的输入信息往往不是明确的目标图像,而是目击者的文字描述,因此以图搜图式的检索方式并非完全适用。在这种情况下如何将目击者的文字描述准确有效地转换为可被人脸图像检索系统接受的信息就成了关键的一环。这种文字与头面部特征乃至整张人脸图像之间的转换,还可以应用于刑侦中的模拟画像(见图7-7),解决传统手动模拟画像对经验的要求,并提供方便直观的模拟画像绘制过程。在考虑到上述问题的情况下,头面部特征描述的必要性就凸显出来。面对户籍人口或外来人口等数量级巨大的人脸数据库时,头面部特征描述的结果可以加快搜索速度,提高识别精度。在因为目标姿态和拍摄条件等原因造成图像质量不足的情况下,无法得到确切的人脸识别结果,但可以从中得到脸型和面部器官的描述信息,如图7-8所示,将其提供给公安侦查人员,用于进一步排查。
图7-7 人像部件组合模拟画像
图7-8 脸部部件特征图
人员面部特征信息的结构化表达的前提是人脸特征的参数化,人脸参数化描述是指将脸型与面部器官的特征用一系列参数进行描述,并利用这些参数对脸型和面部各器官的形状进行分类识别,如图7-9所示。采用这种脸型与面部器官形状分类系统,实现了监控视频中的人脸信息提取和语义网架构下的结构化文本描述,以一种快速直观的方式,将监控场景中的人脸脸型特征和面部器官特征浓缩为便于理解的若干类型(见图7-10),为治安视频监控、刑侦业务和公共安全信息收集提供了有价值的信息和辅助功能,为基于人脸的身份识别提供分类判别的基础信息。该系统结构简单、操作方便、运行快速、结果直观而实用、工作性能稳定可靠,适用于多种场合。
图7-9 人脸信息参数化表达流程图
图7-10 人脸特征描述参数
为了保证对头面部特征的描述准确、标准统一、可复用并且可以由计算机自动处理,选择语义网架构下的结构化文本作为描述工具,如图7-10。语义网是能够根据语义进行判断的智能网络,实现人与电脑间的无障碍沟通。语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。Resource Description Framework(RDF)是W3C组织于2004年2月10日发布的一个推荐标准。它的功能是利用当前存在着的多种元数据标准来描述各种网络资源,形成人机可读的、可以由计算机自动处理的文件。RDF是采用XML语法格式处理元数据的应用,为描述图像、文档和它们之间的相互关系定义了一个简单数据模型。简而言之,RDF用于进行资源描述,但它并不直接用来描述资源,而是定义了描述资源的规则。RDF定义了元素之间的关系,表现为三元组集,即由资源、属性、属性值所组成的三元结构。资源是可以用URI标识的所有事物,属性是资源的一个特定的方面或特征,值可以是另一个资源,也可以是字符串。这种三元结构形似句子中的主语、谓语、宾语之间的关系,而且主语、谓语和宾语的三个组成元素都是通过URI进行标识的,因此它具有语义表述的特性。
这种面部特征语义描述方法,包括人脸检测与规格化模块、人脸特征点自动定位模块、头面部特征参数化描述模块。通过上述模块,实现了对人的头面部特征的提取,以一种快速直观的方式,将人脸与五官的特征浓缩为便于理解的若干基础类型,并使用语义网架构下的结构化文本对头面部特征进行描述。头面部特征包括脸型、五官形状、面部配饰、长短发、是否秃头、面部疤痕等。
上文所述的基础类型是通过对大型人脸数据库进行定量分析得出的。对大型人脸数据库中的人脸图片进行头面部特征分析后,对得出的结果进行总结,归纳得出最为基础而常见的若干类型。每一种面部器官以及脸型都有各自的基础类型,它们能够代表大多数人的头面部特征。
这些头面部特征描述及其基础类型可以用于加快大型数据库中人脸识别速度,为公安刑侦人员提供目标对象的头面部特征描述信息,还可以为大型人脸数据库提供一个标准的文字描述接口。在需要根据目击者文字描述进行目标人员搜索的时候,可以为目击者文字描述与人脸数据库提供描述方式转换和数据交换的渠道。
(1)系统的人脸检测与规格化模块:对输入系统的标准人脸图片(例如二代身份证图片、护照图片等)进行处理,得到标准正面人脸图片。处理过程包括干扰去除、人脸检测和图片规格化等。
(2)系统的人脸特征点自动定位模块:自动进行特征点位置搜索,将表示人脸及面部器官特征的特征点标定出来。这些特征点各有明确的物理意义,分布在脸庞及各面部器官的边缘位置,其集合能够直观明确地显示出面部器官的轮廓与形状。
(3)系统的头面部特征参数化描述模块:对人脸特征点的坐标位置进行定量分析,以形态面指数、颧下颌宽指数、眼指数、眉指数、鼻指数、唇指数等参数的计算为基础,对输入人脸的头面部特征进行分类描述。头面部特征的例子见图7-11。同时将面部疤痕、面部区别性佩饰(眼镜等)以及头发形状(长发、短发、秃头)等较为显著的信息加入,共同浓缩为直观易懂的语言,并使用语义网架构下的结构化文本对头面部特征进行标准化描述,从而保证描述准确、标准统一、可重复使用并可以由计算机自动处理。
具体实现步骤如下:
图7-11 人脸特征描述
(1)本系统主要面向公安警用的标准人脸图像数据库,例如二代身份证图片、护照图片等。当输入上述标准的人脸正面图片时,系统的人脸检测与规格化模块将进行以下操作:
①对图片使用LBP特征的AdaBoost算法进行人脸检测,如果检测得到人脸,则将检测结果中的人脸部分用方框标示出来,并分别保存为图片,否则输出提示无法检测到人脸。
②对步骤1中得出的人脸检测结果进行规格化处理,统一图片尺寸。
(2)本系统的人脸特征点自动定位模块进行以下操作:
①为防止图片中的人脸过于接近图片边缘从而对后续计算带来影响,对人脸图片进行扩展操作,在图片外侧四周添加颜色单一宽度为20像素的边缘。
②使用ASM对人脸图片进行模板匹配和搜索,自动将表示人脸及面部器官特征的特征点标定出来,如图7-12所示。这些特征点各有明确的物理意义,分布在脸庞及各面部器官的边缘位置,其集合能够直观明确地显示出面部器官的轮廓与形状。(www.xing528.com)
图7-12 ASM实现的面部部件特征描述
其中人脸特征点标定模型包括鼻根点、鼻尖点、左眼内角点、左眼外角点、左眼上方点、左眼下方点、右眼内角点、右眼外角点、右眼上方点、右眼下方点、左鼻翼点、右鼻翼点、上唇点、下唇点、左口角点、右口角点、颏下点、左颧点、右颧点、左下颌点、右下颌点、左眉内角点、左眉外角点、左眉上方内侧点、左眉下方内侧点、右眉内角点、右眉外角点、右眉上方内侧点、右眉下方内侧点。
(3)在得到上述人脸特征点之后,本系统的人脸参数化描述与形状识别模块进行以下操作:
对人脸特征点坐标位置进行定量分析,计算形态面指数、颧下颌宽指数、眼指数、眉指数、鼻指数、唇指数等参数。其中
表示脸型的大致形状。形态面高为鼻根点到颏下点间距,面宽为左右颧点间距。
表示脸型自颧骨以下的走势。下颌宽为左右下颌点间距。
表示眼睛形状。眼高为眼上下方点间距,眼宽为眼内外角点间距,此处分别计算左右眼的眼高和眼宽后取其平均值。
表示眉毛形状。眉高为眉上下方内侧点的间距,此处计算左右眉高后取其平均值。
表示鼻子形状。鼻宽为左右鼻翼点间距,鼻高为鼻根点到鼻尖点的间距。
表示嘴巴形状。唇高为上下唇点间距,口宽为左右口角点间距。
以上述参数为基础,对输入人脸的脸型和面部器官形状进行分类描述,浓缩为直观易懂的描述性语言对人的面部特征进行描述。根据各个参数值的具体范围,判断其所分布的区间,得到对应的描述性词语。
所输出的描述信息包括用于描述脸型的“方脸、长方脸、狭长脸”,用于描述脸型走势的“圆下巴、方下巴、尖下巴”,用于描述眼睛形状的“椭圆眼、三角眼、眯眼”,用于描述鼻型的“长鼻、短鼻”,用于描述眉毛形状的“宽眉、窄眉、宽窄眉”,用于描述嘴型的“宽唇、窄唇”,用于描述发型的“长发、短发、秃头”,用于描述面部区别性配饰的“佩戴眼镜、未佩戴眼镜”,用于描述面部疤痕的“有疤痕、无疤痕”。各种特征的示意举例见图7-11所示。
(4)为了保证描述形式的严格性和准确性,采用语义网架构下的结构化文本对上述头面部特征进行描述。标准化描述词集包括:(光头、长短发、脸型、疤痕、眼睛、眉毛、眼镜、鼻子、嘴唇)。下面以一个例子来说明语义网结构化描述实现,如图7-13所示。
图7-13 人脸语义描述层级图
“一个方脸、圆下巴、椭圆眼、长鼻、宽眉、厚唇、秃头、佩戴眼镜、面部有疤痕的人经过1号摄像头”,其对应的语义网结构化描述实现为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。