近十年来,计算机视觉技术飞速发展,出现了智能视频监控系统,逐步解决了传统视频监控系统中存在的典型问题。智能视频监控系统是在计算机视觉技术的基础上,利用模式识别和机器学习等人工智能方法,对采集到的视频进行实时处理或离线批量分析,来达到目标检测以及事件特性分析的目的。通过上述处理过程进行目标的物理特征和表观特征提取(比如,行人的高、矮、胖、瘦,性别,种族特征,步态,衣着等),更进一步来理解目标行为,对异常的行为进行事前预警和实时报警。智能视频监控系统将大大减少人员的投入,将人从传统的耗时耗力的视频查验工作中解脱出来,且能极大地提高监控效果。智能监控系统的应用前景十分广泛,逐渐成为计算机视觉研究领域的热点。智能视频监控极大地解放了人力,为整个社会监控节约了人力资源,特别是目前在中国正逐步跨入老年社会,经济结构正由劳动力密集型向技术密集型转型,智能监控技术的发展更显得尤为重要,具有鲜明的时代意义。以上技术进步释放的人力资源体现了视频监控技术的成本优势,这点反过来又会推动智能视频监控系统的普及,打造真正的智能城市和安全城市。
人工智能技术在近十年中取得了飞速的发展,但是,还无法满足实际应用复杂场景下的多层次多方位的个性化需求。究其原因,主要是在实际的应用中,场景环境差异很大,并且对实时性、准确性和稳定性的要求都很高。从这些需求看来,智能监控系统的研究是具有很大的现实意义和社会、经济价值的。
智能视频监控在技术实现上主要包括三个层次,从底层特征分析到语义描述逐级递进,高一层次在低一层次的基础上建立。第一层实现目标检测与跟踪,是对全画面的像素级的操作。该层在连续帧中将目标从背景中分离并标记。例如在视频中检测出所有的行人和车辆并跟踪。第二层对关注目标的特征提取,实现身份识别。比如人脸识别、车牌识别等,又如行人身高、年龄、性别、种族等特性分析;对机动车检索系统来说,车辆颜色、种类、品牌等特征的识别与检索也是在这一层实现的。第三层是根据前面两层的结构化信息来理解、预测关注目标的行为,并在知识图谱的架构内,实现视频目标、事件的智能解析,支撑视觉基因组数据的构建。在实际应用角度上,第一层和第二层的应用比较多,第三层的应用还处于初级阶段,实际应用中的例子比较少。例如,现在视频摘要技术的应用较为广泛,是指将同一背景下的不同目标进行拼接,把几个小时长的视频数据进行浓缩,最终成为包含检测目标的几分钟的视频。该应用所需的基础技术就是目标检测与跟踪。视频摘要技术目前也从被动式摘要技术发展到主动式摘要。简单地说,被动式摘要技术主要是过滤掉视频中的空白画面或者静止画面,保留运动画面;主动式摘要技术则可根据预定义的规则对视频内容进行浓缩,预定义的规则包括目标特征和事件等,如“黄色上衣的行人”“车辆闯红灯”。视频检索技术同视频摘要紧密相连,通过输入结构化的信息能从监控视频中将对应的视频片段查找出来,如搜索特定颜色种类的车辆等。从这种角度理解,也可以认为主动式视频摘要就是视频检索的一种应用,该应用的基础就是第二个层次。比较常见的智能视频分析应用方面,比如行人检测(越界、徘徊),车辆检测(犯规检测、车牌号)等,这些是在第二层的基础上的应用。在第二层提取物理特征要求图像清晰,若拍摄到的图片是模糊的,人脸检测及识别、车辆识别等算法的精度会大幅降低。
智能视频监控系统要求计算机系统能够感知场景中的物体和事件,识别出什么时刻什么物体在什么位置干什么。智能视频监控系统可以应用的领域很广泛,目前主要集中在治安事件监控、场所安防监控、交通智能监控、银行智能监控、工业智能监控等。智能视频监控系统在不同的应用领域中对监控结果要求也不同:有的为了及时发现异常行为发出警报,需要实时获得车辆或行人的运动轨迹,比如路边交通监控系统和银行监控系统;有的为了统计交通流量或识别障碍物和道路标志,需要检测识别场景中的行人、车辆甚至道路标志,比如路边车载交通监控系统和自动驾驶系统;另外,为了更好地监控场景,智能视频监控系统往往还需要获得场景的一些信息,比如场景深度信息、路面所处位置等。在设备方面,根据监控场景的摄像头数量,视频监控系统可以分为单目摄像头监控系统和多目摄像头监控系统;摄像头根据焦距视角的参数固定与否可分为固定焦距静止镜头和参数可调的主动镜头。
这两年国内摄像机终端厂家在成像技术、应用标准统一规范等方面有了长足的进展,主要体现在三个方面:(1)H.265编码标准及SVAC标准的推广应用。H.265编码标准将高清视频流传输的网络带宽压力极大缓解,同等的画面质量仅需要H.264编码标准带宽的一半;比如,200万像素高清网络相机的视频流,基本上2MB的带宽即可满足主码流传输要求。SVAC标准是《安全防范监控数字视音频编解码技术标准》(Surveillance Video and Audio Coding)的简称,从安防监控行业独特要求出发,支持感兴趣(Region Of Interest,ROI)区域可变质量编码和可伸缩视频编码,在带宽及存储有限的情况下提供更符合实际需要的高质量视频,着力解决视频监控图像互联共享及便捷维护问题。此外,28181协议(公安部组织通过的国标GB/T 28181—2011)的推出,也为解决城市视频监控报警联网系统的深度应用提供了应用规范,统一了信息传输、交换、控制等方面的基本要求和安全性要求。但是,GB/T 28181标准对网络系统的安全解决方案还不够完善,在QoS设计方面存在缺失,这些,都是在实际应用中需要进一步解决的问题。(2)微光条件乃至星光条件下成像质量大幅提升。海康、大华、天地伟业等主流安防摄像机终端厂家纷纷推出的星光摄像机,使得弱光场景下的视频监控内容的可分析性大大增强,将视频智能分析推向“全天候”;基于以上产品,在一些夜晚照明不足的城郊和乡镇地区,先后推出了“雪亮工程”,有效地解决了城市边远地区和乡镇夜晚监控失效的问题,有效遏制了夜晚违法犯罪活动的发生。由此可见,安防行业的每一次技术进步都能够快速促进产品升级换代,技术成果转化的效能最直接地反映在社会公共安全保障上,社会效益明显。(3)像素动态瞬时分配技术。以格林深瞳的人眼摄像机Foveacam为代表,号称有接近10亿像素的人眼辨识力的人眼摄像机正式走上台前。像素动态瞬时分配是该类相机的核心技术,能够瞬间把局部画面有效像素提升百倍,整体的画面甚至能够达到数亿的等效像素。格林深瞳称Foveacam能够瞬时分配有效像素达2亿,在范围50m之内进行人脸识别,在100m内能看清全身特征,视场角也达到了70°,抓拍覆盖面积很大。
夜视场景应用中,带有红外夜视功能的摄像机可以监控数十米到100m的监控范围。但是画面为灰度图像,缺乏监控目标的纹理细节,用于粗略的目标侦测和事件检测尚可,用于目标智能分析,则困难较大。星光摄像机和人眼摄像机的出现,为宽视野远距离场景和夜视场景下的视频监控系统智能分析提供了图像采集端的硬件保障。图1-1为普通摄像机夜景照片(左)与星光摄像机实际效果画面(右),图1-2为人眼摄像机及其实际应用效果。(www.xing528.com)
图1-1 普通摄像机夜景照片(左)与星光摄像机画面(右)
图1-2 人眼摄像机(左)与实际应用效果(右)
(图片来源:http://www.deepglint.com/fovea)
由于成本原因,很多实际应用的视频监控系统是采用单目静止摄像头来对场景进行监控。但是,在大场景监控应用中,基于多摄像机的全景交互监控和关注目标协同跟踪已经成为应用的热点,也是产业界新产品迭出的最新领域(比如公安部第三研究所推出的枪球联动产品,大华海康的最新枪球联动产品)。多摄像机协同监控系统是在单一摄像头监控基础上,通过多摄像机之间的协同和联动,实现视频监控系统功能的拓展和监控场景的扩大,是目前视频监控系统的主流应用方向,即多摄像机协同监控系统。多摄像机协同监控系统是以目标表示和定位、滤波和数据关联等理论为基础,还涉及多摄像机之间的标定、联动跟踪机制的设计,算法实现更加复杂。通过多视角信息对同一客观场景进行不同的表达,其间存在着必然的相关特性,在目标跟踪的环节中,要考虑各个视角的信息交互。不同摄像头信息之间的交互和融合使得算法的复杂度加大,但优点在于目标跟踪的适用性和鲁棒性得到了提高。多摄像头系统开阔了监控视野范围,可以较好地弥补由于遮挡而造成的跟踪失败;通过信息的连通交互来缩小搜寻目标的范围,极大地提高了实时性,并且通过信息融合减少了跟踪误差。多摄像机协同监控系统在复杂开放场景的应用还存在着多目标准确连续跟踪、任务分配机制优化、精准协同标定等诸多难点,不断激发着学术界的研究热情。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。