限于篇幅,以下仅围绕视觉、触觉/力觉、听觉以及多模态融合技术进行探讨。而关于视觉技术相关的建模、渲染、多通道融合交互、虚实融合和显示以及跟踪定位是虚拟现实、增强现实的主要研究内容。
1.视觉技术
1)复杂场景实时逼真渲染技术
高效的渲染和逼真的视觉呈现是一对矛盾关系。随着应用场景的复杂程度不断提高,为了保证虚拟现实对实时渲染的刚性需求,在计算资源一定的前提下,真实感通常作为被权衡的对象。但是,用户对细节真实感的需求越来越高。如何对现实中的材质表达得更加真实,对光线传递过程的模拟更加高效、更加符合物理规律,以及如何实现全局光照模型的并行绘制与降噪,成为渲染领域的重要研究热点。
(1)基于物理的材质建模
材质模型主要描述物体表面局部的光线反射属性,这是表达物体外观细节的重要元素,对材质的描述以及建模对真实感起着至关重要的作用。目前,学术界和产业界中最常用的材质模型是基于物理的微表面模型(图2-1),对微表面模型的研究聚焦于更加符合物理规律的法向分布函数、能量守恒的多次散射模型以及更加符合真实外观的材质模型。
图2-1 微表面理论假设物体表面由很多朝向各异的微小表面组成
法向分布函数和几何遮挡函数是微表面模型的两个基本构成部分。法向分布函数是决定材质外观的主要因素,可表示为Beckmann模型、GGX模型和幂函数指数模型等。几何遮挡函数模拟微表面间的遮挡关系,常用来计算遮挡项的物理模型有Smith模型和V形槽(V-Cavity)方法。微表面模型能够精细模拟光的波动性,计算光在多层材质中的反射、折射和散射作用,刻画亮片与划痕等表面细节。表2-1列举了各类微表面模型的技术流派及其优缺点。
表2-1 微表面模型的技术流派及其优缺点
续表
(2)全局光照模型与实时渲染。
全局光照除考虑光源直接光照外,还须考虑经过场景中其他物体反弹之后的光照和自身的发光。全局光照求解的核心在于绘制方程。绘制方程具有全局性、递归性等特点,并且不存在解析解。常见的全局光照算法有蒙特卡洛法、光子映射、辐照度算法、多光源方法及基于点的全局光照算法等。
蒙特卡洛法是目前研究领域和产业界最重要的绘制方法。蒙特卡洛光线跟踪是通过从摄像机发射大量光线来模拟现实场景中的光线传播的一种算法,包含路径跟踪、光线跟踪、双向路径跟踪和MLT(Metropolis Light Transport)等,这类算法内存消耗少,可以支持任意双向反射分布函数(BRDF),具有无偏性、参数简单等优点,但是往往需要很长时间才会收敛。蒙特卡洛法渲染的图像质量和采样率成正比。采样率低会造成噪声严重,而采样率高则会提高计算成本。如何在较低采样率下得到较高图像质量是一个重要的研究方向,主要包括重要性采样和降噪方法等。路径指导方法是通过一定方式来获取场景中的更多信息,根据这些信息来指导重要性采样,从而减少噪声的一种方法。最近的研究通过引入各类学习方法,在路径空间或主采样空间中进行学习,从而指导重要性采样。另外,可利用梯度方法对低采样获得的含噪声图像的像素进行梯度重构,以获得无噪结果。
全局光照模拟光线在场景中传播的过程,对真实感渲染具有至关重要的作用。但是,为了满足实时渲染的需求,传统的虚拟现实渲染技术采用局部光照模型的光栅化框架完成。与全局光照方法相比,通常其渲染的质量较低。
2018年,英伟达推出全球首款“支持实时光线追踪技术”的显卡RTX,实现了基于混合渲染管线的实时光线追踪技术,能够实现复杂场景、以大于60FPS帧率实现4K分辨率的电影级图像的实时生成。Unity、Unreal Engine等纷纷支持RTX光线追踪技术,实时光线追踪技术有望在未来5~10年内实现全面的应用。图2-2为利用路径追踪方法渲染的场景。
图2-2 利用路径追踪方法渲染的场景
2)实时、自然的人机交互技术
近年来,人机交互领域的研究聚焦于交互的自然性、精确性、智能化、协同交互和多感官通道一致性等方向。
交互的自然性要求用户的交互行为与其生理和认知的习惯相吻合。凭借各类传感装置采集人体数据(如声音、肢体、手势、眼球、肌电、脑信号等),并进一步对数据信号进行处理,通常包括分割、特征提取和分类,在此基础上识别用户的交互意图,并转换为最终的交互指令。
手势识别是将模型参数空间里的轨迹(或点)分类到该空间里某个子集的过程,其包括静态手势识别和动态手势识别,动态手势识别最终可转化为静态手势识别。从手势识别的技术实现来看,常见的手势识别方法主要有模板匹配法、神经网络法和隐马尔可夫模型法。
姿势识别可以归结为一种时变数据的分类问题,所以研究身体姿势识别的实质就是研究如何从样本中学习获取一组典型的身体姿势的参考序列。对身体姿势进行识别,常用的算法有三类:一是基于模板匹配的身体姿势识别方法;二是基于状态空间的身体姿势识别方法;三是基于语义描述的身体姿势识别方法。
基于眼动跟踪的人机交互研究,首先需要对眼动行为进行特征分析与参数化,常用的参数包括注视点数目、注视点持续时间、眼跳长度及其派生的其他各种度量参数。在此基础上利用各种参数实现基于数据驱动的行为分析和交互控制。近年来,人工智能被引入眼动跟踪领域,以提高眼动计算的精度和效率。相关的研究包括:基于群智感知的眼动计算与分析、基于大数据学习的眼动跟踪、眼动数据与脑电数据融合的智能交互等。
交互包含了输入和输出两个方面。在输入端,多模态交互模式(以语音、手势、触摸和凝视等不同形式的输入组合)向用户提供与计算设备进行交互的多种选择方式,成为人机交互研究的一个活跃领域。在输出端,视觉、听觉、触力觉、温感等多感官通道的一致性体验也在蓬勃发展中。
交互的自然性、实时性、识别准确率与鲁棒性是影响正确交互和良好体验的几大重要因素。如何精准分析用户意图并与场景智能理解结合、虚实内容视觉一致性交互,以及多人/异地协作增强现实场景中对共享真实场景和虚拟内容进行增强等方面,有待进一步研究。此外,自然性、准确率与鲁棒性往往与实时性要求存在矛盾关系,如何提高计算单元的运算性能,并且能够保持一定的移动性和较低的价格是行业面临的一个重要问题。
3)视觉一致性驱动的高逼真虚实融合技术
面向增强现实的内容生成主要涉及视觉一致性驱动的高逼真度虚实融合,包括场景渲染参数估计、虚拟物体嵌入、凝视点渲染等。
高逼真度虚实内容融合直接影响增强现实的应用效果。其中,光学效果一致性是指虚拟对象的阴影、高光等光学效果应与环境保持一致,通过预先计算真实场景的光照模型,然后再计算出光照对虚拟对象的影响,如明暗、阴影、反射等。可以从图像或视频中估计场景的光照信息、相机成像质量等渲染参数,结合场景几何信息,实现高逼真度的虚拟物体嵌入。
自然场景的准确光照估计是高逼真度渲染的基础。光照估计的方法可以分为四种:基于标志物阴影分析法、基于标志物表面图像估计光照法、借助辅助拍摄设备的方法、无须辅助物的图像分析方法。表2-2列举了这四种方法的优缺点、渲染方式和实时性。
表2-2 AR光照估计方法比较
渲染参数的估计主要依赖于场景的光照信息、物体材质信息和场景几何信息。其中物体材质信息已知,场景几何信息的恢复基于本项目中场景内几何与材质的同步精确重建的方法来完成。可以采用多种光源复合的光照模型,在已知物体材质和几何的情况下完成精确的光照参数估计。通过大量合成或真实数据对神经网络进行训练,以得到从输入图片或视频到其光照参数估计的映射。
4)近眼显示技术
近眼显示器是一种位于人眼附近、由光学系统放大形成大视场的微显示器,广泛应用于VR/AR等穿戴式近眼显示场景。
近眼显示系统的成像模组由镜头、传感器、数字化CV算法和LCD/LED显示器四部分组成。成像模组根据AR光学技术出现的时期可划分为离轴光学、棱镜光学、自由曲面棱镜、光波导和光场技术等五代,表2-3为各代光学呈像技术在原理、厚度、视场角和优缺点等方面的对比。
表2-3 五代光学成像技术对比
当前,对各类近眼显示技术的研究方兴未艾,高角分辨率、广视场角、可变焦显示成为核心发展方向。高性能LCD与OLED技术保持虚拟现实近眼显示主导地位,可变焦显示与光波导有望在五年左右成为主流。但是,光波导技术中各类技术路线间存在明显的优势和短板。多种光场显示技术方案停留在实验室阶段,其技术路径和配套设备存在大量研发瓶颈,中近期均无法量产普及。基于全息光学的三维显示系统紧凑、没有串扰和深度反转、不存在机械运动部分。将全息与近眼显示相结合,只对眼睛的视场里显示相应的信息,可以提高光学重建和减少计算的负担,提高信息的利用率。但是当前VR/AR解决方案大多处于原型设计阶段,尚需攻克两大难题,即全息图快速生成和显示系统的空间带宽积扩展。
5)面向增强现实的复杂场景的精确、快速定位与重建
图2-3为增强现实技术路线。增强现实的场景建模技术是重要组成部分,主要涉及复杂场景定位、重建与建模,包括同时定位与地图构建、场景几何与材质精确重建与数字化、实时高质量动态环境重建等。(www.xing528.com)
图2-3 增强现实技术路线
(1)SLAM技术。
SLAM技术是场景重建的一个重要基础,通过SLAM技术,同时实现相机的位姿计算和场景信息重建。视觉SLAM因为无须预先布置场景、适用范围广和硬件成本低廉等优点受到广泛关注。目前,视觉SLAM技术已经有了较为成熟的框架,由前端(视觉里程计)、后端(位姿优化)、闭环检测和建图四个环节组成。已有研究提出了许多支持不同传感器的技术方案,可以实现稀疏重建的PTAM、ORB-SLAM,半稠密重建的LSD-SLAM、SVO,稠密重建的RGBD-SLAM等,如表2-4所示。其中,前端处理可分为需要提取特征的方法和不需要计算特征的直接法,后端方法又分为基于滤波与基于图优化的方法。图2-4为基于特征法和直接法的前端处理框架。
表2-4 典型的视觉SLAM技术方案
图2-4 基于特征法和基于直接法的前端处理框架
尽管上述视觉SLAM方法在多个领域得到了良好的应用,但仍然受到光照条件、高动态环境、快速运动、剧烈旋转和低纹理环境等因素的影响,导致精度和稳定性不能满足要求。另外,对于非常大尺度的场景,如城市级场景,SLAM的计算复杂度会非常高,难以保证实时性。
针对大规模场景,尤其是室外复杂场景的实时、精确建模,仍将是今后的研究重点。如何平衡实时性和准确性是一个重要的开放性问题。动态、非结构化、复杂、不确定和大规模环境的解决方案有待探索。研究基于多光照条件影像数据的场景表达和视觉定位技术,利用深度学习的超强表征能力将视觉信息和多传感信息融合,实现复杂环境下的鲁棒全局重定位。通过融合单/多目相机、深度相机和惯性传感器(Inertial Measurement Unit,IMU)等多种传感器以及云—端结合的高精度同时定位与地图构建技术,并结合特征点、边和平面等多元视觉信息,实现大尺度室内相机鲁棒实时跟踪和场景建模;引入深度学习技术对复杂场景进行理解和分析,对复杂场景进行多属性抽取与层级表达。
(2)材质重建。
除了场景的几何结构重建,物体的材质信息是提高场景真实感的重要组成部分。场景几何与材质信息的同步数字化可以提升重建后三维内容的真实感,同时也可以将场景数字化结果作用于增强现实应用的处理步骤简化。
目前,实现材质信息恢复的方法主要包括两类:一是使用专用的采集设备,直接捕捉目标表面的双向反射分布函数和物体表面的双向纹理函数(BTF);二是使用光学摄像设备进行几何—材质同步重建。
直接捕捉法需要专用的设备和环境,采集操作所需时间长,捕获到的数据维度很高。采集数据的稀疏表示和降维处理能够提高处理效率,但是会丢失细节材质特征。近年来,深度神经网络被引入材质捕获领域,取得了系列成果,包括训练稀疏主动光照模式,对表面材质特性进行高效捕捉;用于估计表面反射特性的基于深度风格迁移和纹理合成的方法;利用深度神经网络对材质属性的各组分类型分别进行建模,实现实时的材质属性估计和分解。几何—材质同步重建法可以用低成本的光学摄像设备实现材质重建,但是要求待采集物体的几何形状已知。近年来的研究趋势同样是引入各类学习算法,实现物体几何形状、表面反射率和场景光照的同步估计、材质风格迁移等。
对材质信息重建的研究尚存诸多问题,未来的研究方向及发展趋势包括:利用海量无标注自然材质图像,结合少量合成及人工标注数据,实现基于深度神经网络可微分渲染器的材质估计,探索自监督神经网络训练方法,解决复杂多变材质高还原度重建问题;研究形状、材质与环境光照的解耦方法,探索基于几何变换的领域迁移,解决任意几何形状表面的材质数字化问题;研究场景材质在线学习与更新方法,探索高效交替优化和轻量级神经网络推理方案,解决三维场景几何形状与材质属性实时协同精确重建问题。
2.触觉/力觉技术
在虚拟现实中,触觉/力觉技术主要体现在力触觉交互方面。图2-5显示的是力触觉交互系统的基本结构。其中接触力的产生方式包含依据力触觉模型计算和采集交互过程中的真实接触力两种。后者依据的是力触觉传感技术,是力触觉交互中的输入环节。而触觉/力觉显示技术(力触觉再现)是输出环节,其关键在于呈现力触觉的物理装置。
图2-5 力触觉交互系统的基本结构
1)触觉/力觉传感技术
触觉/力觉传感技术解决的是力触觉交互的输入问题。在表现形式上,VR力触觉传感器分为虚拟传感器和实体传感器两类。后者又可以分为点接触型触觉传感器、面接触型触觉传感器和滑觉传感器。
实体力触觉传感器实时响应交互过程中接触力的变化,采集接触力参数,并传送给计算单元进行处理。常用的接触力采集方法包括机械式、压阻式、压电式、电容式、电磁式、光纤式和生物信号式,其中,电容、压阻、压电和光电式简单经济,被广泛应用。光电式触觉传感器也可以用于间接测量接触状态。
全局检测、多维力检测,以及微型化、智能化和网络化是当前触觉传感器的发展趋势。全局触感的触觉传感器通常覆盖面积大,向柔顺型、可穿戴方向发展,以适应任意表面形状的表面特性检测和触觉测量。通过内置微处理器,触觉传感器能完成即时数据采集、处理和传输任务,促进未来朝自诊断、自校准和自测试等智能化方向发展。此外,多模感知也是触觉传感器的一个发展方向。
在性能指标方面,触觉传感器尚无统一标准。在工业应用中,触觉传感器应具有强度较好、重复性好、噪声低、迟滞小、鲁棒性好、不易受环境影响而损坏等特征。
2)触觉/力觉显示技术
触觉/力觉显示技术解决的是力触觉交互的输出问题,主要借助物理装置的方式将虚拟接触力呈现给用户。接触力的产生方式包括两种,一是利用传感器采集真实接触力,如遥操作应用;二是利用力触觉模型计算虚拟接触力。
虚拟对象的力触觉建模是力触觉再现技术中最为重要的环节,它本质上是一种基于物理约束的物体受力与变形模型。目前,力触觉建模研究中较多的是针对简单情况,对于物体受力触觉作用时的实时真实变形计算还存在诸多困难。此外,力触觉只有具有1000Hz以上的刷新率,才能满足光滑的力触觉感知需求。
力触觉再现装置从功能上可分为两大类:力反馈(Force Feedback)和触觉再现(Tactile Display)。触觉的感知,包含材料的质感、纹理感以及温度感等,目前能模拟的仅是一般的接触感即力感。力觉感知设备要求能反馈力的大小和方向,与触觉反馈装置相比,目前力觉反馈装置技术更加成熟。
力反馈装置主要包括力反馈数据手套、手控器、操纵杆等,表2-5对各类力反馈装置的优缺点进行了比较。手控器不仅可以跟从操作者的手臂运动,将人手的测量结果作为运动指令输入,而且可对其输出特定的力反馈。典型的产品包括Force Dimension公司的Omega和Delta系列,Geomagic公司的Touch系列,Novint公司的Falcon系列等。
表2-5 力反馈装置的分类及其优缺点
3.听觉技术
听觉信息是人类仅次于视觉信息的第二传感通道,是增强VR沉浸感和交互性的重要途径。VR中的听觉技术主要涉及语音交互技术和三维虚拟声场重建技术等。
语音识别技术是语音交互技术的核心,它本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。除了提高语音识别精度和反馈速度,智能情绪识别属于目前的另一个主要研究方向。
三维声场重建,也称三维音频、虚拟声、双耳音频、空间声等,它根据人耳对声音信号的感知特点,使用信号处理方法对到达两耳的声信号进行模拟,以重建复杂的三维虚拟空间声场。
三维声场重建主要依据头相关传输函数(HRTF)。HRTF相当于一个频域滤波器,它模拟了声源发出的声音通过介质传播到人耳、被人耳感知的过程。HRTF是一个关于声音频率和声音空间方位的函数,综合描述了人耳的耳廓、头部、躯干等人体形态学结构及物理声学环境对声音传播的影响。因此,HRTF因人而异,是具有明显个性化特征的物理量。为解决个性化的HRTF测量问题,已有的研究提出直接测量法和利用光学成像进行理论计算的方法。
除了考虑听者对声场的扰动特性,虚拟声学场景还考虑声源空间方位(方向和距离)信息和周围房间环境信息。三维声场重建需要对方向信息、距离信息和声场环境信息进行逼真的模拟。当前,模拟室内声场环境最有效且最直接的方法是测量室内的房间脉冲响应(RIR)和双耳房间脉冲响应(BRIR)。完整的RIR主要包含直达声、早期反射和后期混响,主要模拟算法可以分为三大类:基于物理特性的建模、基于感知特性的建模和两者混合的建模方法。基于物理特性混响模拟不利于实时系统运用,而基于感知特性混响模拟提高了计算速度,但不能很好地反映待模拟环境声学特性。因此,实际中常采用结合物理特性和感知特性的混合混响模拟方法,综合利用两者的优点。
4.多模态融合技术
多模态交互包括视觉、听觉、嗅觉、触觉以及味觉等方面的感官交互。在输入端,多模态交互模式以语音、手势、触摸和凝视等不同形式的输入组合,向用户提供与计算设备进行交互的多种选择方式,成为人机交互研究的一个活跃领域。在输出端,视觉、听觉、力触觉、温感等多感官通道的一致性体验也在蓬勃发展中。多模态交互通常指的是输入端交互,而多感官通道交互处理的是输出端。
多模态交互的主要目标有两个:一是向用户提供与计算机进行交互的多种选择方式,以提高交互性和用户体验;二是准确判断用户的交互意图,消除交互歧义。多模态交互发挥了各个模态独特的优势,提升了交互的自然性和交互效率。在部分通道存在干扰时,利用模态之间的互补,可提高交互的精确性。
但是,多模态交互也带来了一些问题,包括计算复杂度提高、不同模态的一致性融合、多模态交互信息的互补和冗余等。与单通道相比,多模态交互可能大幅度增加了计算量,影响了计算的实时性,这个问题通常可以利用并行计算与优化资源调度相结合的方法来解决。然而,相同的交互行为在不同模态上下文中可能有不同的含义,这使系统难以给出准确的反馈。因此,不同模态之间交互信息的融合和交互模态之间的管理,是多模态交互的核心问题。
在面向VR应用的研究和实践中,当前多模态融合交互的关注点包括:在计算资源有限的情况下,如何实现多模态的交互感知数据的融合,以提升感知模块的精度;如何对任务进行合理的分配,并在不影响精度的情况下对交互感知任务进行计算优化,保证交互的实时性。引入深度学习算法解决多模态交互数据融合问题,研究基于深度学习模型的数据融合算法的计算优化框架。针对具体应用场景,研究不同的交互组合方式,如语音+手势、语音+眼球跟踪、手势+眼球跟踪、手势+生物特征测量等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。