智能手机/平板电脑的传统交互方式,如点按、触摸等,在小屏幕甚至无屏幕的可穿戴设备上并不适用或者体验较差。解放双手,语音、姿势(手势)、眼球等交互方式更加适合可穿戴产品,也是电子产品未来交互方式的变革方向。
(一)语音交互
语音交互是一种基于语音识别技术的智能交互方式。语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术三个方面。
语音识别主要有以下五个问题:
(1)对自然语言的识别和理解。首先,必须将连续的讲话分解为词、音素等单位;其次,要建立一个理解语义的规则。
(2)语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的。例如,一个说话人在随意说话和认真说话时的语音信息是不同的。
(3)语音的模糊性。说话人在讲话时,不同的词可能发音听起来是相似的。这在英语和汉语中都很常见。
(4)单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。
(5)环境噪声和干扰对语音识别有严重影响,致使识别率低。
近几年来,借助机器学习领域深度学习研究的发展,大数据语料的积累,以及云计算、高速移动网络的普及,语音识别技术得到突飞猛进的发展。
(1)将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM(Restricted Boltzmann Machine,受限玻尔兹曼机)预训练的多层神经网络,极大地提高了声学模型的准确率。在此方而,微软公司的研究人员率先取得了突破性进展。他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步。
(2)目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络。该解码网络可以把语音模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础。
(3)由于互联网的快速发展以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料。这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要的因素之一。但是,语料的标注和分析需要长期的积累和沉淀。随着大数据时代的来临,大规模语料资源的积累将提到战略高度。
(4)云计算及3G,4G无线网络的普及,将云端语音识别成为可能,依赖云端数据库及处理能力,可大幅提高语音识别能力,实时语音翻译成为可能。
近期,语音识别互联网公司纷纷投入人力、物力和财力展开此方向的研究和应用,目的是利用语音交互的新颖性和便利模式迅速占领客户群。由于视频通话、音频通话兴起,社交软件公司,如腾讯做语音识别领域将拥有一个天然优势,即方便采集和拥有海量的各种用户语音特征信息(语料资源)。
目前,国外的苹果Siri、微软Cortana,国内的科大讯飞、云知声、百度语音等语音识别应用已大规模应用到智能手机中,如图8-21所示。AppleWatch、三星Gear手表也已支持语音交互。未来,基于语音识别的语音交互将更加广泛地应用于可穿戴领域。
图8-21 语音交互软件
(二)姿势(手势)交互
姿势交互是利用计算机图形学等技术识别人的肢体语言,并转化为命令来操作设备。因为手势在日常生活中使用最为频繁,且便于识别,所以所有基于肢体语言的研究主要以手势识别为主,而对身体姿势和头部姿势语言的研究较少。
手势交互系统中主要有几个部分:人、手势输入设备、手势分析和被操作的设备或界面。
(1)人。手势交互系统面向大众,而不只是老年人和残疾人,普通用户也可以使用这些产品。(www.xing528.com)
(2)手势输入设备。比起鼠标和键盘操作,手势交互是更加方便的交互方式。早期需要穿戴手套,对于普通用户来说比较累赘;之后摄像头作为输入设备,用户并不需要与实体设备接触,而且可以分析手势的3D运动轨迹。
(3)手势分析。随着计算机图形学等科学的发展,识别率得到提升,可以实时捕捉手臂和手指的运动轨迹。技术推动了人机交互的发展。
(4)被操作的设备或界面。可以识别的手势更多,可以输入的命令更多,不再限定于特定平台执行某项特定的任务。
将手势交互技术与可穿戴产品相结合,可赋予可穿戴产品新的功能和应用场景。MYO腕带(手势控制臂环)就是这样的一款手势识别专用产品。它通过感应器捕捉用户的手臂肌肉运动时产生的生物电变化,从而判断佩戴者的意图,再将处理的结果通过蓝牙发送至受控设备。
手势交互率先在游戏领域得到应用,未来将逐步进入人工智能、培训教育和仿真技术领域。但其要想像传统交互形式一样进入大众化消费领域,还需要技术的改进、人们交互习惯的改变等。
(三)图像识别交互
图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,如图8-22所示。传统的图像识别,如光学字符识别(Optical Character Recognition,OCR),已有广泛应用。可穿戴产品,尤其是配备摄像头的智能眼镜或头戴式的虚拟现实设备,对基于图像识别的交互,如图片搜索,可用摄像头拍下照片,云端就会通过图像识别、人脸识别帮你快速找到你所要了解的信息并呈现在你面前。甚至,通过人脸识别技术,未来你的脸就是一个“凭证”,配上硬件的支持,就可以实现各种需要验证的功能。例如,在购物时直接“刷脸”支付,代替信用卡;在下班回家时取代实体钥匙,成为开门的凭据等。
图8-22 图像识别交互
图像识别技术尚未成熟,基于图像识别的交互也仅仅处在概念阶段:借助深度学习技术、大数据及云计算,未来将会有更多的交互应用基于图像识别。
(四)眼球交互
眼球交互技术,主要是依靠计算机视觉、红外检测或者无线传感等实现用眼睛控制计算机、手机等电子设备,以及用眼睛来画画、拍摄、移物等,如图8-23示所。
图8-23 眼球交互
从计算机视觉的角度看,眼球技术主要包括眼球识别与眼球跟踪。眼球识别是通过研究人眼虹膜和瞳孔的生物特征的采集与分析,常应用于重要场合的身份识别,如重要场所安检、机要部门门禁等。眼球跟踪主要是研究眼球运动信息的获取、建模和模拟,应用范围更为广泛,逐渐出现体验与娱乐方面的应用。三星GalaxyS4,S5基于眼球识别的智能暂停和智能滚动、谷歌眼镜的眨眼拍摄等,都是已有的商业案例。
当然,眼球技术也面临一系列的难题,影响其规模商用和用户体验。
(1)眼球信息获取方式具有一定局限性。虹膜识别设备的造价高、体积大、对采集现场要求比较高,如拍摄角度、响应时间、噪声干扰(可降低可靠性)等。用眼球控制平板电脑光标,需要保持平板电脑处于一定的摆放角度,否则容易造成光标失控,影响体验。
(2)眼球运动属于精细运动,获取难度大。眼球转动无论是力度还是幅度都不如手部及其他肢体动作那么明显,对眼球运动信息的获取和解释造成困难。
(3)眼球操作时间不宜过长。医生建议人们看计算机和手机的时间不宜过长,而眼球操作在原有用眼的基础上势必增加用眼疲劳,影响眼睛健康。
(4)眼球运动数学建模和动作模拟难度大。数学模型对眼球运动模拟的准确性与合理性存在较高难度,如何使得眼球操作如手操作一样方便需要业界的持续研究和改善。
(5)眼球技术应用范围窄,用户体验待提升。眼球识别和追踪由于难度高、技术未成熟,目前的应用领域相对较窄,特别是消费电子及可穿戴领域的成功案例还很少,且用户体验一般。
纵观这几类新的交互方式:语音交互具备在可穿戴产品领域规模推广的条件,也符合可穿戴设备需解放双手的使用场景;姿势(手势)识别,类似智能手机,也可以借助传感器在可穿戴产品中得以广泛应用,另外,专门用于捕捉人体姿势的可穿戴产品也将有较为广阔的市场前景。图像识别、眼球识别等由于技术、成本、体验等限制,实现规模化商用还需等待。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。