苹果正式启用这一功能,手势交互为智能设备锦上添花,哪些技术可以实现?

传感麦克风 2023-10-26
3687 字丨阅读本文需 9 分钟

苹果昨晚正式推送了 watchOS10.1,为两款新 Apple Watch 带来了双指互点两下(Double Tap)——指尖轻点就可以隔空操控屏幕:切歌、接电话、回复微信。

重视 Apple Watch 的手势交互,因为每个人都在经历「情境性残疾」

「双指互点两下」的雏形可以追溯到 2015 年,彼时 Apple Watch 发布还不满一年。

在一份名为《Motion and gesture input from a wearable device》的专利文件中,苹果试图探索通过肌腱感知和骨骼运动作为输入命令的可能。

6 年后,这些交互上的探索率先催生了 watchOS 8 的辅助触控(AssistiveTouch),用户可以通过捏紧、捏紧两下、握拳、握拳两次四种手势隔空操控手表。

作为无障碍功能的一部分,手势操控在当时要解决的问题是:如果用户只有一只手,他该如何操控 Apple Watch?

从所有人角度出发是苹果设计原则之一,他们认为不应以人群多寡做差异对待,残障人士应该拥有同等使用产品的权利。

但在官方交互设计的文档中,苹果对「残障」的定义却不太寻常:每个人都可能经历残疾。除了大多数人随着年龄增长所经历的残疾外,还有一些暂时性的残疾——比如由于感染导致的短期听力丧失——以及一些特定情境下的残疾——比如在嘈杂的火车上无法听清——这些都可能在不同的时间影响到每个人。

手机可以单手操控,但 Apple Watch 从设计之初就固定于用户手腕之上,当你触摸屏幕时,实际上两只手都占用了。

某种意义上,每个 Apple Watch 用户都只有一只手,他们都经历过「情境性残疾」。

要解决这个问题,只有语音和手势操控两条路可选。基于物理动作的手势操控显然更为自然,它不依赖于界面的按钮和控件,尤为适合 Apple Watch 这种屏幕逼仄的设备。

实际上,初代 Apple Watch 就支持的「抬腕唤醒」,就奠定了手势交互的基本范式。

苹果研究过多种手部动作,其中不乏一些复杂的手势操作。

「双指互点两下」最终从多种手势方案中脱颖而出,源自于它满足两个标准:简单直观、目的性明确。前者要求没有学习门槛,目的性明确要求这个动作必须能代表用户的意图,不是误触的结果。

相同的理由,「双指互点两下」只能在亮屏状态下才能激活。Eric 解释说,如果用户无法看到屏幕,就可能不知道做出了什么回应。

心率传感器的小 bug,意外催生了「双指互点两下」

「双指互点两下」看似简单,只需将两个手指并拢,但其背后的运作原理却颇为复杂。

「双指互点两下」基于一个由机器学习构建的算法,其数据来自于三个传感器:加速度传感器、陀螺仪和光学心率传感器。传感器会来检测手和手指轻点两下时的微小运动和血流变化的特征,从而准确获取用户的真实输入意图。

光学心率传感器是不可或缺的一环,尽管它并非为手势操控而生,但在多年的研究中团队发现,用户日常的手腕动作会改变手腕与心率传感器的接触,即使是最细微的缝隙,都会对心率传感器获取数据产生影响。

彼之砒霜,吾之蜜糖。这一意外的发现,让团队揭示了手势操作与心率传感器的关联。如果没有这些缝隙,「双指互点两下」的手势可能就无从实现。

正如 David 所说:相同的传感器,相同的数据,我们能够实现截然不同的目的。

与辅助功能的手势操控运行在 CPU 上不同,「双指互点两下」调用了 S9 芯片的四核神经网络引擎,这使得算法检测提高了 15% 的准确性。

这就可以解释:为什么旧款 Apple Watch 不支持「双指互点两下」,而辅助触控的手势在可靠性上也逊色许多。

团队在开发过程中遇到了诸多挑战。比如,在面对不同体格、肢体长度甚至手势的细微差异时,如何确保每个用户都能获得一致的体验?如何克服蓝牙无线信号和 LTE 带来的干扰?

David 提到,团队从公司内部收集了大量数据,来训练机器学习模型,模型会把不必要的杂讯从中取出,确保在各种场景中检测手势的可靠性,特别是在非静止的场景中,都能准确地监测到手势。

从手势识别说起

在计算机科学中,手势识别是通过数学算法来识别人类手势的一个议题,即用户可以通过手势来控制或与设备交互,让计算机理解人类的行为。

手势识别的关键技术包含,手势分割、手势分析,以及静态和动态的手势识别。无论是静态还是动态的手势,其识别顺序首先需要对所获图像的手的检测和手势分割;再通过手势分析,获得手势的形状特征或者是运动轨迹;最后根据手势分析中的重要特征,完成静态或动态的手势识别。

手势识别的研究和发展影响着人机交互的自然性和灵活性。当前,业内大多数研究者将注意力集中在手势的最终识别方面,通常会将手势背景简化,在单一背景下利用算法对手势进行分割及分析。

但在现实应用中,人的手通常处于复杂的环境下,需要考虑如:光线过亮或过暗,手势距采集设备距离不同等复杂因素,从而做到精准的手势识别。

阿里云视频云的“智能手势交互引擎”, 如何使“隔空手势”更具智能性和交互力?

高性能的智能手势交互引擎

由于复杂的手指手掌结构和在运动时的高度灵活性,手势关键点跟踪十分具有挑战性。阿里云视频云团队研发的智能手势交互引擎,通过对21个手部关键点的精准识别和跟踪,支持25种基础静态手势的识别。

基于这25种基础手势,结合手掌姿态的信息和场景,可以延伸出百余种手势。例如伸大拇指的手势,我们可以根据大拇指和大拇指的方向精准识别出:点赞(拇指向上)、差评(拇指向下)、向左(拇指向左)、向右(拇指向右)等等。

除了静态手势之外,类似上下左右滑动、左右翻页、缩小放大、拜拜等多种动态手势也能被精准识别和跟踪,从而实现上述视频中“隔空”实现视频剪辑的效果。

值得一提的是,阿里云视频云的“智能手势交互引擎”的算法不仅能保证“高精度”和“高稳定性”, 更是做到了“超轻量” 。

“高精度”是指能够准确的识别各种各样的手部姿态及定位手部关键点的位置,即使在暗光、背光等挑战性场景也有很好的表现;

“高稳定性”,是通过算法的深度打磨,能够对手部关键点检测输出稳定的关键点位置, 做到手势交互操作的超低延迟。

“超轻量”体现在普通设备单线程运行中, 平均每帧耗时仅有6.5毫秒,处理性能可以达到150fps以上,模型大小仅为2.6MB,兼容所有主流平台,非常适合在普通的移动端手机的部署和应用。

南拳北腿,隔空手势背后的技术流派

前面说过,实现交互的大前提是感知与智能。已知的主流手势交互有两大技术流派:

雷达派:

该流派的技术主要通过微型毫米雷达波监测手部动作,达到手势识别的目的。

这里就不能不说谷歌在 2015 年公布的 Project Soli,一项通过运用微型雷达监测空中手势动作的传感技术。通过特殊设计的雷达传感器追踪毫米精确度的高速运动,然后将雷达信号进行处理之后,识别成一系列通用的交互手势。

经过持续不断地研发,Soli 雷达实现毫米级大小,所以能够十分方便地塞进手机与可穿戴设备之中。

Project Soli 最著名的落地案例之一就是 2019 年谷歌发布的 Pixel 4 手机,其借助 Soli 雷达实现了名为 Motion Sense(运动感应)的技术。用户无需接触屏幕,就能通过隔空手势实现一系列操控动作,比如切换音乐、静音手机、调节闹钟声音大小等等。Pixel 4 的面部解锁也依靠毫米波,甚至对光线没有任何要求,黑暗中也能完成解锁。

视觉派:

该流派通过计算机视觉来识别手部特征点,应用相较前者更加广泛。

尽管 Soli 雷达为代表的技术流派有着方向性强,抗环境干扰能力强等优点,但这不妨碍车企与供应商们对通过计算机视觉实现手势操控的路径青睐有加。

也许很多人还记得微软 XBOX 系列游戏主机上的 Kinect 体感外设。微软 Kinect 采用的深度感应技术能够自动捕获人体的深度图像,并实时地跟踪人体骨架,检测到细微的动作变化。

手势识别技术由简入深大致可以分为三个等级:二维手型识别、二维手势识别、三维手势识别。如果我们只需要满足「播放/暂停」这类最基础的控制,二维层面的手型/手势+单个摄像头捕捉的组合就足以满足需求。像智能电视上播放着流媒体视频的客厅场景,当我们要短暂离开又不想错过内容时,只要做个简单的手势就能让电视暂停播放。

但车内的空间感不像沙发与客厅这么简单,所以包含更加有深度信息的三维手势识别是必要的,相应摄像头硬件的复杂程度也会增加。

支持微软 Kinect 实现隔空交互的深度感应技术,前后两代可以分别拆解出手势交互的两种主流技术路径:结构光(Structure Light) 和光飞时间(Time of Flight),再加上多角成像(Multi-Camera),就构成了手势交互的三个主要视觉技术流派。

结构光(Structure Light)

代表应用:XBOX 360 上的初代 Kinect by 供应商 PrimeSense

原理:激光投射器发出的激光通过特定光栅进行投射成像时会发生偏折,使得激光在物体表面上的落点产生位移。使用摄像头来检测采集投射到物体表面上的图样,通过图样的位移变化,用算法计算出物体的位置和深度信息,进而复原出整个三维空间,根据已知图案进行手势的识别和判断。

以 XBOX 360 上的第一代 Kinect 而言,只有在距离 1~4 米的特定范围内才能实现最佳识别效果。这是因为该技术依赖于激光折射后产生的落点位移,所以太近太远都不行,在应对物体反光干扰方面也不是很出色,但胜在技术相对成熟且功耗相对低。

光飞时间(Time of Flight)

代表应用:Intel 感知计算技术 by 供应商 SoftKinetic(已被 Sony 收购)、XBOX ONE 上的 Kinect 二代

原理:原理如名称所示,也是三条技术路径中最简单的一条。由发光元件向被测目标连续发送光信号,然后在特别的 CMOS 传感器端接收从被测目标返回的光信号,通过计算发射/接收光信号的往返飞行时间,得出被测目标的距离。与结构光不同的是,设备发射出去的不是散斑,而是面光源,所以理论工作距离范围较前者更远一些。

TOF 对理解上再简化一些的话,TOF 类似于我们所熟知的蝙蝠的感知原理,只不过发射的不是超声波,而是光信号。TOF 的抗干扰性和识别距离相对更高,同时也被视为最有发展前景的手势识别技术之一。

附带一提,借助近期理想 L9 的 剧透 传播活动,3D TOF 技术又小火了一把。

多角成像(Multi-Camera)

代表应用:凌感科技 Usens 的 Fingo 手势交互模组、Leap Motion 公司的同名体感控制器

原理:使用两个(或以上)摄像头对当前环境进行拍摄,得到两幅(或以上)针对同一环境的不同视角照片,根据几何原理来计算深度信息。因为复数摄像头的各项参数以及彼此之间的相对位置是已知的,只要找出相同物体在不同画面中的位置,就能通过算法计算出被测物体的识别效果。

理解上简化一些的话,双目摄像头就类似人类的双眼,多目摄像头就像昆虫的复眼,通过算法来形成多角三维成像。

多角成像在三者中属于比较极端的一个。一方面,多角成像对硬件的要求是最低的,另一方面因为完全依赖于计算机视觉算法,计算畸变数据对算法要求又非常高。相比于结构光与 TOF 技术,多角成像的实际功耗要低得多,强光环境下抗干扰性优秀,算是一种物美价廉的手势识别技术路径。

文章来源: 爱范儿,GeekCar极客汽车,Cloudinsight

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:传感麦克风
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...