智能项链识别“无声”的英语、普通话命令

硬件君 2022-02-16

语音识别

1107 字丨阅读本文需 2 分钟

智能项链识别“无声”的英语、普通话命令作者:康奈尔大学 的 Tom Fleischman信息科学领域博士生张瑞东演示了SpeeChin无声语音识别设备。图片来源:Ryan Young/康奈尔大学语音识别技术让我们可以让 Siri 检查明天的天气,或者让 Alexa 播放我们最喜欢的歌曲。但这些技术需要可听的语音。如果一个人不会说话,或者在特定环境中发声说话不合适怎么办?

Cornell Ann S. Bowers 计算与信息科学学院信息科学助理教授 Cheng Zhang和博士生张瑞东给出了答案:SpeeChin,一种无声语音识别 (SSR) 设备,可以使用图像识别无声命令颈挂式红外 (IR) 相机捕捉到的颈部和面部皮肤变形。

该技术在 12 月 31 日发表在计算机协会关于交互式、移动、可穿戴和无处不在技术的会议论文集上的“SpeeChin:用于无声语音识别的智能项链”中有详细说明。

Ruidong Zhang 也在 10 月份的普适计算 (UbiComp 2022) 会议上发表了这篇论文。学分:康奈尔大学“有两个问题:第一,为什么是项链?第二,为什么是无声讲话?” 张说。“我们觉得项链是人们习惯的一种形式,与耳挂式设备不同,耳挂式设备可能不太舒服。至于无声语音,人们可能会想,‘我的耳机上已经有了语音识别设备电话。' 但是你需要为这些人发声,这可能并不总是适合社交,或者这个人可能无法发声。”

“这个设备有可能学习一个人的说话模式,即使是无声的说话,”他说。

“我们正在为这个领域引入一种全新的外形尺寸和新硬件,”张瑞东说,他于 2020 年在中国的家中建造了原始原型,同时远程完成了博士课程的第一年。

该设备在外观上与 NeckFace 相似,NeckFace 是 Cheng Zhang 和他的 SciFi Lab 团队成员去年推出的一项技术。NeckFace 通过使用红外摄像机从颈部下方捕捉下巴和面部的图像,持续跟踪完整的面部表情。

与 NeckFace 一样,SpeeChin 的红外摄像头安装在 3D 打印的项链盒上,项链盒挂在银链上,摄像头指向佩戴者的下巴。为了提高稳定性,开发人员在每一侧设计了一个机翼,并在底部放置了一枚硬币。Cheng Zhang 说,方便和隐私是项链式红外摄像头比传统摄像头更受欢迎的两个原因。“你面前的相机正在拍摄你身后的照片,”他说,“这引发了隐私问题。”

在他们最初的实验中,有 20 名参与者(10 名说英语,10 名普通话),进行了测量以确定下巴的基线位置,然后使用差分图像来训练设备识别简单的命令。

张瑞东让参与者用英语说出 54 条命令,包括数字、交互命令、语音助手命令、标点命令和导航命令。然后他用 44 个简单的普通话单词或短语做了同样的事情。

SpeeChin 识别英语和普通话命令的平均准确率分别为 90.5% 和 91.6%。为了进一步测试其极限,研究人员对 10 名参与者进行了另一项研究,所有参与者都默默地说出了一个特别设计的列表,该列表包含 72 个使用音素的单音节“非单词”——由 18 个辅音和四个元音组成。

最后,研究人员招募了 6 名参与者在走路时说出 10 个普通话和 10 个英语短语。这项研究的成功率较低,部分原因是参与者之间步行方式的差异(例如,更多与更少的头部运动)。

该项目说明了决心的力量:张瑞东在他家建立了一个实验室,配备了焊台,并在他的家乡招募了人作为研究参与者。

“但因为我住在一个小城市,很难找到会说英语的人,”他说,“我们最终来到杭州,在浙江大学招聘会说英语的人。这对我来说是一次难忘的经历。”

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:硬件君
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...