橙色云资讯 - 工业互联网行业信息门户

智能项链识别“无声”的英语、普通话命令

硬件君 2022-02-16

1107 字丨阅读本文需 2 分钟

智能项链识别“无声”的英语、普通话命令作者：康奈尔大学的 Tom Fleischman信息科学领域博士生张瑞东演示了SpeeChin无声语音识别设备。图片来源：Ryan Young/康奈尔大学语音识别技术让我们可以让 Siri 检查明天的天气，或者让 Alexa 播放我们最喜欢的歌曲。但这些技术需要可听的语音。如果一个人不会说话，或者在特定环境中发声说话不合适怎么办？

Cornell Ann S. Bowers 计算与信息科学学院信息科学助理教授 Cheng Zhang和博士生张瑞东给出了答案：SpeeChin，一种无声语音识别 (SSR) 设备，可以使用图像识别无声命令颈挂式红外 (IR) 相机捕捉到的颈部和面部皮肤变形。

该技术在 12 月 31 日发表在计算机协会关于交互式、移动、可穿戴和无处不在技术的会议论文集上的“SpeeChin：用于无声语音识别的智能项链”中有详细说明。

Ruidong Zhang 也在 10 月份的普适计算 (UbiComp 2022) 会议上发表了这篇论文。学分：康奈尔大学“有两个问题：第一，为什么是项链？第二，为什么是无声讲话？” 张说。“我们觉得项链是人们习惯的一种形式，与耳挂式设备不同，耳挂式设备可能不太舒服。至于无声语音，人们可能会想，‘我的耳机上已经有了语音识别设备电话。' 但是你需要为这些人发声，这可能并不总是适合社交，或者这个人可能无法发声。”

“这个设备有可能学习一个人的说话模式，即使是无声的说话，”他说。

“我们正在为这个领域引入一种全新的外形尺寸和新硬件，”张瑞东说，他于 2020 年在中国的家中建造了原始原型，同时远程完成了博士课程的第一年。

该设备在外观上与 NeckFace 相似，NeckFace 是 Cheng Zhang 和他的 SciFi Lab 团队成员去年推出的一项技术。NeckFace 通过使用红外摄像机从颈部下方捕捉下巴和面部的图像，持续跟踪完整的面部表情。

与 NeckFace 一样，SpeeChin 的红外摄像头安装在 3D 打印的项链盒上，项链盒挂在银链上，摄像头指向佩戴者的下巴。为了提高稳定性，开发人员在每一侧设计了一个机翼，并在底部放置了一枚硬币。Cheng Zhang 说，方便和隐私是项链式红外摄像头比传统摄像头更受欢迎的两个原因。“你面前的相机正在拍摄你身后的照片，”他说，“这引发了隐私问题。”

在他们最初的实验中，有 20 名参与者（10 名说英语，10 名普通话），进行了测量以确定下巴的基线位置，然后使用差分图像来训练设备识别简单的命令。

张瑞东让参与者用英语说出 54 条命令，包括数字、交互命令、语音助手命令、标点命令和导航命令。然后他用 44 个简单的普通话单词或短语做了同样的事情。

SpeeChin 识别英语和普通话命令的平均准确率分别为 90.5% 和 91.6%。为了进一步测试其极限，研究人员对 10 名参与者进行了另一项研究，所有参与者都默默地说出了一个特别设计的列表，该列表包含 72 个使用音素的单音节“非单词”——由 18 个辅音和四个元音组成。

最后，研究人员招募了 6 名参与者在走路时说出 10 个普通话和 10 个英语短语。这项研究的成功率较低，部分原因是参与者之间步行方式的差异（例如，更多与更少的头部运动）。

该项目说明了决心的力量：张瑞东在他家建立了一个实验室，配备了焊台，并在他的家乡招募了人作为研究参与者。

“但因为我住在一个小城市，很难找到会说英语的人，”他说，“我们最终来到杭州，在浙江大学招聘会说英语的人。这对我来说是一次难忘的经历。”

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：硬件君

0 0

参与评论

登录后参与讨论 0/1000

下一篇【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

比别人更快接收好文章！1． HDFS概述Hadoop...

2021-03-12

智能项链识别“无声”的英语、普通话命令

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

智能项链识别“无声”的英语、普通话命令

参与评论

为你推荐

科大讯飞，千亿目标的虚与实

站上全球经济舞台，翻译机市场的「飞轮」加速转动

2021年全球人工智能市场发展现状分析 计算机视觉和语音识别为技术层关键 【组图】

智能音箱行业正在爆发 语音成为重要入口

助力跨语言沟通迈入全新时代，AI翻译机可会迎来爆发性发展？

花160亿美金收购美国版科大讯飞，微软大手笔背后藏着什么阳谋？

以智能投影换AI语音，科大讯飞的“新故事”

媳妇熬成婆？喜马拉雅上市愁愁愁！文本转语音技术有建树！

AI「改造」鼠标，百度AI全面赋能罗技启示录

这是真的国货之光！讯飞系语音app有多强？

基于Julius的机器人语音识别系统构建

罗技跨界百度AI，软硬一体打造杀手级产品

刘庆峰： 抢占人工智能赛道

科大讯飞开放平台2.0战略正式发布，开启AI新征程

三麦克风专业录音笔只要499！科大讯飞听见H1评测：音频记录一键成稿

科大讯飞亮相CES2018 AI翻译产品和讯飞听见闪耀海外

科大讯飞刘庆峰：讯飞的目标是让机器人考上一本

自然语言处理哪家强？

智能语音大战：苹果Siri对决微软小冰

智能翻译集大成者，科大讯飞双屏翻译机助力外贸事业发展

翻译机让语言不再是“障碍”，科大讯飞用语言“征服”全球的背后离不开AI

物联网AI独角兽云知声完成科创板上市辅导

车载智能机器人app

AI抢了翻译的饭碗：语音识别已经进化到可以识别各种方言的地步

科大讯飞的成长密码

智慧医疗“声”来早

汽车AI智能语音101及其供应链

赛点前变道换挡，思必驰能搭上“极米们”的顺风车吗？

CES 2020：科大讯飞在美举办展示交流活动

机器人语言“天赋”崭露头角

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

2021年全球人工智能市场发展现状分析计算机视觉和语音识别为技术层关键【组图】

智能音箱行业正在爆发语音成为重要入口

刘庆峰：抢占人工智能赛道