橙色云资讯 - 工业互联网行业信息门户

AI抢了翻译的饭碗：语音识别已经进化到可以识别各种方言的地步

AI小助手 2021-11-09

语音识别自然语言处理语言翻译

1443 字丨阅读本文需 4 分钟

随着 Siri 等虚拟助手的普及，自动语音识别技术变得越来越普遍，但许多系统只能在世界上大约 7,000 种语言中广泛使用。

由于这些系统在很大程度上存在不太常见的语言，因此从智能家居设备到辅助技术和翻译服务，大多数人无法依赖语音技术。

使机器学习模型能够学习世界上不常见的语言，这些语言缺乏训练算法所需的大量转录语音。然而，这些解决方案往往过于复杂和昂贵，无法广泛应用。

麻省理工学院和其他地方的研究人员，现在通过开发一种简单的技术来解决这个问题，该技术降低了高级语音学习模型的复杂性，使其能够更有效地运行并获得更高的性能。

该技术包括删除语音识别模型中不必要的部分，然后进行细微调整，以便识别特定语言。因为一旦将较大的模型缩小到一定的大小，只需要进行一些小的调整，教这个模型一种不常见的语言就会便宜得多，而且耗时也少得多。

这项工作有助于创造公平的竞争环境，并将自动语音识别系统带到世界上许多尚未部署的地区。这些系统在某些学术环境中很重要，它们可以帮助盲人或视力低下的学生，并且还被用于通过医疗转录提高医疗保健环境的效率，并通过法庭报告提高法律领域的效率。自动语音识别还可以帮助用户学习新语言并提高他们的发音技巧。这项技术甚至可以用来转录和记录有消失危险的稀有语言。

这是一个需要解决的重要问题，因为在自然语言处理和语音识别方面拥有惊人的技术，但是朝这个方向进行研究将有助于我们将该技术扩展到世界上更多未被开发的语言。

从音频中学习语音

研究人员研究了一个强大的神经网络，该网络已经过预训练，可以从原始音频中学习基本语音，称为 Wave2vec 2.0。

神经网络是一系列可以学习识别数据模式的算法；以人脑为模型，神经网络被排列成处理数据输入的互连节点层。

Wave2vec 2.0 是一种自监督学习模型，因此它在输入大量未标记的语音后学习识别口语。训练过程只需要几分钟的转录语音。这为缺乏大量转录语音的罕见语言的语音识别打开了大门，例如西非有 500 万人使用的 Wolof。

但是，神经网络有大约 3 亿个单独的连接，因此需要大量的计算能力来训练特定语言。

研究人员着手通过修剪来提高该网络的效率。就像园丁剪掉多余的树枝一样，神经网络修剪涉及删除特定任务不需要的连接，在这种情况下，学习语言。Lai 和他的合作者想看看修剪过程将如何影响该模型的语音识别性能。

在修剪完整的神经网络以创建一个较小的子网络后，他们用少量标记的西班牙语语音训练子网络，然后再次用法语语音训练，这个过程称为微调。

研究人员使用 10 种语言进行了实验，从意大利语和西班牙语等罗曼语语言到具有完全不同字母表的语言，如俄语和普通话。结果是一样的，微调的模型都有很大的重叠。

利用这一独特的发现，他们开发了一种简单的技术来提高神经网络的效率和性能，称为 PARP（修剪、调整和重新修剪）。

在第一步中，通过删除不必要的连接来修剪像 Wave2vec 2.0 这样的预训练语音识别神经网络。然后在第二步中，针对特定语言调整生成的子网络，然后再次修剪。在第二步中，如果已删除的连接对特定语言很重要，则允许它们重新增长。

因为在第二步允许连接重新增长，模型只需要微调一次，而不是多次迭代，这大大减少了所需的计算能力。

研究人员将 PARP 与其他常见的修剪技术进行了对比，发现它在语音识别方面的表现优于所有其他技术。当只有非常少量的转录语音可供训练时，它特别有效。

PARP 可以创建一个较小的子网络，可以同时针对 10 种语言进行微调，无需为每种语言修剪单独的子网络，这也可以减少训练这些模型所需的费用和时间。

展望未来，研究人员希望将 PARP 应用于文本到语音模型，并了解他们的技术如何提高其他深度学习网络的效率。

越来越需要将大型深度学习模型放在边缘设备上。拥有更高效的模型可以将这些模型压缩到更原始的系统中，例如手机。例如，语音技术对于手机来说非常重要，但拥有更小的模型并不一定意味着它的计算速度更快。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：AI小助手

0 0

参与评论

登录后参与讨论 0/1000

下一篇微软为翻译 App 带来方言语音选项，支持英语、西班牙语等

IT之家 8 月 19 日消息根据外媒 Neowin 消...

2021-08-19

AI抢了翻译的饭碗：语音识别已经进化到可以识别各种方言的地步

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

AI抢了翻译的饭碗：语音识别已经进化到可以识别各种方言的地步

参与评论

为你推荐

一种可以增强海底传输系统的硅光子电子神经网络

财报发布后，搜狗王小川谈了谈百度、人工智能和上市

科大讯飞，千亿目标的虚与实

图神经网络入门

这家公司的人工智能，对自然语言的理解超过谷歌、Facebook

使用Python和docTR提取车辆识别号

程序员必须知道的9大数据挖掘工具

站上全球经济舞台，翻译机市场的「飞轮」加速转动

2021年全球人工智能市场发展现状分析 计算机视觉和语音识别为技术层关键 【组图】

智能音箱行业正在爆发 语音成为重要入口

助力跨语言沟通迈入全新时代，AI翻译机可会迎来爆发性发展？

花160亿美金收购美国版科大讯飞，微软大手笔背后藏着什么阳谋？

以智能投影换AI语音，科大讯飞的“新故事”

媳妇熬成婆？喜马拉雅上市愁愁愁！文本转语音技术有建树！

AI「改造」鼠标，百度AI全面赋能罗技启示录

出门处处离不开刷脸，人脸识别到底安不安全？

这是真的国货之光！讯飞系语音app有多强？

《鱿鱼游戏》火热全球，翻译人才出现巨大缺口

多光子显微镜成像技术之十八 虚拟染色成像技术

基于Julius的机器人语音识别系统构建

罗技跨界百度AI，软硬一体打造杀手级产品

陈根：32种语言可翻译，人工智能追赶翻译需求

模型策略“组合拳”提升医学命名实体识别能力｜@攻城狮

刘庆峰： 抢占人工智能赛道

科大讯飞开放平台2.0战略正式发布，开启AI新征程

一款翻译笔，如何成为学生减负提效利器？

三麦克风专业录音笔只要499！科大讯飞听见H1评测：音频记录一键成稿

试管里诞生的“智慧混合物”：1万亿台只需一根1.5毫升试管，或将带来人类文明的飞跃

Gartner 最新魔力象限报告显示 IBM 为全球企业级 AI 技术领导者

机器翻译新突破，微软中英新闻翻译达人类水平

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

2021年全球人工智能市场发展现状分析计算机视觉和语音识别为技术层关键【组图】

智能音箱行业正在爆发语音成为重要入口

多光子显微镜成像技术之十八虚拟染色成像技术

刘庆峰：抢占人工智能赛道