AI抢了翻译的饭碗:语音识别已经进化到可以识别各种方言的地步

1443 字丨阅读本文需 4 分钟

随着 Siri 等虚拟助手的普及,自动语音识别技术变得越来越普遍,但许多系统只能在世界上大约 7,000 种语言中广泛使用。

由于这些系统在很大程度上存在不太常见的语言,因此从智能家居设备到辅助技术和翻译服务,大多数人无法依赖语音技术。

使机器学习模型能够学习世界上不常见的语言,这些语言缺乏训练算法所需的大量转录语音。然而,这些解决方案往往过于复杂和昂贵,无法广泛应用。

麻省理工学院和其他地方的研究人员,现在通过开发一种简单的技术来解决这个问题,该技术降低了高级语音学习模型的复杂性,使其能够更有效地运行并获得更高的性能。

该技术包括删除语音识别模型中不必要的部分,然后进行细微调整,以便识别特定语言。因为一旦将较大的模型缩小到一定的大小,只需要进行一些小的调整,教这个模型一种不常见的语言就会便宜得多,而且耗时也少得多。

这项工作有助于创造公平的竞争环境,并将自动语音识别系统带到世界上许多尚未部署的地区。这些系统在某些学术环境中很重要,它们可以帮助盲人或视力低下的学生,并且还被用于通过医疗转录提高医疗保健环境的效率,并通过法庭报告提高法律领域的效率。自动语音识别还可以帮助用户学习新语言并提高他们的发音技巧。这项技术甚至可以用来转录和记录有消失危险的稀有语言。

这是一个需要解决的重要问题,因为在自然语言处理和语音识别方面拥有惊人的技术,但是朝这个方向进行研究将有助于我们将该技术扩展到世界上更多未被开发的语言。

从音频中学习语音

研究人员研究了一个强大的神经网络,该网络已经过预训练,可以从原始音频中学习基本语音,称为 Wave2vec 2.0。

神经网络是一系列可以学习识别数据模式的算法;以人脑为模型,神经网络被排列成处理数据输入的互连节点层。

Wave2vec 2.0 是一种自监督学习模型,因此它在输入大量未标记的语音后学习识别口语。训练过程只需要几分钟的转录语音。这为缺乏大量转录语音的罕见语言的语音识别打开了大门,例如西非有 500 万人使用的 Wolof。

但是,神经网络有大约 3 亿个单独的连接,因此需要大量的计算能力来训练特定语言。

研究人员着手通过修剪来提高该网络的效率。就像园丁剪掉多余的树枝一样,神经网络修剪涉及删除特定任务不需要的连接,在这种情况下,学习语言。Lai 和他的合作者想看看修剪过程将如何影响该模型的语音识别性能。

在修剪完整的神经网络以创建一个较小的子网络后,他们用少量标记的西班牙语语音训练子网络,然后再次用法语语音训练,这个过程称为微调。

研究人员使用 10 种语言进行了实验,从意大利语和西班牙语等罗曼语语言到具有完全不同字母表的语言,如俄语和普通话。结果是一样的,微调的模型都有很大的重叠。

利用这一独特的发现,他们开发了一种简单的技术来提高神经网络的效率和性能,称为 PARP(修剪、调整和重新修剪)。

在第一步中,通过删除不必要的连接来修剪像 Wave2vec 2.0 这样的预训练语音识别神经网络。然后在第二步中,针对特定语言调整生成的子网络,然后再次修剪。在第二步中,如果已删除的连接对特定语言很重要,则允许它们重新增长。

因为在第二步允许连接重新增长,模型只需要微调一次,而不是多次迭代,这大大减少了所需的计算能力。

研究人员将 PARP 与其他常见的修剪技术进行了对比,发现它在语音识别方面的表现优于所有其他技术。当只有非常少量的转录语音可供训练时,它特别有效。

PARP 可以创建一个较小的子网络,可以同时针对 10 种语言进行微调,无需为每种语言修剪单独的子网络,这也可以减少训练这些模型所需的费用和时间。

展望未来,研究人员希望将 PARP 应用于文本到语音模型,并了解他们的技术如何提高其他深度学习网络的效率。

越来越需要将大型深度学习模型放在边缘设备上。拥有更高效的模型可以将这些模型压缩到更原始的系统中,例如手机。例如,语音技术对于手机来说非常重要,但拥有更小的模型并不一定意味着它的计算速度更快。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:AI小助手
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...