对语音进行“修剪”后再AI识别,减少消耗的同时还能提高精确度

1158 字丨阅读本文需 3 分钟

随着神经网络越来越大,它们变得更加强大,但也更加耗电,吞噬着电力、时间和计算机内存。研究人员已经探索了减轻负荷的方法,特别是在移动设备上部署,这种压缩方法被称为剪枝--删除最薄弱的环节。新的研究提出了一种修剪语音识别模型的新方法,使修剪过程更加有效,同时也使压缩后的模型更加准确。

研究人员解决了相对不常见的语言的语音识别问题。要想只用监督学习来学习语音识别,软件需要大量现有的音频-文本配对,而这对某些语言来说是很缺乏的。一种叫做自我监督学习的流行方法可以解决这个问题。在自我监督学习中,一个模型在没有任何标签的数据中找到模式--例如狗图像上的 "狗"。然后,人工智能可以在这些模式的基础上,在最小的数据上使用监督学习来学习更有针对性的任务,这个过程称为微调。

在语音识别应用中,一个模型可能会接收数小时的无标签音频记录,让短的部分沉默,然后学习填补空白。在某种程度上,它建立了数据的内部表征,可以向不同的方向发展。然后,在微调中,它可能学会只用几分钟的转录音频来转录一种特定的语言。对于每个声音片段,它都会猜测单词或词语,并根据其正确与否来更新其连接。

这项新工作的作者探索了几种修剪微调的语音识别模型的方法。一种方法被称为OMP(单次幅度修剪),其他研究人员曾为图像处理模型开发过这种方法。他们采用预先训练好的语音识别模型(一个已经完成自我监督学习步骤的模型),并在少量转录的音频上对其进行微调,然后他们对其进行修剪,然后他们再次进行微调。

该团队将OMP应用于几种语言,发现修剪后的模型在结构上与不同语言非常相似。这些结果令他们感到惊讶。这激励了我们的修剪算法。他们假设,鉴于修剪过的模型之间结构的相似性,预先训练过的模型可能不需要太多的微调。这很好,因为微调是一个计算密集的过程。Lai和他的合作者开发了一种新方法,称为PARP(修剪、调整和再修剪),只需要一轮微调。他们将在本月的NeurIPS(神经信息处理系统)人工智能会议上发表他们的论文。该小组的研究是麻省理工学院CSAIL和麻省理工学院-IBM沃森人工智能实验室在低资源语言学习方面持续合作的一部分。

Lai说,PARP从一个预先训练好的语音识别模型开始,然后修剪掉最薄弱的环节,但不是完全删除它们,而只是暂时将它们的强度设为零。然后,它使用标记的数据对模型进行微调,如果这些零点确实重要,就允许它们重新生长。最后,PARP再一次修剪模型。OMP对模型进行微调、修剪、再微调,而PARP对模型进行修剪、微调、再修剪。与微调两次相比,修剪两次在计算上是微不足道的。

在现实的修剪水平下,PARP的错误率与OMP相似,而使用的微调次数是OMP的一半。另一个有趣的发现,在一些设置中,PARP修剪了10%到60%的网络,它实际上比未修剪的模型提高了ASR的准确性,也许是由于消除了网络中的噪音,而OMP没有产生这样的提升。

PARP或类似的东西可以导致ASR模型,与目前的模型相比,速度更快,更准确,同时需要更少的内存和更少的训练。研究者呼吁对实际应用进行更多研究(一个研究方向是将剪枝应用于语音合成模型。他已经向明年的ICASSP会议提交了一篇关于该主题的论文)。第二个信息,鉴于一些令人惊讶的发现,是修剪可以成为我们深入了解这些语音模型的科学工具。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...