陈根:Meta发布:支持128种语言的新语音模型

陈述根本 2021-11-24

meta

681 字丨阅读本文需 2 分钟

文|陈根

今年10月28日,Facebook正式宣布将母公司改名为Meta,而Facebook成为其母公司旗下众多产品之一。Meta一词源于科幻元宇宙Metaverse,反映出该公司搭建元宇宙的决心。

此前,为了提升元宇宙中的触感交互,Meta公司的研究团队开发了一款触觉手套,这种手套舒适、可定制,最重要的是能够在虚拟世界中再现一系列感觉,包括纹理、压力和振动等。

近日,Meta公司又有新动作。其发布了自监督语音处理模型XLS-R,该模型共支持128种语言,目的是助力元宇宙中的跨语种交流。

当今,有据可考的语言有7000余种。尽管现在的翻译系统越来越强大,但要用AI完全实现这些语言的互通并非易事。一般来说,语料库的丰富程度决定了语言翻译模型的质量,现有的语音翻译一般集中于大语种之间,小语种语料往往比较匮乏,因此使用这类母语的人往往较难通过AI获得较高的翻译质量。

但XLS-R通过自监督技术对10倍的语音数据进行训练,大大改善了以前的多语言模型,尤其是小语种的处理。因此母语不同的人,比如一位说英语,一位说汉语的人,两人可以靠XLS-R在元宇宙中进行无障碍对话。

XLS-R基于的是Facebook去年发布的wav2vec 2.0技术。该技术通过多层卷积神经网络对语音音频进行编码,以及对产生的潜伏语音表征进行跨度遮蔽,能够建立捕捉整个序列信息的表征。

这样训练出的模型,可以预测音频中被掩蔽部分的正确语音单元,同时也可以学习新的语音单元。在此基础上开发的XLS-R,不仅能够建立上下文表征,还可以捕获整个潜伏表征序列上建立的依赖关系。

XLS-R共有20亿参数,它在测试的37种语言中,表现优于大多数语种先前的工作。甚至在老挝语等小语种识别上,也能低于之前的错误率。此外,XLS-R也让低资源语言与英语之间的翻译大幅改进,例如从印度尼西亚语到英语的翻译,准确性平均翻了一番。

目前,XLS-R还只是一个预训练模型,为了能更好的应用于具体任务,还需要对其进行相关改进。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:陈述根本
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...