声纹成为“声音身份证”!口音识别难倒AI,语音识别技术如何赋能人机交互?

智能未来 2023-09-15
3922 字丨阅读本文需 10 分钟

在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。

随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,让机器听懂人的语言已从梦想变成了现实。我们知道当声音通过媒介传到人的耳朵里,大脑会对语音进行处理并形成自己的理解,然后用语言或者行动应答。那么计算机是如何听懂人类语言的?这就要靠人机交互的重要技术——语音识别技术。

语音识别技术基础概念概览

语音识别技术就是让机器把语音信号转变为相应的文本或命令。人与人之间的语言沟通会因为双方背景、文化程度、经验范围的不同,造成信息沟通不畅,让机器准确识别语音并理解则更加复杂。机器识别语音需要应对不同的声音、不同的语速、不同的内容以及不同的环境。语音信号具有多变性、动态性、瞬时性和连续性等特点,这些原因都是语音识别发展的制约条件。

20世纪50年代,AT&T贝尔实验室研发的Audry系统是世界上第一个可以识别10个英文数字的语音识别系统。20世纪80年代末,语音识别研究取得了重大突破,解决了大词汇量、连续语音和非特定人这三大障碍,首次把这三个特性都集成在一个系统中,比较有代表性的是卡耐基梅隆大学研发的Sphinx系统。20世纪90年代前期,各大公司都斥巨资进行语音识别系统的实用化研究。

目前的语音识别技术主要包括特征参数提取技术、模式匹配及模型训练技术。特征提取技术是将语音信号中有用的特征参数信息从所有信息中提取出来的技术。通过分析处理,删除冗余信息,留下关键信息。模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。

语音识别技术发展至今,在识别精度上已经达到了相当高的水平。尤其是中小词汇量对非特定人语音识别系统识别精度已经大于98%,而对特定人语音识别精度更高。现如今的语音识别准确度已经能够满足人们日常应用的需求,很多手机、智能音箱、电脑都已经带有语音识别功能,十分便利。

按照目前语音识别技术的发展势头,未来是否可以实现人类和机器人之间无障碍交谈,就像在科技电影中看到的情景一样呢?尽管语音识别研究机构花了几十年的时间去研究如何实现语音识别准确率的“人类对等”,但目前在某些方面还无法达到高水平,比如在嘈杂环境下较远的麦克风的语音识别、方言识别或较少人使用的语言的语音识别等情况。

语音识别技术的发展为人们的工作和生活都提供了便利,很多繁琐步骤依靠一条语音指令即可完成。现如今智能家居处于发展初期,但依靠语音识别技术已经能够完整搭建一套智能家居系统。未来,语音识别技术会在各个方面展现出更多可能性。

语音识别技术的发展历史

语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning, DP)和线性预测分析(Linear Predict, LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。

70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding, LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠定了重要的基础。

80年代,连续语音识别成为语音识别的研究重点之一。Meyers和Rabiner研究出多级动态规划语音识别算法(Level Building,LB)这一连续语音识别算法。80年代另一个重要的发展是概率统计方法成为语音识别研究方法的主流,其显著特征是HMM模型在语音识别中的成功应用。1988年,美国卡内基-梅隆大学(CMU)用VQ/HMM方法实现了997词的非特定人连续语音识别系统SPHINX。在这一时期,人工神经网络在语音识别中也得到成功应用。

进入90年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验走向实用,许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统实用化的开发研究投以巨资。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。

当前,美国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用,而日本则在大词汇表连续语音神经网络识别、模拟人工智能进行语音后处理方面处于主导地位。

我国在七十年代末就开始了语音技术的研究,但在很长一段时间内,都处于缓慢发展的阶段。直到八十年代后期,国内许多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进。但由于起步晚、基础薄弱,计算机水平不发达,导致在整个八十年代,我国在语音识别研究方面并没有形成自己的特色,更没有取得显著的成果和开发出大型性能优良的实验系统。

但进入九十年代后,我国语音识别研究的步伐就逐渐紧追国际先进水平了,在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家863计划的支持下,我国在中文语音技术的基础研究方面也取得了一系列成果。

在语音合成技术方面,中国科大讯飞公司已具有国际上最领先的核心技术;中科院声学所也在长期积累的基础上,研究开发出颇具特色的产品:在语音识别技术方面,中科院自动化所具有相当的技术优势:社科院语言所在汉语言学及实验语言科学方面同样具有深厚的积累。但是,这些成果并没有得到很好的应用,没有转化成产业;相反,中文语音技术在技术、人才、市场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。

全世界的AI,都栽在了“口音”上?

口音、方言等问题,困扰着几乎全世界所有的智能语音助手。2018年,《华盛顿邮报》曾与Globalme、Pulse Labs两家语言研究公司合作,研究智能音箱的口音识别问题,结果显示,谷歌智能音箱Google Home更容易“听懂”美国西岸口音,对南部口音的识别准确率则要低3%;而亚马逊Echo搭载的语音助手Alexa,识别东岸口音的准确率要比中西部口音高2%。

更大的问题还在于对非本土口音的识别。研究显示,对于非英语母语者,比如以西班牙语或汉语作为第一语言的人所说的英文,不论是Google Home还是Amazon Echo,其识别准确率都要比美国本土口音低30%,而拉丁裔和华裔是美国的两大移民族群。这项研究结果引起了人们对智能语音助手“地域歧视”问题的广泛关注。实际上,不只是Google Home和Amazon Echo,市场上主流的智能语音设备,在应对方言、口音等非标准语言场景时,表现都差强人意。

在中国市场,这个问题同样凸显。所谓“十里不同音,百里不同俗”。作为一个幅员辽阔的多民族国家,我国56个民族使用的语言分属五大语系,共有80种以上语言。其中,汉语的使用人数最多,分为标准语(普通话)和方言。

根据教育部2019年发布的《中国语言文字概况》,汉语方言通常分为十大方言,各方言区内,又分布着若干次方言和许多种土语。部分方言之间差异很大,无法通话。为了消除语言隔阂,国家在全社会大力推广普通话。然而,来自天南海北的人们,又赋予普通话五花八门的口音。

带有鲜明地域特色的口音,虽然对于人们的日常交流无伤大雅,有时还带来些“塑料普通话”的乐趣,但你的智能语音助手就乐不起来了,甚至在它听来,你说的极有可能是另一门语言……与此同时,用户也很恼火:“难道普通话不过一级乙等,我就不配拥有智能音箱?!”

从理论上来说,只要有足够的数据供机器进行训练,那么让AI识别任何一种语言或口音,都不是问题。要得到一个出色的语音识别模型,需要有大量标注数据的训练,简单来说:首先,要进行语音内容的采集;其次,需要人工对这些语音进行标注,将语音内容转写成文本,让算法能够识别它;之后,算法再将识别后的文本内容与对应的音频进行逻辑关联。经过这样大量、反复的学习训练之后,机器就能实现语音识别了。“这个过程往往成本高昂、流程繁琐,还存在诸多门槛。”曹静文表示。

声纹有望变成我们的 “声音身份证”

随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各个步骤,以此来促进在不同环境下语音识别的效率和准确率。研究人员从最简单的非常小词汇量的阅读式的语音识别问题开始,逐渐转向越来越复杂的问题。

近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。

语音识别经历了从 2012 年最开始的 DNN 的引入时的 Hybrid HMM 结构, 再到 2015 年开始吸引大家研究兴趣的 CTC 算法,而后到 2018 年的 Attention 相关结构的研究热点。Attention 相关算法在语音识别或者说话人识别研究的文章中出现频率极高。从最开始Attention,到 Listen-Attend-Spell,再到Self-Attention (或者 Transformer),在不同的文章被作者多次介绍和分析,频繁出现在了相关 文章的 Introduction 环节中。在 Attention 结构下,依然还有很多内容需要研究者 们进一步地探索:例如在一些情况下Hybrid 结构依然能够得到State-of-the-art的 结果,以及语音数据库规模和 Attention 模型性能之间的关系。

在近两年的研究中,端到端语音识别仍然是 ASR(Automatic Speech Recognition)研究的一大热点,正如上文提到的,基于 Attention 机制的识别系统已经成为了语音技术研究主流。同时,随着端到端语音识别框架日益完善,研究者们对端到端模型的训练和设计更加的关注。远场语音识别(far-field ASR), 模型结构(ASR network architecture),模型训练(model training for ASR),跨语种或者多语种语音识别(cross-lingual and multi-lingual ASR)以及一些端到端语音识别(end-to-end ASR)成为研究热点。

在语音合成方面,高音质语音生成算法及 Voice conversion 是近两年研究者 关注的两大热点,Voice Conversion 方向的研究重点主要集中在基于 GAN 的方法上。在语言模型方面(Language Model)的研究热点主要包括 NLP 模型的迁 移,低频单词的表示,以及深层 Transformer 等。

在说话人识别方面,说话人信息,特别是说话人识别及切分,正被越来越多的研究者所重视。目前 Attention 在说话人方面更类似一种 Time Pooling,比 Average Pooling 及 Stats Pooling 更能捕捉对说话人信息更重要的信息,从而带来性能提升。说话人识别技术经历深度学习带来的性能飞跃后,在模型结构、损失函数等方面的探讨已经较为成熟,以 TDNN、ResNet 加上 LMCL、ArcFace 的主流模型开始不断刷新各数据集的性能上限。相信随着此类研究的不断深入,结合声纹系统的性能提升,声纹将有望变成我们的 “声音身份证”。

文章来源: 传感器技术,渭南科普,混沌科技栈,i黑马

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:智能未来
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...