智能语音应用规模化落地,探秘其发展驱动力和破局之道

AI新讯 2023-02-15
3890 字丨阅读本文需 9 分钟

智能语音作为智能时代人机交互的关键接口,各行业爆发式的场景需求驱动行业发展进入黄金期,技术突破和应用落地不断深入。从全球范围来看,2022年全球智能语音产业规模将达351.2亿美元,保持33.1%的高速增长;从我国来看,根据德勤统计数据,2022年我国智能语音市场将达341亿元,同比增长13.4%。

智能语音交互方案,最早落地于人工智能技术,随着人工智能产业持续高涨,在现有的医疗、汽车、智能家居、教育等领域,已无处不在语音芯片的声影,使得语音芯片规模产业持续增长。

中国智能语音转写市场的快速发展,其驱动力主要在成本和应用场景泛化两大方面。然而智能语音赛道参与者不断入局,使得竞争愈发激烈。

2011年,Siri首次应用到iPhone4s上。通过语音识别等技术,一句“hey Siri”,让用户可以和手机设备进行天气、短信、地图查找等功能的简单交互。如今,智能语音技术已经在互联网、企业服务、政务、教育、传媒、医疗健康等行业持续创造产业经济价值。

作为人工智能中最成熟的核心技术之一,智能语音转写技术通过持续商业化落地和应用场景开发,已经成为人工智能语音产业落地的“先锋军”。通过观察智能语音转写技术和行业的发展现状和趋势,能够看到智能语音技术更多的应用可能。那么,中国智能语音转写市场快速发展的驱动力是什么?现有行业入局者又该如何在头部企业的力压下,寻找属于自己的生存空间?

应用规模化落地

多年来,微软持续探索 AI 语音合成与识别技术,Azure Neural TTS(text-to-speech,语音合成)与 STT(speech-to-text,语音识别)支持的语言区域达到 140 余个,并支持超过 400 多个音色。

近两年,微软在汉语方言智能语音上加大了研究力度。微软宣布,在语音合成上实现了对吴方言和粤方言两种汉语方言,以及西南官话、东北官话、冀鲁官话、中原官话(包括河南、陕西地区)等多种官话次方言的支持;在语音识别上支持吴方言、粤方言和西南官话。

微软表示,汉语是世界上最古老的语言之一,受历史与地理条件的影响,出现了众多代表地域文化特色的方言。自 2017 年起,微软一直致力于 AI for Good 计划的推进,其中包括:通过提供前沿的技术、资源和专业知识,保护人文遗产以及创造更具可持续性和便利性的世界。微软也将持续投入于方言智能语音的研究,助力中国传统文化的保护与传承。

在方言之外,古典诗歌也是文化传承的重要载体。微软通过学习大量诗歌朗诵者的语音数据,可以让 AI 更好地表达诗歌的韵律、停顿、情感。微软智能语音现已支持传统诗歌、现代诗歌、五言、七言律等智能语音的朗诵。

有报告指出,受疫情和产业数字化、智能化转型影响,智能语音应用场景迅速铺开。据德勤统计数据,预计到2030年,智能语音消费级和企业级应用市场将分别超过700亿和千亿规模。

在消费者产品领域,AI学习机、翻译笔等AI+学习产品帮助学生学习减负增效;智能录音笔、智能办公本、智能鼠标等AI+办公产品深受职场人士欢迎;AI翻译机、智能麦克风、智能语音键盘、智能耳机、智能助听器等AI+生活产品,让更多人享受AI科技的便利。

在汽车领域,智能语音已成人机交互关键环节,并从车内交互衍生车外交互,从单模交互走向多模交互,从被动交互发展为主动交互,为车企提供全栈技术赋能。以科大讯飞为代表的国内AI龙头已占据中国语音交互车端应用行业的领先地位。

在运营商领域,智能语音技术与健康养老、家庭教育、家庭娱乐等场景结合,带来更加智慧的家庭生活体验。融合5G与机器翻译技术的无障碍智能通信,让普通的5G手机用户,不用下载任何软件,就可以使用实时翻译和转写服务,实现跨语种的无障碍视频通话。

在教育领域,科大讯飞全球中文学习平台已覆盖全球183个国家,吸引300多万海外中文学习爱好者使用;利用智能语音和人工智能技术可实现英语听说教、学、考、评、管一站式服务,减少无效训练。

在医疗领域,去年疫情期间,科大讯飞电话机器人助力全国31个省份112个地市疫情排查,累计服务超1.1亿人次;智能外呼和智医助理可用于独居老人、留守儿童的日常关爱和兜底保障。

在城市领域,智能语音技术已在安徽省一体化网上政务服务平台、聊城城市大脑、三亚市崖州湾科技城智慧产城园区、天津市AI银发智能服务平台等创新示范项目中应用。姚建铨院士指出,智能语音与建设智慧城市的要求完全吻合,可以实现各种语音高效转换和智能处理,为智慧城市进一步建设带来新的机遇。

在工业领域,我国打造了包括国家智能语音创新中心在内的一批语音技术创新“国家队”, 开展工业声学、多语种、AI语音芯片等关键共性技术研究工作。科大讯飞联合国家智能语音创新中心打造的工业听诊器、声学成像仪、工业设备卫士、智能巡检机器人等“工业六感”产品,已广泛应用到生产、质检、巡检等多个工业环节。

在金融领域,声纹识别技术已经被应用在各类身份认证环节。得意音通董事长郑方表示,声纹是目前除DNA外最可靠的身份认证方式,相比传统方法具有明显优势。此外,科大讯飞智能客服机器人、智能联络中心AICC等AI+金融应用,帮助金融机构提升客服和运营效率。

两大发展驱动力

随着人工智能技术的快速发展,以及市场上迅猛增长的实时与非实时语音转写需求,中国的智能语音转写市场正在快速扩大。据艾瑞研究院统计测算,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写技术的持续突破、应用场景泛化、质量和效率持续提升,智能转写市场还将加速发展。预计2026年中国智能语音转写行业市场规模将达到38亿元,2021~2026年的复合年均增长率为30.7%。

中国智能语音转写市场的快速发展,其驱动力主要在成本和应用场景泛化两大方面。

转移人工转写成本。智能语音转写技术,已经让“出口成章”成为现实。在智能语音技术落地之前,过去的会议记录需求主要依赖人工尤其是专业速录师,人工转写成本较高。而智能语音转写技术兼具价格、质量和效率三大优势,无论是实时语音转写与非实时语音转写,如今国内多家厂商都能够提供长音频的语音转文字服务,且准确度和效率得到了大幅提升。在这样的技术背景下,智能语音转写服务已经不再是辅助优化人工转写的次要选择,而是成为缓解人工价格压力普遍选择。

转写场景泛化拉动丰富用户需求。智能语音转写技术拉低转写成本,不但能够满足更多有具体转写需求的小众市场,同时价格优势还能催生新的市场需求。市场上智能语音转写应用场景的泛化,也在反向丰富智能语音转写的产品形态。不仅如此,在语音识别这个大赛道里,已经走过了最艰难的算法研发阶段,目前正处于如何满足市场上细分需求并不断提升用户体验阶段,而智能语音转写行业也处于这一赛道变化中。

这里,将会从用户接受度较为成熟的在线会议、自媒体、政务会展等领域举例分析。

根据中国互联网络发展统计报告数据,截至2022年6月中国在线办公用户规模已跃升至4.7亿。近几年办公形式的变化,让更多用户逐渐养成在线协同办公习惯,许多企业已经将远程协同办公作为企业常态运营的工具。例如腾讯会议可以通过APP录制音视频,并且提供后续的转写服务。而讯飞听见能够满足日常办公会议、授课演讲、媒体采访等多种工作场景下的转写需求。

在媒体平台中,尤其是抖音和哔哩哔哩这两个以自媒体视频创造者见长的两大平台,是语音转写的一大市场。数量庞大的长短视频发布者是这两大平台拥有持续内容产出、高用户活跃度的关键,而视频发布者对视频内容的字幕转写有着很高的硬需求。一方面是国内视频附加字幕已经成为媒体行业内心照不宣的共识,另一方面则源于用户静音观看对内容的需求,以及平台方对于内容管理的审核需 求。

无论是政务会议,还是会展活动,都具备字幕上屏、多语种同传等的现场会议服务需求。落实到具体的技术水平上,讯飞听见已经代替了全国人大用了几十年的常委会会议系统。在2022年的全国两会期间,有34个地方代表团全面使用了讯飞听见。讯飞听见对将近3000个全国人大代表的两会发言进行实时转写,平均准确率达到96%,远超人工速记员。

破局与展望

市场需求加大、转写场景泛化不断拉高行业景气度,然而智能语音赛道参与者不断入局,使得竞争愈发激烈。现阶段,我国智能语音转写产品市场较为集中,讯飞听见和搜狗听写的头部效应明显。其他品牌则存在核心产品功能高度相似、产品应用场景雷同的问题,这种品牌产品差异性不足的现状不断加剧同质化,叠加智能语音赛道愈发明显的马太效应,除了头部企业之外,大部分创业企业难以盈利。

如何在同质化的赛道中,形成自己的差异化优势,已经成为行业中各企业必须思考的问题。

以科大讯飞、搜狗为代表的头部企业利用先发和技术优势,不断拓展自身产业链,构建完整生态结构。但是也有许多创业企业扎根细分行业,找到了属于自己的细分赛道。比如主要服务于字节系产品的火山引擎,其智能字幕生成服务可用于辅助视频字幕创作和外挂字幕生成,主要匹配字节系产品内容生产者的视频处理需求。还有专注语音识别转写的灵云语音,主要面向各行业C端用户,满足多场景个人转写需求的录音转文字助手等。

除此之外,位于智能语音转写第二梯队的百度智能云、阿里云、腾讯云等互联网巨头,依托品牌自有用户生态,积极向C端用户进行运营推广。整体来说,尽管市场的参与者众多,但是除了头部企业积极开展前瞻布局外,其他服务商正在现有市场中的各细分领域进行差异化竞争,努力分得属于自己的一杯羹。

除了从竞争现状中寻得差异化落脚点,入局者还需要思考语音识别技术更大的潜力空间。语音识别技术突破创新方向是什么?还有哪些产品生态是尚未开发的?

从技术来看,如何在现实复杂场景中保障语音识别的质量和效率,正在成为新的突破点。在“混合语种”“嘈杂环境”下的“多人”“交互”等因素交织的复杂语音场景下,科大讯飞已经走在前列。在国际上两年一次的高噪音复杂场景比赛中,科大讯飞通过语音识别和嘴型识别的多种模式识别,在很多领域高噪音环境下做到实用,位列全球第一。而在工业领域,科大讯飞2022年获得了DCASE全球工业声纹挑战赛冠军,机器可以听懂各种设备的运转是否正常,听懂各种产品是否噪音超标或有瑕疵。行业入局者可以基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。

从产品来看,目前智能转写技术主要是实现语音到文字的转写内容。结合艾瑞咨询发布的《2022年中国智能语音转写行业研究报告》中对于场景价值的描述,未来转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,在沉淀文字内容基础上,自主生成优化策略,以更高阶、智能地辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务。

文章来源: 经理人杂志,唯创知音,IT之家,科大讯飞

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:AI新讯
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...