科大讯飞用 AI 让声音实现永生,中国AI在无人区里探路

人工智源库 2023-02-22
2472 字丨阅读本文需 6 分钟

2月19日,科大讯飞官方微信视频号中发布了一条关于节气《雨水》的视频。深沉厚重的男低音,自带质感,让这段视频的level至少上了一个等级。你肯定猜到了,这段配音由SMART-TTS系统合成,其语气的变化、语句的停顿、声音的细腻程度都和真人所差无几。

近日,教育部教育技术与资源发展中心(中央电化教育馆)与科大讯飞股份有限公司签署《全国师生信息素养提升实践活动合作协议》。此次合作签约为双方2020年战略合作框架协议等基础上的深化合作内容。

公开资料显示,近年来,科大讯飞在教育领域通过人工智能核心技术加教育教学场景深度融合应用,为学生、教师以及各级教育管理者提供精准便捷的服务,实现教与学过程中的数据积累,帮助师生减负增效,促进教育进步。目前,讯飞智慧教育产品已在全国 32个省级行政单位以及日本、新加坡等海外市场应用。

科大讯飞重拾市场认可的另一组迹象,是进入2023年两个月来连续14篇研报。对比去年同期只有2篇研报,科大讯飞今年在机构方面获得的关注度有了明显提升。

1、在哪里定制属于自己的AI声音?

讯飞有声APP和讯飞开放平台都开放了SMART-TTS语音合成系统,开发者可以在讯飞有声APP直接下载体验,或在讯飞开放平台进行调用。另外,科大讯飞最新推出的AIGC内容创作基地——讯飞智作,包括的各种AIGC工具中已上线了SMART-TTS聆系列主播,助力内容创作者更高效地输出优质的音视频作品。

在讯飞智作中,已经开放了讯飞配音、真人配音、虚拟人视频、PPT生成视频等功能。以讯飞配音为例,用户可以在100多位合成主播中选择适合的声音,有性别、年龄、领域、风格、语种等众多选择标准,自由调节速度、语调、音量、情感系数等多重变量。可以预想到,AIGC在讯飞智作中的应用能够给音视频生产领域带来全新的变革,内容生产者们以较低的成本获得适合内容的高质量音视频,创作的效率大大提高,还可以让不能开口说话的事物配音,《假如国宝会说话》的跨年特别呈现中,SMART-TTS语音合成系统让文物拥有了亲切自然的音色,讲述自己的风姿与古人的智慧。

SMART-TTS语音合成系统已经落地很多需要声音的场景,也将有更多功能向用户、企业开放,自然流畅、富有情感的合成语音将走进千家万户。打开导航时它有力可靠、阅读有声书时它让人身临其境、疲惫时它温柔甜美带来力量......结合讯飞虚拟数字人技术,还可以实现定制智能聊天对象,建立有具体形象的AI助手、AI伴侣不无可能,也许我们还可以与拥有自己声音的AI进行交互。这不就是我们曾经幻想过的美好未来吗。

讯飞智作是人人都可触碰到的AIGC应用,如今AIGC的大时代正在到来。这个已经开始的技术变革对我们来说意味着什么?这一波AI产品可能的应用场景有哪些?未来可能会形成怎样的新AI产业生态...这些问题暂且还没有明晰的答案。

2、中国AI进入无人区

“在做通用AI范式的时候可以想象站在一个沼泽地上,四面没有光,也没有手电,这时候咱都不说走多远,往哪边走都是个问题。这种情况下大家都选择了相对光明的道路,就是专用AI范式。不得不佩服美国人,他把这个事情 (AGI,通用人工智能) 从0到1的道路硬生生的走出来了。”这是日前一场专家电话会中,一位产业人士对于ChatGPT及其背后的OpenAI团队的感慨。

从专用AI到通用AI,即使OpenAI已成功闯关,但对中国的AI公司来说挑战仍然巨大,说是走入无人区毫不为过。不信你瞧谷歌:

ChatGPT火爆之后,被触及商业模式核心利益的谷歌最为着急。单纯从理论上来看,它做这个事情好像不难。毕竟就连ChatGPT的底层架构Transformer模型,都是来自谷歌。

但现实很残酷。谷歌的类ChatGPT项目Bard出师不利,员工通过内部论坛Memegen批评管理层最近推出的Bard:仓促、拙劣、毫无谷歌风范 (un-Googley) 。

ChatGPT的通关之路难度可见一斑。

但即使如此国内参与者也不得不跟。因为ChatGPT会对众多产业带来颠覆性变革,包括且不限于:

1)改变现有人机交互模式。

2)改变现有信息分发获取模式。

3)改变内容生产模式。

4)加速“AI for Science”的发展。

直观一点来说,互联网的核心价值是连接,ChatGPT代表的生成式AI的核心价值则是嵌入。如果嵌入至制造业,生成式AI的强大远景——存、算、编码生成一体化所带来的“随心所欲”效应,无疑意味着人类生产力能力文明级的跨越。但在这个质变发生 (在以制造业为核心的工业领域,质变发生仍受制于材料与能源) 过程中,生成式AI作为机器智能超算,最大化价值的用途还是嵌入到科研领域,将在基础学科研究、新材料、新能源、新药物的研发过程中扮演关键角色。

3、AI界的一股清流

在真实的商业世界,技术的硬实力永远不是全部,它无法具现一个组织看不到的软实力。事实上,对比绝大多数的AI公司,科大讯飞的软实力更为突出。

过去很长时间,科大讯飞一直是A股市场上的AI独苗。围绕其业绩的质疑声音一直没断过。直到背负巨额亏损的AI新势力们上市,外界方看到了其自力更生的难能可贵。

与后进的AI新锐们不同,科大讯飞以语音识别起家,这条路线对于早期AI公司可能比较友好。众所众知,2006年Hinton利用预训练方法得出神经网络局部最优解,将隐含层推到了7层,神经网络真正上有了“深度”,由此揭开深度学习热潮。

所谓“深度”并没有固定数值,在语音识别中4层网络就能被认为是较深的 (例如谷歌产品voice search) 。在效果一定的同时,层数越小,难度越低,计算量越少,它有利于打通技术与商业化的双轮驱动,这对于AI从实验室走向产业的起步阶段非常重要。

AI的科技含量再高,它也是一门生意,先把商业的帐算清楚。任何商业的基本规律就是创造现金流、创造真金白银的产业附加值才能持续发展。组织能自负盈亏,才能稳健的进入其它技术分支——科大讯飞先是拥有我国唯一的“语音及语言国家工程实验室”,后来国家唯一的“认知智能国家重点实验室”也设在科大讯飞——一步步扩大公司的护城河。

之所以说科大讯飞更契合商业基本规律,因为这是一目了然的事情:你看所有布局类ChatGPT的玩家,只有它比较明确的开始讲应用讲商业,“1+N”架构的行业应用已经规划好了。

“1”是通用认知智能大模型算法研发及高效训练底座平台,“N”是应用于教育、医疗、人机交互、办公、翻译、工业、汽车等多个行业领域的专用大模型版本。例如,通过学习海量医学教材、论文和病例,实现专业的医疗领域对话式AI系统,打造“每个医生的AI诊疗助理,每个人的AI健康助手”。

运营节奏之外,科大讯飞是少数能做到既懂B端又懂C端的科技公司。

在中国既能服务企业、又能服务用户的科技公司屈指可数。科大讯飞服务C端,不仅指智能硬件销售,还有教育领域学生以年费形式订阅个性化学习手册和英语听说业务等。目前“个册”覆盖1400多所学校,口语业务2022年新增12个地市的中考和2个地市的高考。

科大讯飞有可能在医疗等板块打造C端应用的标杆,恰如ChatGPT的编程。当然,这是比较乐观的预期,C端能力的潜在可能性。关于可能性我们不再多谈,因为目前还为时尚早,期待科大讯飞的产品上线。

ChatGPT作为第四次工业革命开始的标志,世界商业秩序正面临剧变,没有人可以置身事外——如果改变世界的那个人/组织不是你,至少要和科大讯飞们站在一起。

文章来源: 春公子,深水财经社,锦缎

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:人工智源库
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...