媳妇熬成婆?喜马拉雅上市愁愁愁!文本转语音技术有建树!

德高行知情郎 2022-03-31

语音合成语音识别喜马拉雅

6600 字丨阅读本文需 19 分钟

知情郎·眼|

侃透天下专利事儿

在线音频平台喜马拉雅终于熬到上市了,真是多年媳妇熬成婆!

再不上市,黄花菜都凉了!

几年前,就听喜马拉雅要上市,然后由于各种各样的原因,如内容版权纠纷、广告分成模式纠纷、音频主播流失、盈利模式不清晰等问题,迟迟没有上市。

这公司做了十年,做大了国内“耳朵经济”,行业规模第一,垄断了音频入口,但账面上还是亏,且亏损仍在放大。

感觉公司要再不上市,背后的资本怕要釜底抽薪了。

对国内用户而言, 喜马拉雅这款APP知名度很高,作为一家月活接近3亿的公司,国内音频用户几乎人手一个他家APP。

知情郎原来也挺爱在喜马拉雅平台上听德云社郭德纲的相声。

上下班路上,一边等车,一边听着郭德纲各种骂娘揶揄的各种下三路粗俗段子,挺是味儿!

郭德纲相声口味就是调侃贫嘴搞笑

过个嘴瘾图个乐,实在人!

01喜马拉雅10年12轮融资路漫漫

3月29日,喜马拉雅在港交所更新了招股书。

高盛、摩根士丹利和中金为联席保荐人。

战略投资者包括腾讯、百度、小米、好未来、索尼音乐等;财务投资者包括美国泛大西洋投资集团、挚信资本、高盛等。

从材料看,喜马拉雅接受了12轮融资,从2012年天使轮开始到2021年E轮第四次融资,跨度为10年。

在风口接受了资本10年的孵化,到现在还是亏损。

2021年9月13日公司第一次在港股递交招股书。其实,在2021年5月,喜马拉雅也曾向美国证券交易委员会递交了招股书,选择了推迟上市。

财务数据并不好看,如下:

3月29日更新版的招股书显示,2021年,喜马拉雅营收58.6亿元,同比增长43.7%;

年内经调整亏损由2020年的5.39亿元扩大至7.59亿元;

毛利率从2020年的49.1%提升至2021年的54.0%。

典型的互联网流量型平台企业的业绩,增量不增利,流量难变现,光有体量没有净利,若无资本死撑,明天就关张歇业。

所以,10年要是再不上市了,幕后资本也真耗尽青春,估计大概率不会陪跑了。

03人生几个十年?行业太残酷

资本也不是慈善家,大家都需要给彼此一个交代,不可能无止境在亏损的漩涡里背锅到底。

如今港股走势一言难尽,美股中概股被血洗,选择这个节点上市,大概资本也是无可奈何,背水一战了吧。

另外,市场无情,赛道拥挤。

任何公司都要面对市场成熟时巨头入局的竞争局面。

早年音频赛道,用户接受度不高时,国内巨头冷眼旁观。

但经过喜马拉雅等顶部APP砸钱运营培育市场多年,有用户基础后,巨头就动手了。

事实上,音频赛道作为流量入口,对巨头垄断流量端有一定的帮助,用户手机APP界面里也会常年备有一个音频类软件,用来听相声、音乐、电台节目等。

这就是音频模式最大的价值。

所以,市场一旦成熟,巨头也就不旁观了,直接烧钱并购入局,进一步挤压喜马拉雅的生存空间。

据不完全统计,从2020年起,腾讯音乐、网易云音乐、字节跳动、快手、B站等新玩家,通过不同方式涌入在线音频赛道,且已威胁到喜马拉雅早期建立的护城河。

其中,腾讯音乐以产品矩阵大举攻城:推出酷我畅听、并购懒人听书,在QQ音乐APP添加播客一级入口;

网易云音乐上线“有声剧场”栏目、增加“播客”入口;

短视频见长的字节跳动、快手,则分别推出番茄畅听APP、皮艇APP;B站10亿元全资收购的二次元音频社区猫耳FM。

说白了,他们都是来抢音频流量入口的。

说入局就入局了,说抢你饭碗不商量。

04具体看月活和变现渠道

招股书显示,2021年喜马拉雅订阅收入为29.9亿元,同比增长49.0%;广告收入为14.9亿元,同比增长38.8%;

直播收入为10亿元,同比增长39.6%。

付费订阅、广告、直播成为平台变现的三大支柱。

2021年喜马拉雅全场景平均月活跃用户为2.68亿,同比增长24.4%,其中移动端平均月活跃用户达1.16亿,物联网及其他开放平台月活用户达1.52亿。

喜马拉雅通过布局智能家居、智能音箱和车联网,拓展出丰富、便利的终端应用场景,进一步提升平台内容渗透和用户黏性。

数据显示,喜马拉雅与各头部企业达成合作,93%以上的智能音箱都接入了喜马拉雅的内容。在车载智能终端部分,与超过95%的汽车企业进行深入合作,TOP30的汽车品牌均已接入喜马拉雅的音频服务。

招股书显示,2021年喜马拉雅车载智能终端和家用智能终端月活跃用户为0.49亿。

知情郎只能说,拥有私家车的车主肯定人手一个喜马拉雅APP,开车时,没事儿就点开APP听八卦听相声。

喜马拉雅内容生态包括有声读物、泛娱乐音频、播客、知识分享和音频直播等内容。

招股书显示,2021年内容创作者数量超1351万。

喜马拉雅生产的音频总体数量为3.4亿,有声书音频数量为490万,涵盖100多种类型的广泛音频内容,包括教育培训、历史人文、亲子关系、商业及娱乐等。

招股书显示,2021年喜马拉雅研发开支为10.27亿元,占总收入的17.5%,同比增长64.6%,技术和研发人员占比近40%。

招股书披露,喜马拉雅此次IPO募集资金将主要用于继续扩大和提升所提供的内容并赋能内容创作者,提升下一代技术、AI和大数据能力以进一步提高营运效率等。

05风险在哪?

从知产角度讲,喜马拉雅最大的风险就是优秀内容制作者的流失以及侵权风险。

作为一个音频分发平台,尤其是如今渠道发达,想渠道为王制霸行业的风险很大。

因为优秀的内容制作者可以跳槽去其他平台生产内容,不会单恋一枝花。

另外,就是版权费用,渠道分发公司的核心竞争力是何有顶部内容版权IP公司合作。

比如喜马拉雅也很依赖与阅文等小说网文平台的合作,没有大量精品小说的充实入库,渠道就缺乏爆款。

音频、视频分发平台都天然受制于内容制作,没有足够持续、足够多的精品内容产品填充分发渠道,用户毫无忠诚度可言,明天就喜新厌旧卸载换个APP。

在这方面,喜马拉雅在内容版权合作上准备充分。

从申报材料看,截至2021年12月31日,公司在中国与140多个头部网络文学平台及310多家出版商进行 业务合作。

因此,截至2021年12月31日,平台上的有声读物获收听约7,000亿次,与2020 年12月31日相比增长率约50%。

于2021年第四季度,公司与7个网络文学平台及11家出版商 建立合作关系,加强与现有四个头部网络文学平台的合作关系;该等合作伙伴授予我们获取超过5300部版权作品的权利,这些作品从2021年年末开始可于平台上进行收听。

06喜马拉雅的技术亮点在哪?

作为一家能月活过亿的公司,技术底蕴就不用吹毛求疵了。

能让一个APP日夜运转不宕机不出故障,天天接受用户访问量日活千万级别以上的无休止循环。

本身就说明了很多问题。

技术不扎实的公司,早就滚蛋了。

这公司也懒的在这方面吹,他的长处在于人工智能生成内容。

众所周知,大量的音频内容,其实是从传统出版物文字内容+播音主播念文稿形成的音频产品。

这种人工念稿并需要人工播音大力配合的内容生产方式制约了音频的制作速度。

毕竟,人不是机器,念多了稿件,会累要休息要调整。

但,机器不用,现在AI语音播报技术逐步成熟,科大讯飞、百度等语音播放文字软件大行其道。

很多人工播音主持都被AI搞的失业了。

在这方面,喜马拉雅也在沉淀自己的文本转化语音的AI技术。

从申报材料看,公司是这样描述的自己AI应用的:

基于我们累积的多样且优质的声音样本,我们利用自研的文本转语音技术(TTS),即使用先进的深度学习技术,合成自然的讲述人声,从而制作在线有声内容,提高我们将热门IP改编为在线音频内容的效率。

例如于2021年9月,我们根据单田芳的声音引进人工智能生成的评书专辑,截至2021年 12月31日总收听次数超过23百万次,总收听时长超过240百万分钟。

截至2021年12月31日, 我们平台上有超过11,000张AI生成的专辑可供收听,有声内容总共有超过280万条音频。展望未来,我们将继续向用户提供更多热门IP专辑,满足他们不断变化的需求,2022年的目标是推出超过35,000张热门IP专辑。

另外,这公司靠音频吃饭,所以,在自己专业的音频内容制作工具水平,在国内绝对数一数二。

千万不要拿市面上一般业余产品对标人家专业吃这碗饭的!

我们为内容创作者提供强大的音频创作工具,该工具提供包括录音、编辑、优化、存 储、播放及上传在内的全面功能。通过使用我们专有的录音功能,创作者可以快速轻松地 录制优质内容。我们平台亦提供专有模块,如降噪、回声抑制及高保真编码。

07

公司专利有多少?

IT公司软著多,但专利量也是有的。

公司的主要公司架构如下:

以上市公司主体喜马拉雅控股及其子公司为搜索主体,在德高行全球专利数据库(德高行是全球专利分析及国内外专利申请服务的专家,有专利问题找德高行)检索得出,喜马拉雅的专利量超过130件。

公司名称

专利主要分布在语音识别、语音合成、数据计算与推荐、使用者交互、智能音箱等。

在文字翻语音领域,公司专利不少。

可以理解,直白说,语音合成技术是喜马拉雅的特色技术。

毕竟,一个靠音频吃饭的公司,每天要面对将大量出版物内容实现音频化,单靠人工念稿,虽然质量可控,但成本太高、效率太慢。

一本网文小说上百万字,靠播音主播对着麦克风慢慢念稿成音频,黄花菜都凉了,所以必须研究人工AI文字转音频的技术,用机器来实现流水线作业。

而且,这种作业模式和科大讯飞这种传统的语音合成技术有一定的区别。

喜马拉雅的文翻音应用场景更复杂,需要合成的文本信息量更庞大,所以他对转化速度的要求更高。

另外,喜马拉雅的外观设计不错,花了心思。

08智能音箱经典外观设计

有一段时间,喜马拉雅在智能硬件方面想要有所突破,所以,他推出了AI听书耳机和智能音箱,都是自研的产品系列,只不过市场反馈一般,且做不过更成熟的小米等品牌,最终不了了之。

不过喜马拉雅的部分智能硬件产品也是颇费心思的。

下面是一些公司智能音箱的外观设计:

09文字转音频经典专利

技术背景介绍

人工合成人类语音被称为语音合成,这种基于机器学习的技术适用于文本转换语音(text-to-speech)、音乐生成、语音生成、语音支持设备、导航系统以及为视障人士提供无障碍服务等应用场景。

但是,经发明人研究发现,在现有技术中的语音合成方法需要的参数量较多,从而存在着语音合成的效率低的问题。

有鉴于此,本申请的目的在于提供一种语音合成方法和装置、电子设备及存储介质,以改善现有技术中存在的问题。

本申请实施例采用如下技术方案:

本发明提供一种语音合成方法,包括:

获取待处理语音数据的对数梅尔能量谱;

将所述待处理语音数据的对数梅尔能量谱输入预设的语音合成模型,得到第一合成音频,其中,所述预设的语音合成模型根据训练数据的对数梅尔能量谱进行训练得到。

在可选的实施方式中,所述获取待处理语音数据的对数梅尔能量谱的步骤,包括:

获取所述待处理语音数据;

对所述待处理语音数据进行能量谱计算,得到所述待处理语音数据的能量谱;

对所述能量谱进行对数梅尔能量谱计算,得到所述待处理语音数据的对数梅尔能量谱。

在可选的实施方式中,所述对所述待处理语音数据进行能量谱计算,得到所述待处理语音数据的能量谱的步骤,包括:

对所述待处理语音数据进行分帧处理,得到所述待处理语音数据的音频序列;

对所述音频序列进行短时傅立叶变换处理,得到所述待处理语音数据的频谱;

对所述频谱进行频谱能量计算,得到所述待处理语音数据的能量谱。

在可选的实施方式中,所述将所述待处理语音数据的对数梅尔能量谱输入预设的语音合成模型,得到第一合成音频的步骤,包括:

将所述待处理语音数据的对数梅尔能量谱输入预设的语音合成模型,根据预设的伪逆矩阵计算得到所述待处理语音数据的伪逆能量谱;

对所述伪逆能量谱进行短时傅立叶变换处理,得到所述待处理语音数据的变换音频;

对所述待处理语音数据的对数梅尔能量谱和变换音频进行合成处理,得到所述待处理语音数据的第一合成音频。

在可选的实施方式中,所述语音合成方法还包括训练语音合成模型的步骤,该步骤包括:

获取所述训练数据的对数梅尔能量谱;

对所述训练数据的对数梅尔能量谱进行语音合成处理,得到所述训练数据的第二合成音频;

根据所述训练数据的预设参数和所述第二合成音频对预设模型进行训练,得到语音合成模型。

在可选的实施方式中,所述预设参数包括相关系数,所述根据所述训练数据的预设参数和所述第二合成音频对预设模型进行训练,得到语音合成模型的步骤,包括:

对所述训练数据进行相关系数计算,得到第一相关系数,对所述第二合成音频进行相关系数计算,得到第二相关系数;

根据所述第一相关系数和所述第二相关系数计算得到第一均方误差,根据所述第一均方误差对预设模型进行训练得到语音合成模型。

在可选的实施方式中,所述预设参数包括线性预测编码,所述根据所述训练数据的预设参数和所述第二合成音频对预设模型进行训练,得到语音合成模型的步骤,包括:

对所述训练数据进行线性预测编码计算,得到线性预测编码,根据所述线性预测编码对所述第二合成音频进行重构处理,得到重构音频;

根据所述第二合成音频和重构音频进行计算得到第二均方误差,根据所述第二均方误差对预设模型进行训练得到语音合成模型。

通过将待处理语音数据的对数梅尔能量谱输入预设的语音合成模型得到合成音频,实现了通过对数梅尔能量谱就可以得到合成音频,避免了现有技术中语音合成方法需要的参数量较多,所导致的语音合成效率低的问题。

10语音识别专利

技术背景介绍

语音识别技术可以用于将用户的语音转变成文本,因此,随着语音识别技术的发展与商业化应用,语音识别技术越来越多的用于各类场景。

目前的语音识别技术包括以下两种技术思路:

一种是采用完全基于神经网络原理的第一模型,例如,端到端语音识别模型。

而另外一种则是采用未完全基于神经网络原理的第二模型,例如,传统语音识别模型。

其中,传统语音识别模型包括特征提取层、声学模型层、语言模型层以及解码层,本领域技术人员可以对上述特征提取层、声学模型层、语言模型层以及解码层进行设计,以使传统语音识别模型适应各类特定识别场景。

为便于理解,下面对各传统语音识别模型的上述3个声音处理环节进行说明。

特征提取层:由于直接对待识别语音的原始波形进行识别,并不能取得很好的识别效果,因此,需要将时域的语音波形信号转换成频域信号后,再进行特征提取。

例如,待识别语音的Mel倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。

声学模型层:用于对特征提取阶段获得的声学特征进行处理,获得待识别语音的发音单元。其中,常见的声学模型层包括隐马尔科夫模型、高斯混合模型等。

语言模型层:语言模型层用于刻画人类语言表达的方式习惯,着重描述了词与词在排列结构上的内在联系,因此,语言模型不仅能够提高解码层的解码效率,还能在一定程度上提高语音识别率。例如,可以使用N-Gram模型作为语言模型层。

解码层:由于发音单元相对于整个待识别语音而言是相对独立的,并且,同样的发音单元还存在同音字的情况;因此,需要使用具有词典的语言识别模型将相对孤立分散的发音单元进行解码,以获得与待识别语音相匹配的目标文本。并且,可便捷地使用丰富的领域场景文本语料优化语言识别模型,进而提升语音识别效果。

此外,传统混合语音识别框架下,热词、词边界、语言识别模型自适应等方法相对成熟,且已经成功进行商业化应用。

相比传统语音识别模型,端到端语音识别模型则是基于神经网络原理利用大量的语音文本成对的样本对其进行训练获得。

因此,端到端语音识别模型更多的应用于通用识别场景,比如输入法、客服等。在通用类场景下,端到端语音识别模型具有较为明显的语音识别效果优势。

因此,目前的端到端语音识别模型与传统语音识别模型分别在各自擅长的语音识别场景能够取的很好的语音识别效果,然而,难以同时适应着两种识别场景的问题。

鉴于此,本申请实施例提供一种应用于语音识别设备的语音识别方法,通过比较完全基于神经网络原理的第一模型与未完全基于神经网络原理的第二模型各自对待识别语音的识别文本,选取其中得分最高的目标文本作为待识别语音的语音识别结果,从而达到既能适应通用识别场景,又能适应特定识别场景的目的。

为了克服现有技术中的至少一个不足,本申请提供一种语音识别方法及相关装置。

本申提供一种语音识别方法,应用于语音识别设备,所述语音识别设备配置有语音识别模型,所述语音识别模型包括完全基于神经网络原理的第一模型以及未完全基于神经网络原理的第二模型,所述方法包括:

获取待识别语音;

将所述待识别语音输入到所述第一模型词库,获得第一文本以及所述第一文本的第一得分;

将所述待识别语音输入到所述第二模型词库,获得第二文本以及所述第二文本的第二得分;

根据所述第一得分以及所述第二得分,从所述第一文本以及所述第二文本中选取得分最高的目标文本;

将所述目标文本作为所述待识别语音的语音识别结果。

上面说的很抽象,但实际逻辑很简单,举个例子,如下:

很多时候,语音识别设备需要配置有对应第一场景的第一词库以及对应第二场景的第二词库。

仅有场景一个字库识别错误率太高。

因为用户本身就不确定,一个成年人用户对智能音箱交流的词汇和一个儿童用户交流的词汇量时完全不同。

考虑到儿童积累的词汇多是关于童话故事、动漫、儿歌等内容,因此,收集与童话故事、动漫、儿歌相关的词汇,作为第二词库;收集成年人通用场景下的词汇,作为第一词库。

然后,语音识别设备周期性的统计第一词库与第二词库各自的使用频率,然后,选取使用频率最大的词库作为目标词库,该目标词库所对应的场景作为目标使用场景。

也可以通过使用频率表示历史语音中的词汇在统计周期与第一词库与第二词库匹配成功的次数。

假定该统计周期为1星期,并且这1星期内以内,第一词库匹配成功的次数为10次,第二词库匹配成功的次数为35次,则可以确定目标词库为第二词库,目标使用场景为第二场景。

基于这两个词库,语音识别设备获取第一词库的第一使用频率以及第二词库的第二使用频率;然后,根据第一使用频率以及第二使用频率,从第一词库以及第二词库中选取满足预设条件的目标词库;最后,根据目标词库,确定目标使用场景。


免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:德高行知情郎
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...