反思仿制Echo的热潮:为什么国外巨头要布局AI交互?

公众号:声学在线 2017-03-10

font语音识别技术专利布局

1936 字丨阅读本文需 6 分钟

美国调查公司VoiceLabs在本年初发布了《2017年语音报告》,报告中对目前美国

↑ 语音为主的

随着亚马逊的智能音箱Echo销量逼近千万,苹果的智能耳机AirPods登顶美国

无论是IT科技巨头阿里、百度、腾讯、科大讯飞等,还是陆续出现的思必驰、声智科技、云知声、三角兽、蓦然、Rokid等创业公司,智能语音产品和语音助手成为竞相追随的热门话题,俨然形成了一股全行业研究亚马逊Echo的热潮。根据声智科技提供的数据,国内已经有超过200多家公司正在研发类似Echo的智能音箱。

然而,就在国内科技公司还在模仿Echo之时,国外的科技巨头已经开始进一步抢夺全球语音交互市场的控制权。无论是行业标准的定制,还是战略专利的布局,抑或是音频数据集的开放,以及各种产业生态联盟的搭建,一切都在悄然的进行中。

3月6日,微软在其官网上发布了新版本的语音平台测试标准

微软指出,目前语音平台支持Windows 10中的所有语音体验,如Cortana和Dictation,而其最新的测试标准适用于所有使用微软语音平台的音频输入设备。其中,直接影响的设计参数,包括语音识别精度和语音处理算法的性能。

↑ 测试环境搭建图

区别于微软,亚马逊也为其所有采用Alexa开发的智能语音产品设立了相应测试标准,

↑ 目前通过测试获得认证的企业

一直以来,一旦掌握行业标准制定的主导权也就掌握了整个市场的控制权。与其有同样魅力的便是专利。当今的激烈市场竞争中,专利早已经成为市场竞争的一柄利剑。

1月19日国家知识产权局公布的数据显示:过去的2016年,我国国家知识产权局共受理发明专利申请133.9万件,同比增长21.5%,这已经是我国第6个年头专利受理量居世界首位。同时,国外专利的申请情况也保持良好的增长势头,2016年通过《专利合作条约》(PCT)途径提交的国际申请4.50万件。然而,

众所周知,语音交互涉领域广泛,是一门多项技术融合的交叉学科,涉及到信号处理、模式识别、概率论与信息论、发声机理和听觉机理、神经网络,语音识别,机器学习等。其中,语音以及音频的编解码(G10L),电数字数据处理(G06F),电话通信(H04M),这三个领域专利累积数量最多,比例高达80%。

从德温特世界专利索引数据库平台收录的自1963年以来全世界40多个专利机构的基本发明的数据来看,语音识别的相关专利约2万件。

↑ 根据CNKI自1985年后收录的中国专利的数据来检索关键词语音识别情况

其中,截止到2015年,仅“语音识别”累积专利申请量方面来看,前五位的为IBM,NEC,微软,Nuance和东芝,分别为749件,508件,506件,415件,406件。而从2010年至2015年的语音识别专利的申请量来看,除了IBM被Google替代,降至第7名,其他几位仍然保有专利数量的优势,排名顺序是Nuance,谷歌,微软,东芝,NEC,分别为206件,178件,141件,102件。

巨头形成的专利防御攻势仍然迅猛,而业界所关心的后起之秀也来势汹汹,

对于国外的科技公司来说专利之间的斗法更加剑拔弩张,专利壁垒正在逐渐形成。

2013年苹果公司收购语音识别公司NovaurisTechnologies。经过收购,苹果公司获取了该公司的4件语音专利。通过这4件专利,苹果

为了应对苹果公司带来的激烈竞争,谷歌公司采用了专利“围剿”战术。2013年,谷歌公司收购了Wavii公司的一件专利,该专利技术使得谷歌公司的语音搜索识别正确率提高了25%。同年,又收购了SR Tech Group公司的两件关于语音识别的专利,并购入雅虎公司的一件名为“背景会话上下文搜索技术”的专利,通过购买专利,谷歌公司拥有了完整的语音识别引擎。

目前,中国的语音识别企业专利布局还主要是在国内,国际领域的专利布局情况和国外企业对比,确实还存在巨大差距。

对比于市场销量带来的直接经济效益,知识产权的价值还不能充分体现。然而,在提高公司效益,抢占市场,保持公司可持续发展时,知识产权的价值不可小觑,专利作为企业不得不向公众透露以获取独占权的关键信息,对其进行详细、周密、综合的分析,可以从中获得巨大的商业价值,特别是在国际市场竞争中。

3月8日,谷歌开放了一个大规模的音频数据集 AudioSet。

这些特定音频是使用基于元数据,上下文(例如,链接)和内容分析的搜索来标记的。声音内容十分广泛,包括人类的声音和动物的声音,各种类别乐曲的声音和每天日常环境中的各种声音等。谷歌声称:此次开放这个数据库的目的就是为了满足学术研究的需求。

从此前ImageNet广泛数据集的开放效果来看,大部分识别图像中的目标研究已经从中获益。而此次,对于利用AudioSet公开数据集训练机器学习模型的语音识别研究者或者技术公司来说,无疑是获益匪浅。

毫无疑问,通过语言交流获取知识是人类最有效的学习方式。从PC时代的键盘鼠标过渡到移动互联网的触屏操控,下一个AI时代,无疑将会是以语音、体感等多种感知融合的新的获取方式,而语音交互作为天然的人机交互入口,势必是对信息生态与未来生活的一种重构。

诚然,语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。需要产业链上下游相互合作,需要产业伙伴相互合作。目前,美国顶尖的科技公司,INTEL、ARM、谷歌、亚马逊、Facebook等都纷纷牵头成立了自己的产业联盟。

随着智能语音交互领域不断发展,国际化的竞争也会日趋激烈。如何积极抢占全球智能语音交互的主导权?必然是组成产业技术创新联盟,把握国际标准的制定、积极做好专利战略布局,才能紧抓国内外同步创新的契机,不再重复PC和移动互联网时代的遗憾。

 

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:公众号:声学在线
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...