点燃2022开年资本盛宴!虚拟人究竟有多火?

人工智源库 2022-01-25

虚拟技术场景应用人工智能

5453 字丨阅读本文需 13 分钟

万万没想到,2022年一开年的资本盛宴是由“它们”点燃的。

先是杭州李未可科技有限公司宣布已完成数千万元天使轮融资,由字节跳动独家投资;随后,核心技术为快速动画技术和实时数字人技术的世优科技完成千万级A+轮第一期投资。

一个月前,虚拟数字人及虚拟时尚研发商世悦星承则是完成了网易领投的千万元天使轮融资;而“虚拟人”生态公司次世文化在过去一年时间里一共完成了三轮融资。

集原美、AYAYI、柳夜熙、翎_Ling、A-SOUL、韬斯曼、aespa、华智冰、崔筱盼、希加加……虚拟人已经毫无疑问地走进了我们的现实世界。据头豹研究院数据,当前虚拟数字人市场规模已超过2000亿元,预计这个数字到2030年将达到2703亿元。

这些火遍大江南北的特殊生命体,通过越来越多元的形象定制、舒适的交互体验,逐渐转变为拥有更接近真实人类智商和情感的新型社会角色。

而「多模态技术」,正是打破单一感官的藩篱,让AI虚拟形象越来越像人类的秘密武 器。

01

虚拟数字人是什么

在聊虚拟人之前,我们得先明白虚拟人所指是什么?

单单从“虚拟”二字,就能看出,虚拟人是存在于非物理世界里的东西,它们是用计算机图形软件渲染出来的,通过AI,捕捉到实际人体的肢体动作、表情、语言细节后合成的虚拟形象,笔者认为,虚拟人是人类的基础数字备份。

关于虚拟人更准确的定义,是出自《2020年虚拟数字人发展白皮书》,该白皮书指出——虚拟数字人是指具有数字外观的虚拟人物,将依靠显示设备存在,具有人的外貌、行为和思想,并且可以与他人交流。

要实现和他人交流,对技术的要求极高,目前,典型的产品是英伟达Omniverse和三星旗下的NEO,好消息是Omniverse已经开放给个人用户使用了,即使不懂技术,也能构建自己的Avatar(虚拟化身),这是对整个社会很利好的事情。而那些需要用到虚拟人的企业,便能够低门槛进入到虚拟人商业活动里面。

02

虚拟数字人的特征

虚拟人的特征并不完全是人格化的,前几天看到有关虚拟人的比赛,那些优秀的获奖虚拟人都有3个共同的特这,我们总结如下:

特征1:虚拟化

虚拟数字人存在于非物质空间,是由现实世界的人通过计算机技术创造并驱动的产物。虚拟数字人并不总是存在于虚拟、数字空间中,在一定的条件下,例如借用成熟的全息投影技术,其也可以跨越次元与物质世界产生交互。

虚拟化并意味着虚拟人必须存在于数字世界里,就像某顶流的虚拟人IP和奢侈品手表合作时,只有该虚拟人手上配到手表的照片。实际上,虚拟人的发展方向应往全息投影的方向去考虑,当虚拟人能够以更具备沉浸感的方式出现在用户面前时,这就意味着虚拟人真正地把人类介绍到了元宇宙世界,通过虚拟人这个媒人,我们和元宇宙之间的鸿沟就会变窄。人类才能在元宇宙的数字世界里提高效率,生存维度得到更高的拓展。

特征2:交互性

虚拟人作为媒人,是需要能够充当翻译官和调节人的角色的,它们把人类的诉求和计算机的技术结合起来,用人类、计算机、虚拟人都听得懂的方式翻译出来,所以,虚拟人需要具备交互性。

目前,强大的虚拟人项目都会借助AI,完成对人类信息的捕捉,传给计算机后,计算机把信息处理完成,转化成语音或操作面板的形式反馈会来给人类,但这些方式仅仅是个UI界面。虚拟人的出现,让人类与计算机的这次合作更愉快了,虚拟人友好、善解人意、没有偏见,交互性越强,越能提高人类的协作效率。

所以,好的虚拟人项目需要把交互性考虑进去,目前,三星的NEO虚拟人项目能够捕捉人类的表情,根据表情学习后,虚拟人会用更适合的表情来和人类交流。

特征3:拟人化

拟人化的目的是完成亲和力的构建,虚拟人是元宇宙数字世界直面人类的外交官,如果没有拟人化的亲和力,这无法让紧张的人类用户放下防备。所以,优秀的虚拟人项目需要能构建与人类相似的外表的能力。

这些项目至少需要有图形渲染、语言捕捉与语音生成、肢体语言捕捉、全息投影等技术综合。最佳的效果是虚拟人能够看起来完全像人类,让肉眼不仔细分辨时无法辨别出来。

03

虚拟人是怎么火起来的?

虚拟人不是一夜之间生成的。

硬要追溯的话,恐怕要回忆到1982年日本动画《超时空要塞》中的女主角林明美。当时林明美被制作方包装成演唱动画插曲的歌手,并制作了音乐专辑,成为了世界上第一个虚拟歌姬。

此后,虚拟人伴随着CG技术、动作捕捉技术、语音合成技术等等技术的发展,不断进化——从二次元虚拟歌姬初音未来、洛天依的出现,到现在各类型虚拟数字人被批量生产,虚拟人有了很明显的飞跃:

从人物设计上说,现在更多的虚拟形象外形多是超写实、高保真,他们不仅在形象上与真人相似度极高,行为上也愈发贴近真人。

技术层面进步,无论是虚拟人的智能化程度,还是动作的流畅自然程度都大幅上升。按技术分类,也分为智能驱动型和真人驱动型(通过真人动作捕捉完成动作)。

从实用性角度考虑,虚拟人拓宽了可行的应用场景,有高度工具化的服务型虚拟人,如虚拟主播、虚拟员工,也有对标艺人、偶像、网红的IP型虚拟人。

百度智能云AI人机交互实验室负责人李士岩认为,数字人产业有三大核心推动力,第一级火箭是用户需求与技术升级、第二级是政策支持与资本涌入、第三级是计算平台的迭代。

以目前的情况来看,三级火箭都处于相对早期、正在加热的阶段。在过去若干年的时间里,虚拟人的价值空间并未打开,直到去年元宇宙概念的火爆,才将虚拟人推至台前,也让虚拟人背后的复杂产业链浮出水面。

腾讯字节百度等大厂、虚拟人垂直赛道初创公司、技术提供商、影视制作公司、MCN、IP策划运营公司......都试图在这场盛宴里占得一席之地。而虚拟人产业链上下游环节、角色众多,因此对应着的机遇与挑战也很不一样。

虚拟人的“上游”主要是虚拟人底层技术提供方,包括显示设备、光学器件、传感器、芯片等硬件制造商,建模软件、渲染引擎等软件制造商,专门化的AI厂商、XR厂商、CG厂商、自研虚拟人技术的垂直厂商。腾讯、百度等综合性的互联网大厂也有很强的技术输出能力。

“中游”的主要玩家是IP策划和运营公司,完成虚拟人的IP孵化、形象设计、运营经纪等工作。虚拟人产品分为IP类和非IP类,前者是艺人型的,后者服务型,更注重实用性。分类方式和维度较多,或按应用场景分,或按技术能力分、或按外形分。国盛证券研报将其分成服务型虚拟人(PGC+功能型)、虚拟偶像(PGC+IP价值)、数字化身(UGC+功能型)、创作载体(UGC+IP价值)。

“下游”则是场景的应用,不同应用场景对应着不同需求的客户,覆盖泛娱乐行业、消费品以及金融、文旅、教育、医疗等行业。

结合“上中下游”,不难推导出创造一个虚拟人的要素:实际应用场景倒推出虚拟人的特征,再协同“内容”与“技术”,将这些需求落地。

但目前,虚拟人产业链各个节点相对割裂,行业中的大部分公司都只是涉猎虚拟人全流程中的某个环节,因此很难协同调优。同时,服务型虚拟人和演艺型虚拟人各自为阵,个性化和规模化都很难做出突破,也暴露了虚拟人生产效率问题。

04

“完美”虚拟人离不开的多模态

数据,是将真实世界与虚拟世界连接的桥梁。

在现实世界中,数据天然以「多模态」的形式存在,人类通过综合运用视觉、听觉、触觉、嗅觉等多种感官,来接触和理解大千世界。

为了探索实现通用人工智能(AGI)的路径,人工智能(AI)从单模态走向多模态已是大势所趋。

以前,Siri等语音助手只有声音没有脸,搜索只能依靠输入文字,机器看不懂照片的深层含义。

如今,借助多模态技术,AI实现了图像、视频、音频、语义文本等多维度资源的融合互补,不仅决策更加精准,还在行为和智商上更接近人类。

新冠疫情亦催化了多模态技术的落地进程。在隐私安全保护重视程度日益加强的趋势下,多模态生物识别凭借更高的准确率和安全性,正取代基于指纹、人脸等单一生物特征的身份识别方法。

而深藏多种黑科技的AI虚拟主播,亦是基于多模态技术的快速演进,成为感知智能迈向认知智能阶段的重要探索。

它们的精致面容、流畅表达、优美体态,离不开微表情追踪、语音识别、语音合成、自然语言理解、动作捕捉等丰富技术的支撑。

其中,AI手语主播要解决的技术难点尤其复杂。为了照顾到听障人士的需求,它需要具备实时将中文、英文等语音“翻译”成连贯手语的能力。

但手语有一套独特的语法体系,如果来一段央视押韵狂魔朱广权的段子“冷空气非常强,但他强任他强,清风拂山岗,他横任他横,秋裤保健康”,那就极度考验AI手语主播的理解和翻译水准了。

要做到实时精确演示手语,AI主播需先将语音转化成文字,再将健听人士的文本语序转化成手语语序,最后基于手语数据集进行手语合成,将相同的信息以视觉的形式传递给听障人士。

在此过程中,获得符合需求的训练数据成为了最具挑战性的问题之一。

这是因为,作为一种视觉语言,手语语言远比语音语言模态复杂,既包含手型、手部位置等手控信息,又包含表情、口动、体态等非手控信息。

如果从2D视频来采集手语运动过程中的数据,则不可避免会遇到动作被遮挡、人脸五官各区域区分不明显、空间深度信息缺失等问题。

综合看来,通过专业设备采集的3D多模态数据,已经成为优化特定垂直场景AI虚拟数字人的智能化水平中,为数不多的解决方案之一。

怎样获得高品质的多模态训练数据库?AI基础数据服务商的商业价值开始日益凸显。

05

优质算法“杀 手锏”

高质量数据背后的技术试炼

数据、算法、算力被并称为「AI三要素」,数据质量的高低,往往决定AI算法模型的性能上限。

随着AI应用逐渐普及,位于基础设施层的AI数据服务行业正发展地风生水起。根据知名市研机构IDC报告,到2025年,中国AI数据采标服务市场规模预计将增至123.4亿元。

但如果你认为AI基础数据服务是个纯人工作坊,那你就太小瞧这个行业的技术含量了。

尤其是多模态技术爆发以来,相应的对多模态数据需求的增长,逐步暴露了“作坊式”数据采标团队“人海”战术的短板,整个数据市场正向满足客户长尾需求演进,对服务商技术属性的要求一再加码。

如何制定与算法匹配的数据方案?如何同步采集不同模态的数据?如何处理丢失的数据?如何保证不同模态数据的精准对齐?这些都极度考验AI数据服务商的技术能力。

以获评国家工信部新一代人工智能产业创新重点任务揭榜优胜单位、国家专精特新“小巨人”企业、国家重点软件企业的海天瑞声为例,这家企业在中国AI基础数据采标服务市场中排名前列,也是A股唯一的AI数据服务上市公司,其多模态训练数据解决方案最近获得了智东西2021年度AI生产力创新奖。

根据其IPO文件,AI数据服务的核心技术可分为三个层次:训练数据生产(包括设计、采集、加工、质检),平台工具(一体化数据处理平台)以及基础研究(语音识别、语音合成、计算机视觉、训练数据集设计技术等)。

其中,在训练数据生产层,多语种多模态训练数据设计技术、采集及标注技术是高质量训练数据的生产基础。

首先在设计阶段,为了满足AI算法的需求,AI数据服务商需深入理解客户算法和应用场景,设计与之最优匹配的多模态训练数据结构,并制定合理的原料数据采集方案。

通过设计多设备采集方案,以便同时获取人发出的语音、视频画面、精细唇部动作等不同模态的信息,便于客户匹配自身算法模型框架,实现视觉、听觉等融合的多维度交互。整个过程非常考验AI数据服务商的技术储备和工程能力。

其次,在实际的采集环节中,数据损耗是常事,且造成损耗的原因迥异,而有经验的AI数据服务商能用技术快速找出解法。

我们继续以AI手语合成主播为例,采集手语数据会用到装有传感器的手套,这些手套由于并非专为手语而设计,因此在采集过程中难免会出现数据丢失的问题,一个动作很可能要做上百帧的数据修复,耗时耗力。

发现这一问题后,海天瑞声技术研发团队迅速启动应对方案,历经半个月研发出一款与硬件采集设备相匹配的自动导出、修复工具,极大提升了数据的处理效率。

修复好数据,还要应对「精细对齐」的挑战。

在虚拟数字人、智能座舱等场景中,越来越多应用开始将语音识别和计算机视觉结合,以提高理解人类意图的准确率。

像这样需用多个摄像头、传感器等设备来采集数据的应用,又带来新的难题——如何将不同设备记录的影像、声音等数据,实现同步标注对齐?

大规模标注数据本来就是AI模型进一步优化性能的瓶颈,而多模态数据不仅标注工作量是单模态的数倍,还要解决多设备采集数据同步难的问题,这会进一步增加后续数据加工难度。

对此,海天瑞声的解决思路是自研多通道采集工具和数据同步技术,多通道采集工具支持4路甚至更多语音数据同时录入、自动对齐整合,数据同步技术可实现多通道采集原料数据的自动对齐,并做到多音频文件起始点自动对齐误差小于1毫秒,大幅提升训练数据生产效率和质量。

借助数据同步技术,唇形动作与声音的对齐能精确到毫秒级,这也是可以避免虚拟数字人说话时音画不同步、对不上口型等尴尬局面背后的重要因素之一。

06

为更强智能输送燃料,多模态数据强势崛起

哪个AI应用不想实现更高的准确率、更自然贴心的交互能力呢?在更强智能需求的拉动下,基于多模态数据的AI算法模型日渐成为主流。

例如公安、金融等场景的身份鉴定,电商场景下的智能客服交互,未来自动驾驶场景的舱内舱外交互等等,数据准确率越高,有助于抵御越多的安全风险。而多模态生物识别不仅有助于保护信息安全,还能应对单一模态无法有效识别的戴口罩、手指磨茧、整容等特殊情况。

可以看到,如今AI垂直应用场景呈现碎片化特征,对多模态数据的需求更加复杂和长尾化。

这些新业务场景需求的变化,更为考验AI数据服务商处理复杂交叉业务场景数据的综合能力。

因此AI数据服务商必须具备与客户算法团队平行沟通的技术储备,理解客户希望用数据解决什么问题、设计什么结构的模型,才能用最小代价,给出高效高质的数据集解决方案,保证客户算法取得尽可能好的落地效果。

在这样的趋势下,海天瑞声等头部品牌数据服务商的资源优势将被进一步放大。

从海天瑞声的IPO文件可以看到,这家公司已经积累了近千个自有知识产权的训练数据产品、服务微软、阿里巴巴、腾讯、百度、三星、字节跳动、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等超过500家国内外客户,并持有信息安全认证证书ISO/IEC 27701及管理体系认证证书ISO/IEC 27001。

过去三年,海天瑞声的前五大客户呈现高复购率,足见其产品的高粘性。

无论是知名科技公司的背书,还是经年累月沉淀的多语种语言学家团队资源和稳定合作的供应商、客户等上下游资源,都使得兼具技术壁垒与业务经验的品牌数据服务商,更易成为确保多模态数据高效高质交付的首选。

结语

多模态终将主导智能产业未来

AI算法要想高质量,多模态数据得跟得上。

过去一年,应用场景的创新和机器学习算法的流行继续带动训练数据需求爆发式增长。

在多模态大模型、虚拟数字人等热门技术方向的驱动下,持续探索更强智能的AI应用,对高质量多模态训练数据资产的需求愈发迫切。

当前多模态技术仍处于起步阶段,多维度信息的转化和融合尚不成熟,在真实场景下的泛化能力较为受限,距离实现人类级别的多模态感知能力还有较长的路要走。

这需要研发多模态AI应用的企业或研究机构与AI基础数据服务商长期磨合,摸索出更加符合人类认知习惯的前沿多模态技术,帮助AI全面理解真实世界,最终更好地服务于未来的人类社会。

本文来源:真探AlphaSeeker, 东美哲慧, 智东西

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:人工智源库
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...