AIGC成为打开这些领域的“万能钥匙”,大模型“匹配”商业价值

微观人 2023-02-17
3592 字丨阅读本文需 9 分钟

当下,全世界互联网都刮起了一阵ChatGPT风。这款由OpenAI推出的全新聊天机器人模型,不仅可以回答人类的提问,承认自己的错误,还能作诗、编程甚至帮助大学生完成论文。它让马斯克感叹“好得吓人”,也代表AIGC向全世界喊出了“芝麻开门”。

在中国,围绕AIGC生长出的市场生态,已崭露头角。

“AIGC并不是一个多么新鲜的概念。”陈东谈到,大厂很多2C应用里,已经有不少内容是AI生成的,甚至出现过广告对外宣传已经在大规模使用AIGC技术,至少两年前就有这个方向的创业团队出现,并得到了一线美元基金的青睐和投资。

在他看来,AIGC不只是大厂的机会,也将新起很多创业公司。一类公司偏底层,在新场景中孕育大模型的突破,产研类似DALL·E、GPT等产生很多新模型;另外是在应用层中,也会出现很多新公司,包括生成文字、图像、视频、数字人等等。

在赶超ChatGPT的巨大诱惑下,大厂率先打响了追平基础大模型差距的“攻坚战”。

2月7日,经百度确认,百度类ChatGPT项目名字确定为“文心一言”,英文名ERNIE Bot,预计3月份完成内测,面向公众开放。除百度外,还有腾讯、阿里巴巴、快手、字节跳动、京东、网易、360、商汤、美图等大厂都在AIGC领域有所投入,加入到这场全球新一轮 AIGC 技术竞赛。

“好的人工智能大模型是非常费钱的。”在资深人工智能研究专家田涛源看来,这股预训练大模型的风潮之下,其实是一场拼数据、拼算力、拼财力的军备竞赛长跑。

他介绍,基础模型GPT3.5训练一次需要花费300-460万美金,还只是算力的成本,没算人才的成本,Open AI一共375人左右,一年工资开支就要2亿美金,算力开支5亿美元。“这真是很贵,而且前面那么多年是没商业回报的,基础模型的参数又是持续优化的过程,随着商业化进展加速要不断进行训练,需要雄厚的资本支撑,确实是小公司用不起来。”

但对于基础大模型、应用大模型未来的商业价值,行业从业者都有共识、有期待。

“AIGC生态最值得关注的就是大模型的建设能力,这将成为AIGC长期价值的重要增长点。”AI创业者“web3天空之城城主”激动地说,“这是用短期的投入换10年后千倍收益的事情。”

另一面,在细分行业中,AIGC的造富速度同样让人们睁大眼睛。

去年10月19日,以文字生成为主的AIGC项目Jasper.Ai完成了1.25亿美元的A轮融资。完成融资后,凭借15亿美元的估值跻身AIGC赛道独角兽俱乐部。就在Jasper.Ai宣布融资的前一天,Stability AI成功融得资金1.01亿美元,投后估值达10亿美元。

在AIGC的垂直技术场景中,按照模态区分,可以分为音频生成、文本生成、图像生成、视频生成等细分领域,均已出现中国企业的探索身影。

AIGC技术和产业生态

迎来发展快车道

AIGC的大爆发不仅有赖于AI技术的突破创新,还离不开产业生态快速发展的支撑。在技术创新方面,生成算法、预训练模型、多模态技术等AI技术汇聚发展,为AIGC的爆发提供了肥沃的技术土壤。

第一,基础的生成算法模型不断突破创新。比如为人熟知的GAN、Transformer、扩散模型等,这些模型的性能、稳定性、生成内容质量等不断提升。得益于生成算法的进步,AIGC现在已经能够生成文字、代码、图像、语音、视频、3D物体等各种类型的内容和数据。

第二,预训练模型,也即基础模型、大模型,引发了AIGC技术能力的质变。虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。而预训练模型能够适用于多任务、多场景、多功能需求,能够解决以上诸多痛点。预训练模型技术也显著提升了AIGC模型的通用化能力和工业化水平,同一个AIGC模型可以高质量地完成多种多样的内容输出任务,让AIGC模型成为自动化内容生产的“工厂”和“流水线”。正因如此,谷歌、微软、OpenAI等企业纷纷抢占先机,推动人工智能进入预训练模型时代。

第三,多模态技术推动了AIGC的内容多样性,进一步增强了AIGC模型的通用化能力。多模态技术使得语言文字、图像、音视频等多种类型数据可以互相转化和生成。比如CLIP模型,它能够将文字和图像进行关联,如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。这为后续文生图、文生视频类的AIGC应用的爆发奠定了基础。

未来,算法的进步将带来更多激动人心的应用,语言模型会得到进一步发展,可以自我持续学习的多模态AI将日益成为主流,这些因素会进一步推动AIGC领域的蓬勃发展。

在产业生态方面,AIGC领域正在加速形成三层产业生态并持续创新发展,正走向模型即服务(MaaS)的未来。

目前,AIGC产业生态体系的雏形已现,呈现为上中下三层架构。

第一层是基础层,以预训练模型为基础搭建的AIGC技术基础设施层。在国外,以OpenAI、Stability.ai为代表,通过受控API、开源等方式输出模型能力。

第二层是中间层,是在预训练模型基础上,通过专门的调试和训练,快速抽取形成垂直化、场景化、定制化的小模型和应用工具层,可以实现工业流水线式部署,同时兼具按需使用、高效经济的优势。比如,知名的二次元画风生成模型Novel-AI,以及各种风格的角色生成器等,就是基于Stable Diffusion开源进行的二次开发。随着AIGC模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,预计将对商业领域产生巨大影响。

第三层是应用层,依托底层模型和中间层的垂直模型,各厂商进一步开放面向C端和B端用户的各种各样的AIGC产品和服务,满足海量用户的内容创建和消费需求。例如群聊机器人、文本生成软件、头像生成软件等AIGC消费工具。

目前,从提供预训练的AI大模型的基础设施层公司到专注打造垂直领域内AIGC工具的中间层公司、再到直接面对消费者和终端用户提供产品和服务的应用层公司,美国围绕AIGC生长出繁荣的生态,技术创新引发的应用创新浪潮迭起;中国也有望凭借领先的AIGC技术赋能千行百业。

AIGC大模型的未来展望

1、应用层:多模态内容生成更加智能,深入各行业应用场景

上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后, AIGC 内容能进入商用后,必然会更深入地与业界的实际应用进行结合:

以游戏行业为例, AI 作画给了非美术专业工作者,如游戏策划快速通过视觉图像表达自己需求和想法的机会;而对美术画师来说,它能够在前期协助更高效、直接地尝试灵感方案草图,在后期节省画面细节补全等人力。

此外,在影视动画行业、视频特效领域,甚至是文物修复专业,AI 图片生成的能力都有很大想象空间。当然,这个领域 AI 的能力也有着不小的进步空间,在下面的未来展望部分进行阐发。

目前 AIGC 存在 Prompt Engineering 的现象,即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷,被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化,不会是常态,但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。

2、模态层:3D生成、视频生成 AIGC 未来3-5年内有明显进步

多模态(multimodal)指不同信息媒介之间的转换。

当前 AI 作图过程中暴露的问题会成为视频生成模型的阿喀琉斯之踵。

例如:AI 作画的空间感和物理规则往往是缺失的,镜面反射、透视这类视觉规则时常有所扭曲;AI 对同一实体的刻画缺少连续性。根本原因可能是目前深度学习还难以基于样本实现一些客观规则泛化,需要等待模型结构的优化进行更新。

3D生成领域也有很大价值:3D 图纸草图、影视行业模拟运镜、体育赛场现场还原,都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。

2020年,神经辐射场(NeRF)模型发布,可以很好的完成三维重建任务:一个场景下的不同视角图像提供给模型作为输入,然后优化 NeRF 以恢复该特定场景的几何形状。

基于该技术,谷歌在2022年发布了 Dream Fusion 模型,能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间,预期在未来3-5年内会取得突破性进展,推动视频生成的进步。

3、模型层:大模型参数规模将逼近人脑神经元数量

近年的大模型并未对技术框架做颠覆性创新,文本和图像生成领域在大模型出现前,已有较成熟方案。但大模型以量变产生质变。

从神经网络角度看,大脑有约 100 万亿神经元, GPT-3 有 1750 亿参数,还相差了 1000 倍的数量级,随着算力进步可以发展的空间还很大。

神经网络本质是对高维数据进行复杂的非线性组合,从而逼近所观测数据分布的最优解,未来一定会有更强的算力、更精妙的参数堆叠结构,来刷新人们对AI生成能力的认知。

4、成本结构决定大模型市场的马太效应

大模型最直接的成本便是能源成本(energy cost),GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ,大科技公司才能训练大模型。

但随着近年模型压缩、硬件应用的进步,GPT-3 量级的模型成本很可能已降至百万美元量级,Stable Diffusion 作为一个刚发布一个月的产品,已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。

在这样的背景下,算力成本在未来必然会逐渐变得更合理,但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。

大模型有明显的先发优势,来自巨大的隐形成本:智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化,甩开后发的竞争者,达到模型性能的规模效应。

AI 的进化来自于数据的积累和充分吸收。深度学习,乃至当前的所有机器学习都是基于历史预估未来,基于已有的数据给到最接近真实的可能。

正如前文讨论的,OpenAI 的目标从来不是留恋于某个局部行业的商业产品,而是通过模型规模经济,不断地降低人类社会全局的智能成本,逼近通用人工智能 AGI。规模经济正体现在智能成本上。

5、虚拟世界的 AGI 会先于现实世界诞生

从更宏观的视角上,虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景,都对 Corner Case 要求极高。

对于AI模型而言,一件事超过他们的经验范畴(统计上out of distribution),模型将立马化身人工智障,不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损,造成数据积累过程中极大的试错成本。

虚拟世界则不同,绘图时遇到错位扭曲的图片,大家会在 Discord 中交流一笑了之;游戏 AI 产生奇怪行为,还可能被玩家开发出搞怪玩法、造成病毒传播。

因此虚拟世界,尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本,能很顺畅地形成低成本的正向循环。

伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成,虚拟世界内容场景下的 AI 很可能更早触及到 AGI。

文章来源: 光明网,报人刘亚东,天极网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...