AIGC掀起新浪潮:OpenAI进击之下,国内企业遭遇难题

小科工 2023-01-17
3854 字丨阅读本文需 9 分钟

2022年,可以说是当之无愧的AIGC元年——AI绘图和ChatGPT的发展,让大量圈外人用上了以前想都不敢想的技术。这些技术在国内甚至已经有了相当“亲民”的应用,比如有短视频、美图软件就将AI绘画作为滤镜、特效功能推向用户,吸引了不少流量。

AIGC背后充满了故事,在一家家企业手握巨额融资之时,人们耳边再次响起了警钟。诚然,在新的浪潮之下,符合商业规律的企业才能笑到最后。在国外竞品大踏步前行之际,国内的通用智能企业境遇如何?

前景很乐观,但当下似乎并没那么好过。

01引爆用户的AIGC

如果用一个字形容过去几个月的AIGC(AI Generated Content)/Generative AI那么应该是“火”。Midjourney的作品获得美国科罗拉多州博览会的数字艺术比赛一等奖,引发关注和广泛争论,有人戏称AIGC让每个画师都在担心失业。与此同时,今年相对沉寂的VC迎来新风口,连续轰炸的AIGC公司的融资消息和新闻让VC又一次产生FOMO (Fear of Missing Out)的情绪;DreamStudio、Midjourney等AI作画应用符合视觉消费的时代主题,引爆了C端热情。

AI生成其实一直都有,在2021年之前主要通过NLG生成文字,而要完成图片等视觉艺术品,则要基于生成对抗网络GAN,通过生成器和判别器不断对抗来训练模型。

通过GAN的算法训练,可以生成不错的图形,但也有很多问题难以解决,比如图形结果雷同,多样性缺乏;生成器有上升瓶颈,从而造成模式坍缩;以及训练难度高和成本大。

所以,尽管图形生已有不短的历史,包括像BigGAN,StyleGAN等的技术突破,但始终未能让产品真正商业化,只能停留在新奇好玩的阶段,直到Diffusion Model(扩散模型) 出现。

通过马尔科夫链,将文字描述文本经过处理后当做噪声不断添加到原图当中,从而让神经网络从无到有的生成了图片,这是扩散模型的作用原理。通过该模型,算法训练变得更加简洁,只需要添加大量图片,生成的结果相较GAN更具多样性。

但自2015年诞生的前五年,扩散模型并没有引起业界关注。直到2020年,一篇名为Denoising Diffusion Probabilistic Models 的论文终将这一模型用在了图像的生成上。

我们观察到新一波AIGC浪潮起源于2020年的预训练大模型GPT-3,现在火爆的图像生成、视频生成、3D生成等,本质是大模型从文本生成扩展到多模态,并结合原有模态算法进行实现(当然,以图片生成图片等本模态之间的AI生成,以及图像生成视频、2D生成3D等跨模态生成也是AIGC,例如VAE、StyleGAN、Nerf等与AI生成相关的模型都在GPT-3发布之前或之后提出,但这些方向的工作并非引爆新一波AIGC的主要原因)。因此,我们看到的大量AIGC应用,目前的表现形式大多为输入一句话,生成一句话/一张图/一段视频/一串代码等。

1750亿参数的GPT 3曾一度是AI历史上最大的机器学习模型,相比于15亿参数量的GPT 2,GPT 3参数量提高约117倍,预训练的数据量也从50 GB提高到的570 GB。2020年发布GPT 3的时候,OpenAI并没有将工作重点放在模型结构的创新上,反而是进行了大量工程化的工作,充分展示GPT 3通过Zero-Shot、One-Shot和Few-Shots(即不需要额外数据进行微调,直接给出几个样例就可以让模型做出正确的生成)等Prompt方法完成多种NLP任务的通用性和泛化能力。通过释放出API接口供公众调用,GPT-3的商业化也正式提上日程。GPT-3展示出惊人的效果后,一年后顶级实验室和科技大厂陆续发布自己的NLP预训练大模型,模型参数量呈现指数级别的增长。

02来自OpenAI的压力

似乎OpenAI的进步更快。

“我觉得我们和OpenAI的差距越来越大了”,一位AIGC从业者对数科星球(ID:digital-planet)这样表述。前些日子,在ChatGPT推出后,不仅是英文对话,在中文领域,该系统的用户体验也超越了国内的众多产品。以至于,一时间,人们的朋友圈被ChatGPT的对话刷屏。

“最早,我测试过一些特殊的中文语境,ChatGPT表现不好,不过最近我在测试的时候发现它进步很快”,这位技术人员曾以诸如“关公战秦琼”等有中文历史背景的话术测试机器人,他发现,最近这款产品在中文适配方面有了明显进步。

赤裸裸的对照实验结果出现后,技术派的内心是焦虑且复杂的。一些国内企业对我们表示,以目前的进度来看,光是追上OpenAI,就感觉“很吃力”。

虽然,目前OpenAI的终端产品由于众所周知的问题未在国内市场全面铺开,但对于具有技术理想的相关企业来说,这种滋味是十分难受的。有人将这种情况描述为北斗未出现时的导航行业,“从信创的角度考虑,中国的AIGC是肯定要有的,但技术差距也是不可忽视的”,一位投资人评价道。

客观来说,造成国内AIGC落后于同行的原因是多方面的:有A100显卡的获得受到制约、国内人才队伍发展较慢等诸多原因。其中,在硬件方面,大模型训练过于依赖进口GPU显卡,虽行业间出现了便宜的国产替代品,但以目前的技术水平,还不能给出满意的性能支持;而在人才队伍方面,一些行业人士称“算法工程师多,但会大模型的凤毛麟角”。

全局来看,当下,似乎仅有百度公司、清北高校等团队立志于全身心投入于此。大模型所谈者甚多,但行业“孤勇者”数量寥寥。

03国产AIGC的进击障碍

摆在通用智能或大模型发展之路的另一个障碍是小模型。

我们在文章中所提到的“大模型”概念是一个术语。之所以称之为大模型,因其在训练数据过程中引入多模态等数据,让数据标注的数量大规模增加,使之展现可打破行业藩篱的普适性。相对于小模型而言,具有通用性好、边际成本低、效率高等特点。

后来,OpenAI再次点燃人们对通用智能的期待。在一些具有前瞻思维的技术派眼里,大模型对于各行各业的影响将是摧枯拉朽式的,他们一致认为大模型是“当之无愧”的未来发展方向。也就是说,技术上,大模型的发展上限更高,其会在未来某个时间点达到各种小模型的用户体验阈值。

由于大模型的横空出世,小模型统治AI的格局被打破。应该说,就本质而言,两种技术路线背后代表着不同的利益。以至于,互联网上,网友对两种技术路线的讨论十分热烈:一会有人指责大模型是“大炼钢铁”,一会又有人攻讦小模型是“亚当斯密小作坊”式的抱残守缺。

客观来说,小模型在当今的市场竞争中仍然具有重大影响:从业者们通过算法微调、反复训练数据等措施下,一些产品收到了不错的效果,对于客户而言,甚至在一些领域内的结果要好于大模型产品。

其次,国内通用智能的AIGC缺少数据训练场景。

类似ChatGPT的训练场景尤为缺乏。在上文提到过的,这款产品之所以短时间之内进步神速,因大量用户为其充当了免费的数据标注员。不过,已目前情况来看,可与ChatGPT相较的数据训练场景在国内还鲜有见到。

另外,产业界对大模型有着浓烈的观望情绪。

在对谈多家相关企业后,数科星球(ID:digital-planet)发现了产业界对AIGC持观望态度的主要原因。概括来说,业界普遍存在这样的忧虑:目前大模型应用不成熟,骤而上马将会对原有业务造成冲击。

以电商售后和银行电话客服场景为例,目前行业内仍采用主流智能客服公司推出的QA问答库技术。客户企业希冀大模型产品能够解决QA库无法承担的长尾问题,覆盖到检索式问答路径无法涉足的领域,但金融行业的语料库等数据又不对外开放,让大模型企业不得不重头开始。

这都延迟了大模型进军具体行业的时间表。

目前,一些从业者透露,金融科技公司愿意为大模型企业提供“必要但不致命”的应用场景。在这些场景中,客户企业可以承受一定程度的容错,也愿意投入时间和资源支持大模型的进一步发展。“我们的主要客户来源于金融机构的创新部门,因为他们支持一些通用智能的事情”,一位销售人员对数科星球(ID:digital-planet)这样说。

“死马当活马医,反正没办法解决长尾,不如让大模型试试”,这是金融行业业内给出的真实看法。甘愿“冒风险试一试”的场景有公文写作、情感理解等。

总结而言,通用智能企业需要客单价高、数据训练场景丰富的派单需求,但这个问题又与企业的现实考量和预算投入相互矛盾。

没得数据用来训练、没得大钱(投资除外)养活产品,是摆在现实的两大难题。

04国内AIGC的扩散难

元宇宙爆火,燃遍各行各业。它能否成为助力通用型AIGC扩散的有力平台?

这是一个有趣的想象。答案是,可以,但很难。

目前,AIGC和元宇宙的发展虽然存在相关性,不过就目前的情况来看,二者还未完全合流,处在“你做你的、我做我的”的阶段。

举例来说,在一些社群中,我们曾讨论这样的使用场景:在在线绘画App中嵌入AIGC功能,使用户在提交绘画作品后自动生成AIGC图片。面对这个问题,某些供应商对数科星球(ID:digital-planet)分享:“实际上,在第三方App中嵌入AIGC难度很大,要有能力处理高并发,要低延时,从而不影响用户体验”,在他的想法中,甲方的需求可以满足,但如若在实时在线的基础上,成本颇高。

退而求其次,供应商给出了离线生成或自建图库的方式满足需求(自建图库是预先在系统保存大量已经生成的图片,用户有需求时直接调用)。但很明显,这种折中的方式违背了AIGC设计的初衷。时间长了,对于训练大模型更是无从谈起。

在同样爆火的数字人中,AIGC的应用场景也不算多。目前,市面上绝大多数数字人均属“服务型数字人”。它们被广泛应用在虚拟的办事大厅、博物馆、手语电视台的手语节目等场景之中。

剖开数字人产业链可以看得更加直观:在这个产业链中,底层为算法层,负责驱动面部表情和手势动作;中层为渲染层;上层为构成层,负责建立数字人图像。但除了底层“数字脑”领域,其他层面与通用智能结合较少。

在某知名投资机构投资人看来,“未来的数字人会相当多”,他认为,人们会拥有具有服务和陪伴属性的虚拟分身。但在技术上,想让人工智能具备情感陪伴功能还尚需时日,“至少目前技术是达不到的”,一位技术人员补充说。

整体来看,目前的数字人大多承担着IP形象功能,能说话的数字人还比较少。在一些先进的数字人中,“中之人”又是必不可缺的因素(其承担动作捕捉、虚拟拍摄、表情抓取和后期合成、渲染精修等工作的真人)。表面上,这种数字人比较高端,但其背后通常有大量人员为其服务,制作成本虽有所降低,但整体制作成本也并不低廉。

以上原因都阻止了AIGC或通用智能扩散至寻常百姓家。

结尾:企业显然不会坐以待毙。他们给出的策略大体分为三块:对外投资以扩充数据训练场景、夯实客户关系以获取现金流、堆人堆设备砸钱砸出大模型。

以上基本盘是投资机构给出的巨额投资。

“这好比把高科技做成了劳动密集型企业”,一个业内人士哂笑。不过,在当下的时间点,这是没办法的办法。技术上,只要机器足够、标注正确,哪怕是“堆”,也可达到预期目的。

钱的方面,高科技企业已下定决心“内卷”数字经济同行,有销售人员将其称之为“关系是第一生产力”。不过这种思路面临一个问题,就是大模型和通用智能的认知度要高。

“我们拜访了很多客户,但很多人其实根本不理解大模型”,一位业内人士对数科星球(ID:digital-planet)表述。在他的眼里,传统数字经济在新技术面前有巨大的提升空间。

举例来说,比如政务大屏。

“之前为调取一个地方数据,大屏只能靠下拉、下拉、再下拉的方式调用,而现在对语音助手说‘我要今年的生产情况’,就能自动生成”,这位业内人士解答,在他眼里,东西是好东西,但在买家面前变成了另外一个景色:“如果一个领导想做,他只需要1个理由去做,如果他不想做,他会找出100个理由不做”。

AIGC热潮高企,但一线销售人员往往会频频碰灰。在高科技浪潮风起云涌的当下,很多人承担着不能言说的苦衷。

文章来源: 数科星球,游戏葡萄,投中网,CSDN

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:小科工
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...