全行业都在卷大模型,如何将能力化为效益?To B市场成最佳场景

AI信息情报站 2023-09-12
2943 字丨阅读本文需 7 分钟

据知情人士透露,Facebook 和 Instagram 的母公司Meta正在开发一种新的人工智能系统,旨在与 OpenAI 提供的最先进模型一样强大。其目标是其新的人工智能模型(它希望在明年准备就绪)比两个月前发布的Llama 2 模型强大数倍。

计划中的系统(其细节仍可能发生变化)将帮助其他公司构建可生成复杂文本、分析和其他输出的服务。这是 Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg)今年年初成立的一个小组的工作成果,旨在加速所谓的生成式人工智能工具的开发,这些工具可以产生类似人类的表情。一些知情人士表示,Meta 预计于 2024 年初开始训练新的人工智能系统,即大型语言模型。

新模型的计划此前从未被报道过,这是扎克伯格在 Meta落后于竞争对手后将其确立为人工智能领域主要力量的努力的一部分。今年该领域的竞争急剧加剧,从最佳商业模式到如何监管技术等各个方面都产生了不同的看法。

该公司目前正在建设这项工作所需的数据中心,并购买更多的 H100,这是用于此类人工智能训练的最先进的芯片。一些知情人士表示,虽然 Meta 与微软合作,在微软的云计算平台 Azure 上提供 Llama 2,但它计划在自己的基础设施上训练新模型。

扎克伯格正在推动新模型像 Meta 早期的人工智能产品一样开源,因此可以免费供公司构建人工智能驱动的工具。

大模型发展的前世今生

自1956年,“人工智能”概念提出开始,已经有了近70年的发展历史,经历了三个发展阶段,即萌芽期(1950-2005),探索期(2006-2019),发展期(2020年以后),不过真正大模型的历史还要从2006年Deep Learning首次在Science上发表开始,然而在2012年之前,大模型的探索与学习的关注度并不是很高,经过了近10年的发展,人类在2022年因为ChatGPT的诞生而宣布进入强人工智能时代,其划时代意义也得道广泛认可。

2022年11月,OpenAI推出了搭载GPT3.5的ChatGPT,其逼真的自然语言交互与多场景内容生成能力,迅速火爆全网,2023年上半年的AI热潮也就此展开。

2023年,OpenAI发布超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。谷歌推出PaLM2模型,Meta发布LLaMA-13B,微软基于ChatGPT打造New Bing,Windows全面集成Copilot。

国内,百度率先发布文心一言,随后阿里、商汤、360、华为等企业纷纷发布自己的大模型,复旦、清华、哈工大、中科院等学院派,也发布了各自的大模型,中小非上市公司印象笔记、医联科技、左手医生等也推出了行业大模型,市场进入了“百模混战”格局。

大模型作为通用性技术,在自然语言处理、计算机视觉、语音识别、文本识别、推荐系统等多个领域均能展现其突出的作用,如何判断其市场规模在学术上仍有较多的争论,不同机构根据统计方法的不同,所得出的结论也有所出入。

其中,根据大模型之家的测算,预计到2023年,全球大模型市场规模将达到210亿美元,到2028年,其规模将达到1095亿美元。

根据国际数据公司IDC预测,全球AI计算市场规模将从2022年的195.0亿美元增长到2026年的346.6亿美元。其中,生成式AI计算市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元。

而中国庞大的市场需求和丰富的人才储备,为大模型的发展壮大提供了有利的客观条件,大数据之家预测,中国大模型产业市场规模将达到147亿元人民币,并在2028年达到1179亿元。

而IDC对基于大模型的AI市场规模进行了预测,预计中国人工智能市场规模在2023年将超过147亿美元,到2026年这一规模将超过264亿美元。

大模型时代技术到落地的鸿沟

有媒体报道称截至今年7月,中国累计已经有130个大模型问世,数量超过美国进入大模型第一梯队。大模型被称为新一代基础设施,但到产业侧,很多企业并没有真正把大模型用起来。而没有用起来的原因主要还是政策没有开放,但是产业端的热情是非常高的,比C端更甚。

一家主打“消费内容+营销服务”公司的CEO王峰告诉雷峰网,现在业界有一个说法,未来互联网上90%的内容都是由AI生成的,这意味着大模型对他们业务的挑战和冲击是非常大的,所以他们必须早做应对。

为了应对此次冲击,他们今年年初从原来的各Team中抽调出一部分人,成立了AI Lab团队,做大模型方面的探索和尝试。

在王峰看来,通用大模型的学习和适应能力还是很强的,大家都看到了它如何惊艳,但也存在一定的局限,例如我们和GPT或国内模型对话时,问它怎么挑选茶叶的问题,它只会泛泛的告诉你要注意什么?很多时候,输出的内容并没能直接帮助消费者去做决策。

所以在王峰看来,大模型不是万能的,局限之一就是不能解决垂类问题,这是当前很多产业侧企业没能用起来大模型能力的原因之一。

但从0开始基础大模型的预训练,资金投入需要非常大,对于他们这样的企业来说不现实,而且对于很多企业来说即便有资金也能难做到,数据,算力,know-how,维护等等都是一道道门槛,所以只能寻求向市面上现有的大模型厂商合作。

国内模型能力的卖方可分为两类:一类是BAT等大厂和大模型初创公司为主;此外还有大模型的中间商,主要是基于大模型开发应用型服务的创始团队,包括底层算力与框架的提供者,甚至还包括提供大模型微调的第三方公司。

经过一番调研后,王峰决定训练自己的模型:在别的大模型上,把自己所服务行业的专业知识灌进去做进一步训练与微调,训练完后在本地进行私有部署,再来解决对应垂类问题。

但是在这个过程中,他们又发现不知道该用哪一家的模型:目前国内已发布的大模型数量太多,如果他们要将所有的模型都验证一遍、一一对比模型的效果,那么所消耗的人力成本会非常大。

事实上,B 端企业客户往往自带场景与数据,是大模型落地的最佳检验场。但当理论落地现实,王峰的困境也是许多B端企业所面临的共同难题。

所以,基于上述原因,导致目前国内的大模型与行业之间犹如隔着一道高墙,墙的一边大模型能力无法释放,另一边的数字化需求无法得到满足。而且基于开放数据集训练的大模型不擅长专业知识,掌握行业数据的企业用户无法参与大模型的建设。

平台模式的To B解法

为了最大程度拆掉这堵墙,释放大模型能力到产业侧,让掌握行业数据的企业用户真正参与到大模型建设中来,百度智能云提出了自己的解决思路:千帆大模型平台+解决方案+AI原生应用。

基于此,为了帮助企业和开发者快速基于基础大模型再训练,搭建企业专属大模型,百度智能云推出了百度智能云千帆大模型平台,在千帆平台上,用户可以直接调用包括文心一言在内的42个大模型服务,也可以在千帆上开发、部署和调用自己的行业大模型。

千帆大模型平台为企业提供了大模型开发全流程工具链和整套环境,用户可以完成从大模型开发、训练、部署、应用开发的各个环节,经过升级后的千帆2.0整套的工具链覆盖了大模型研发的全生命周期,包括:数据管理、模型训练、评估&优化、预测服务和Prompt工程,端到端地帮助企业高效地开发和部署大模型应用,不断降低大模型技术门槛。

百度智能云前期在进行市场调研时,发现很多企业客户,在基础大模型的选型策略上越来越专业、越来越理智。

原来他们了解一家大模型厂商的基础大模型实力时,就是通过看榜单排名,现在他们选择一家大模型时,要结合自身场景和数据去调优,会考虑很多,例如模型的效果、开发的效率、使用成本。所谓使用成本,例如资源占用,这个模型多大,需要占多少资源;性能怎么样;针对企业任务去做调优,调优成本怎么样,这些都是企业在选择基础模型时候考虑的因素。

发展到今天,产业上大家开始认真去考虑大模型作为基础设施,怎么给自己带来价值,而不是像早期仅仅只是凑热闹。

基于上述B端用户对大模型的认知情况,千帆平台为了满足不同用户的诉求,还接入了国内外42个主流大模型,方便用户根据自身业务细分场景进行选择。

上述能清晰认知自身大模型应用场景,并进行不同程度大模型开发的企业多集中于互联网行业,他们对技术、行业认知通常排在前列,所以只要给他们提供好的完善的工具链和整套环境就能在千帆平台上“自助”满足自己的大模型需求。但在一些传统行业,他们场景复杂,对大模型技术认知不够,还必须大模型厂商深入行业,陪着企业一起梳理大模型应用场景,将大模型能力用起来。

文章来源: 半导体芯闻,雷峰网,钛媒体APP,投资快报

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:AI信息情报站
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...