云计算成AI计算最佳“承载”者,全球掀起智算中心建设热潮

智者先行 2023-06-29
2164 字丨阅读本文需 5 分钟

据路透社报道,甲骨文 Oracle 创始人兼董事长 Larry Ellison 周三表示,甲骨文公司正在花费“数十亿美元”购买英伟达公司的芯片,以扩展针对新一波 AI 人工智能浪潮的云计算服务。

甲骨文的云部门正在努力与亚马逊网络服务和微软公司等规模更大的竞争对手抗衡。为了获得优势,甲骨文把目标瞄准了构建快速网络,该网络可以处理类似于 ChatGPT 的 AI 系统所需的大量数据。

甲骨文还购买了大量 GPU,用于处理人工智能工作的数据。Ellison 在 Ampere 会议上表示,甲骨文花费了“数十亿”美元购买英伟达芯片。

Ellison 表示:“今年,甲骨文将从三个公司购买 GPU 和 CPU,我们将从英伟达购买 GPU,预计将花费数十亿美元。我们还将在 Ampere 和 AMD 的 CPU 上花费三倍的资金。此外,甲骨文在传统计算上将花费更多的钱。”

甲骨文上个月表示,它已与人工智能初创公司 Cohere(注:由前谷歌工程师创立)达成协议,根据该协议,Cohere 将提供甲骨文数据中心超级计算机上运行的人工智能软件,每个数据中心配备多达 16000 个英伟达芯片。

AI如何影响云计算?

ChatGPT在全球市场的成功,引发全球主要科技企业在AI领域的军备竞赛,而云平台作为计算层面最为理想的承载者,有望持续受益全球AI产业的发展。目前,全球三大云计算巨头(亚马逊、谷歌、微软)均发布与LLM以及生成式AI相关的产品。但三大云厂商在布局思路、商业化路径等方面存在一定分叉,微软、谷歌依靠闭源模型,全力打造闭环的AI生态,而AWS则以相对开放的心态,尝试从不同角度进行AI与云计算的融合。我们判断,三大云厂商在云基础设施、模型应用以及商业细分场景有望持续受益,并有望带来可观的业绩增量。

AI算法能力:技术储备决定路线选择

自2023年3月开始,微软&谷歌在各自的云产品中加入了大量以AI模型能力为底层的服务,并提供从硬件到模型再到上游应用的闭环AI服务。相比之下,亚马逊在产品结构的改变上以单点为主,提供了Amazon Bedrock(构建大语言模型过程中的便捷API服务)等产品,并将更多精力放在开源模型以及相关硬件开发中。从根本上来看,决定微软&谷歌与亚马逊&Meta在当前对待AI能力的不同路线的是当前各家厂商间的大语言模型技术能力差异。微软&谷歌依靠其相对优势的技术能力,从开源走向闭源,全力打造围绕底层模型能力的闭环AI生态。亚马逊等,更倾向于培养开源社区共同迭代模型以缩小差距,重视底层硬件研发,多角度尝试AI与云融合的可能性。

底层基础设施:计算架构升级,不断追求系统效率最优

考虑到AI对算力的需求,GPU成为AI计算的理想载体,而对云厂商而言,此前大量的基础设施由CPU架构贡献,其计算实例产品(虚拟机、弹性计算等)通常由CPU负载,并不适合当前生成式AI对计算的需求。因此我们看到,自ChatGPT兴起以来,北美三大云厂商加速了GPU等泛AI计算实例的升级速度,例如微软N系列虚拟机、谷歌新增H100超算预览以及亚马逊对训练&推理芯片的自研等。此外,为了满足数据吞吐、并行计算的要求,三大云厂商亦同步进行编排和管理高性能计算 (HPC) 环境的配套软件环境与硬件链接。因此后续来看,我们认为云厂商会持续提升GPU以及自研芯片实例在其计算业务线的比例。

商业模式:基于MaaS、插件、软件等维度进行商业化

我们看到以微软+OpenAI、谷歌等为代表的,具备封闭模型的厂商,可以通过直接出售模型API接口、模型调优的方式,提供最先进的闭源模型进行MaaS类服务,目前微软已经放开API的调用,谷歌、亚马逊仍在预览阶段。对于细分场景,云厂商亦可以提供插件进行细分领域的服务。在应用侧,微软Copilot、谷歌Duet AI等产品作为生产力工具进行赋能,提升办公人员等效率。根据两家公司披露,上述软件产品预计将在未来数月逐步开启商业化,我们判断随着软件渗透率的持续提升,将为云厂商带来可观的收入规模。

算力需求大幅增加,云计算拐点将至

云计算与AI相辅相成,密不可分。一方面,ChatGPT的迭代与训练均离不开算力、数据和技术, 在ChatGPT被广泛运用的背景下,底层基础设施(IaaS)将迎来新一轮景气度上行,同时也将倒 逼云厂商提高算力,从而满足海量数据调度的需求。另一方面,ChatGPT的孵化也将反哺云厂商 的AI能力,随着ChatGPT与云产品的加速融合,行业加速朝“自动化”、“数智化”发展进程, 产品竞争力进一步夯实,商业价值也将逐渐显现。

GPT模型的参数量呈指数级增长:2018年6月发布的GPT-1参数量为1.17亿,2019年2月发布的 GPT-2参数量为15亿,2020年5月的GPT-3参数量则已经达到了1750亿。 ChatGPT强大交互的背后,离不开背后算力的有力支撑。据OpenAI团队发表于2020年的论文 《Language Models are Few-Shot Learners》,训练一次13亿参数的GPT-3 XL模型需要的全部 算力约为27.5PFlop/s-day,训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day。 ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来,参数量与GPT-3 XL模型接近。

算力需求测算:训练大语言模型需要训练成本和推理成本。训练成本方面,假设模型参数1750亿, 算力利用率40%,训练时长1个月计算,需要15531块A100 GPU,1941个8-GPU服务器。推理成 本方面,假设月活跃用户1亿,用户平均每人每天3次提问,每天提供3亿次回答,单次响应回答50 个单词,A100 GPU生成一个单词约350毫秒计算,需要60764块A100 GPU,7596个8-GPU服务 器。

加大AI算力投入,智算中心建设加速推进

国内智能算力规模高速增长,对智能算力的需求逐渐成为主流。近年来,智能算力对于提升国家、 区域经济核心竞争力的重要作用已经成为业界共识,伴随ChatGPT的诞生,建设智能算力的重要性 再次被重申。根据IDC数据显示,2021年中国智能算力规模达155.2 每秒百亿亿次浮点运算 (EFLOPS),2022年智能算力规模将达到268.0 EFLOPS,预计到2026年智能算力规模将进入每 秒十万亿亿次浮点计算(ZFLOPS)级别,达到1271.4 EFLOPS,2021-2026年年复合增长率达 52.3%。 目前,国家在8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群,协调区域平衡化 发展,推进集约化、绿色节能、安全稳定的算力基础设施的建设。

2020年开始,各地方政府掀起了智算中心的建设热潮。据国家信息中心与相关部门联合发布的《智 能计算中心创新发展指南》显示,目前全国有超过30个城市正在建设或提出建设智算中心。

文章来源: 金融界,未来智库,IT之家

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:智者先行
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...