AIGC竞争的本质是什么?网络能力是运行基石,海量算力是成功前提

IT猿人 2023-04-23
2748 字丨阅读本文需 7 分钟

2023年,是AI人工智能技术全面爆红的一年。

以ChatGPT、GPT-4、文心一言为代表的AIGC大模型,集文本撰写、代码开发、诗词创作等功能于一体,展现出了超强的内容生产能力,带给人们极大震撼。

作为一个通信老司机,除了AIGC大模型本身之外,更加关注的,是模型背后的通信技术。到底是一张怎样的强大网络,在支持着AIGC的运转?此外,AI浪潮的全面来袭,将对传统网络带来怎样的变革?

AIGC,到底需要多大的算力?

众所周知,数据、算法和算力,是人工智能发展的三大基本要素。

人类的算力规模,已经发展到了一定程度。强大的算力基础设施,完全能够支撑AIGC的计算需求。

AIGC发展到现在,训练模型参数从千亿级飙升到了万亿级。为了完成这么大规模的训练,底层支撑的GPU数量,也达到了万卡级别规模。

以ChatGPT为例,他们使用了微软的超算基础设施进行训练,据说动用了10000块V100 GPU,组成了一个高带宽集群。一次训练,需要消耗算力约3640 PF-days(即每秒1千万亿次计算,运行3640天)。

一块V100的FP32算力,是0.014 PFLOPS(算力单位,等于每秒1千万亿次的浮点运算)。一万块V100,那就是140 PFLOPS。

也就是说,如果GPU的利用率是100%,那么,完成一次训练,就要3640÷140=26(天)。

GPU的利用率是不可能达到100%,如果按33%算(OpenAI提供的假设利用率),那就是26再翻三倍,等于78天。

可以看出,GPU的算力、GPU的利用率,对大模型的训练有很大影响。

那么问题来了,影响GPU利用率的最大因素,是什么呢?

答案是:网络。

一万甚至几万块的GPU,作为计算集群,与存储集群进行数据交互,需要极大的带宽。此外,GPU集群进行训练计算时,都不是独立的,而是混合并行。GPU之间,有大量的数据交换,也需要极大的带宽。

如果网络不给力,数据传输慢,GPU就要等待数据,导致利用率下降。利用率下降,训练时间就会增加,成本也会增加,用户体验会变差。

业界曾经做过一个模型,计算出网络带宽吞吐能力、通信时延与GPU利用率之间的关系,如下图所示:

大家可以看到,网络吞吐能力越强,GPU利用率越高;通信动态时延越大,GPU利用率越低。

一句话,没有好网络,别玩大模型。

AI对通信网的三个需求

AI模型通常是采用分布式训练的方式进行计算,分布式训练需要多台主机之间同步参数、梯度,以及中间变量。对于大模型而言,单次的参数同步量一般都在百MB~GB的量级,因此需求网络高带宽。

现在,25Gbps带宽的网络已经成为数据中心内的主流,40Gbps、100Gbps甚至200Gbps的网络都开始逐步使用,那是不是直接用大带宽网络就能提升GPU集群的性能呢?

业内相关专家告诉《通信产业报》全媒体记者,其实并不尽然,研究表明,40Gbps和100Gbps的网络根本无法充分利用其带宽,原因是网络协议栈的开销影响了传输性能。因此,AI对通信网的第一个要求就是能够充分利用现在以太网的大带宽。

此外,大模型训练一般会将数据并行、流水线并行、张量并行等多种并行模式混合使用,以充分利用集群的算力。无论是哪种并行模式,多机之间都会涉及一种叫AllReduce的集合通信。一个AllReduce任务包含多个点对点的通信,而AllReduce的完成需要所有点对点通信都成功完成,因此集合通信存在“木桶效应”,即AllReduce的完成时间,由其中最慢的点对点通信时间决定。

正因为如此,大模型训练对网络提出了另外两个要求。

一是链路负载均衡要做到完美。因为“木桶效应”,只要有一条链路出现负载不均导致网络拥塞,成为了木桶的短板,那么即使其它链路都畅通无阻,集合通信时间仍然会大幅增加,从而影响训练效率。当前的负载均衡技术基于能做到流比较多时的一个近似均衡散列,并不能保证所有链路都完美均衡开。因此,寻找一种完美的负载均衡技术,是提升机器学习大模型训练效率的关键。

二是网络出现故障能快速恢复。随着集群规模增大,链路故障在所难免。类似的,一条链路故障就会导致整个AllReduce通信停滞,进而使模型训练停滞。如何做到故障后快速恢复,哈希随机,只最好是上层训练业务不感知,是保障一个AI大规模集群性能的关键。

人工智能应用浪潮有望迅速拉动云计算需求提升

人工智能(AI)是指由机器展示的智能,即计算机基于大数据模拟人脑的各项功能,例如推理、视觉识别、 语义理解、学习能力及规划与决策能力等,人工智能生成内容(AIGC)是指利用人工智能技术来生成内容,包 括绘画、作曲、剪辑、写作等。AIGC 的萌芽可追溯到上世纪 50 年代,90 年代从实验性向实用性逐渐转变, 但受限于算法瓶颈,无法直接生成内容,从 21 世纪 10 年代开始,随着以生成对抗网络(GAN)为代表的深度 学习算法的提出和迭代,AIGC 迎来了快速发展阶段。

市场需求推动 AIGC 技术加速落地。1)降低人力和时间成本:AIGC 可以帮助人们完成许多繁琐工作,从 而节省人力资本和工作时间,并可以在相同的时间内产出更多内容。2)改善内容质量。AIGC 被认为是继专业 生产内容(PGC)、用户生产内容(UGC)之后的新型内容生产方式。尽管 PGC 和 UGC 的内容更具多元化、 个性化,但受限于激励措施和创作者自身因素影响,市场存在供给不足的现象。3)促进产业数字化,助力数字 经济发展。产业数字化是数字经济的融合部分,是传统产业应用数字技术所带来的生产数量和效率提升,其新 增产出构成数字经济的重要组成部分,AIGC 为数字经济提供了重要的数据要素。

近期,ChatGPT 的爆红引发了人们对于人工智能发展的高度关注。2022 年 11 月 30 日,OpenAI 发布语言 模型 ChatGPT。该模型采用对话的形式与人进行交互,可以回答后续问题、承认错误、挑战不正确的前提、拒 绝不适当的请求。ChatGPT 不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方 面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。

ChatGPT 用户数攀升。据瑞银集团数据显示,ChatGPT 推出仅两个月后月活用户已经突破 1 亿,成为史上 用户增长速度最快的消费级应用程序。根据 Sensor Tower 数据显示,TikTok 达到 1 亿用户用了 9 个月,Instagram 则花了 2 年半的时间。2023 年 1 月,ChatGPT 平均每天大约有 1300 万独立访客,是 2022 年 12 月的两倍之多。

ChatGPT 运行背后需要强大的云计算算力支撑。OpenAI 在 2018 年推出的 GPT 参数量为 1.17 亿,预训练 数据量约 5GB,而 GPT-3 参数量达 1750 亿,预训练数据量达 45TB。在模型训练阶段,ChatGPT 的总算力消耗 约为 3640PF-days,总训练成本为 1200 万美元。在服务访问阶段则会有更大消耗,据测算,仅满足当前 ChatGPT 日常用户搜索访问,使用服务器(GPU)进行处理,对应算力基础设施初始投入成本约为 30-40 亿美元。2 月 7 日晚,ChatGPT 再次因访问量激增而宕机,体现出 AI 应用对于云计算的海量算力需求。

IDC 数据显示:2021 年全球人工智能 IT 投资额为 929.5 亿美元,预计 2026 年将增至 3014.3 亿美元,复合 年增长率约 26.5%。中国市场,2026 年 AI 投资预计将达 266.9 亿美元,约占全球投资 8.9%,居世界第二位, 复合年增长率约 21.7%。未来五年,硬件市场将成为中国人工智能市场最大的一级市场,占人工智能总投资的 50%以上。IDC 预测,2026 年,中国在人工智能硬件市场的 IT 投资将超过 150 亿美元,接近美国人工智能硬件 的市场规模,五年复合年增长率 16.5%。服务器作为硬件市场的主要组成部分,在五年预测期内将占 80%以上。 人工智能的发展将对算力提出更高要求,算力网络基础设施需求有望持续提升。

根据中国信通院数据,2021 年全球计算设备算力总规模达到 615EFlops(每秒浮点运算次数),同比增长 44%,其中基础算力规模为 369EFlops, 智能算力规模为 232EFlops,超算算力规模为 14EFlops,预计 2030 年全球算力规模将达到 56ZFlps,平均年均 增长 65%。我国智能算力规模持续高速增长,2021 年智能算力规模已经超过通用算力。根据中国信通院数据, 我国计算设备算力总规模达到 202EFlops,全球占比约为 33%,保持 50%以上的高速增长态势,增速高于全球, 其中智能算力增长迅速,增速为 85%,在我国算力中的占比超过 50%。

文章来源: 通信产业报,未来智库,鲜枣课堂

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:IT猿人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...