橙色云资讯 - 工业互联网行业信息门户

AIGC竞争的本质是什么？网络能力是运行基石，海量算力是成功前提

IT猿人 2023-04-23

2748 字丨阅读本文需 7 分钟

2023年，是AI人工智能技术全面爆红的一年。

以ChatGPT、GPT-4、文心一言为代表的AIGC大模型，集文本撰写、代码开发、诗词创作等功能于一体，展现出了超强的内容生产能力，带给人们极大震撼。

作为一个通信老司机，除了AIGC大模型本身之外，更加关注的，是模型背后的通信技术。到底是一张怎样的强大网络，在支持着AIGC的运转？此外，AI浪潮的全面来袭，将对传统网络带来怎样的变革？

AIGC，到底需要多大的算力？

众所周知，数据、算法和算力，是人工智能发展的三大基本要素。

人类的算力规模，已经发展到了一定程度。强大的算力基础设施，完全能够支撑AIGC的计算需求。

AIGC发展到现在，训练模型参数从千亿级飙升到了万亿级。为了完成这么大规模的训练，底层支撑的GPU数量，也达到了万卡级别规模。

以ChatGPT为例，他们使用了微软的超算基础设施进行训练，据说动用了10000块V100 GPU，组成了一个高带宽集群。一次训练，需要消耗算力约3640 PF-days（即每秒1千万亿次计算，运行3640天）。

一块V100的FP32算力，是0.014 PFLOPS（算力单位，等于每秒1千万亿次的浮点运算）。一万块V100，那就是140 PFLOPS。

也就是说，如果GPU的利用率是100%，那么，完成一次训练，就要3640÷140=26（天）。

GPU的利用率是不可能达到100%，如果按33%算（OpenAI提供的假设利用率），那就是26再翻三倍，等于78天。

可以看出，GPU的算力、GPU的利用率，对大模型的训练有很大影响。

那么问题来了，影响GPU利用率的最大因素，是什么呢？

答案是：网络。

一万甚至几万块的GPU，作为计算集群，与存储集群进行数据交互，需要极大的带宽。此外，GPU集群进行训练计算时，都不是独立的，而是混合并行。GPU之间，有大量的数据交换，也需要极大的带宽。

如果网络不给力，数据传输慢，GPU就要等待数据，导致利用率下降。利用率下降，训练时间就会增加，成本也会增加，用户体验会变差。

业界曾经做过一个模型，计算出网络带宽吞吐能力、通信时延与GPU利用率之间的关系，如下图所示：

大家可以看到，网络吞吐能力越强，GPU利用率越高；通信动态时延越大，GPU利用率越低。

一句话，没有好网络，别玩大模型。

AI对通信网的三个需求

AI模型通常是采用分布式训练的方式进行计算，分布式训练需要多台主机之间同步参数、梯度，以及中间变量。对于大模型而言，单次的参数同步量一般都在百MB~GB的量级，因此需求网络高带宽。

现在，25Gbps带宽的网络已经成为数据中心内的主流，40Gbps、100Gbps甚至200Gbps的网络都开始逐步使用，那是不是直接用大带宽网络就能提升GPU集群的性能呢？

业内相关专家告诉《通信产业报》全媒体记者，其实并不尽然，研究表明，40Gbps和100Gbps的网络根本无法充分利用其带宽，原因是网络协议栈的开销影响了传输性能。因此，AI对通信网的第一个要求就是能够充分利用现在以太网的大带宽。

此外，大模型训练一般会将数据并行、流水线并行、张量并行等多种并行模式混合使用，以充分利用集群的算力。无论是哪种并行模式，多机之间都会涉及一种叫AllReduce的集合通信。一个AllReduce任务包含多个点对点的通信，而AllReduce的完成需要所有点对点通信都成功完成，因此集合通信存在“木桶效应”，即AllReduce的完成时间，由其中最慢的点对点通信时间决定。

正因为如此，大模型训练对网络提出了另外两个要求。

一是链路负载均衡要做到完美。因为“木桶效应”，只要有一条链路出现负载不均导致网络拥塞，成为了木桶的短板，那么即使其它链路都畅通无阻，集合通信时间仍然会大幅增加，从而影响训练效率。当前的负载均衡技术基于能做到流比较多时的一个近似均衡散列，并不能保证所有链路都完美均衡开。因此，寻找一种完美的负载均衡技术，是提升机器学习大模型训练效率的关键。

二是网络出现故障能快速恢复。随着集群规模增大，链路故障在所难免。类似的，一条链路故障就会导致整个AllReduce通信停滞，进而使模型训练停滞。如何做到故障后快速恢复，哈希随机，只最好是上层训练业务不感知，是保障一个AI大规模集群性能的关键。

人工智能应用浪潮有望迅速拉动云计算需求提升

人工智能（AI）是指由机器展示的智能，即计算机基于大数据模拟人脑的各项功能，例如推理、视觉识别、语义理解、学习能力及规划与决策能力等，人工智能生成内容（AIGC）是指利用人工智能技术来生成内容，包括绘画、作曲、剪辑、写作等。AIGC 的萌芽可追溯到上世纪 50 年代，90 年代从实验性向实用性逐渐转变，但受限于算法瓶颈，无法直接生成内容，从 21 世纪 10 年代开始，随着以生成对抗网络（GAN）为代表的深度学习算法的提出和迭代，AIGC 迎来了快速发展阶段。

市场需求推动 AIGC 技术加速落地。1）降低人力和时间成本：AIGC 可以帮助人们完成许多繁琐工作，从而节省人力资本和工作时间，并可以在相同的时间内产出更多内容。2）改善内容质量。AIGC 被认为是继专业生产内容（PGC）、用户生产内容（UGC）之后的新型内容生产方式。尽管 PGC 和 UGC 的内容更具多元化、个性化，但受限于激励措施和创作者自身因素影响，市场存在供给不足的现象。3）促进产业数字化，助力数字经济发展。产业数字化是数字经济的融合部分，是传统产业应用数字技术所带来的生产数量和效率提升，其新增产出构成数字经济的重要组成部分，AIGC 为数字经济提供了重要的数据要素。

近期，ChatGPT 的爆红引发了人们对于人工智能发展的高度关注。2022 年 11 月 30 日，OpenAI 发布语言模型 ChatGPT。该模型采用对话的形式与人进行交互，可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求。ChatGPT 不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力，还具有生成代码、调试代码、为代码生成注释的能力。

ChatGPT 用户数攀升。据瑞银集团数据显示，ChatGPT 推出仅两个月后月活用户已经突破 1 亿，成为史上用户增长速度最快的消费级应用程序。根据 Sensor Tower 数据显示，TikTok 达到 1 亿用户用了 9 个月，Instagram 则花了 2 年半的时间。2023 年 1 月，ChatGPT 平均每天大约有 1300 万独立访客，是 2022 年 12 月的两倍之多。

ChatGPT 运行背后需要强大的云计算算力支撑。OpenAI 在 2018 年推出的 GPT 参数量为 1.17 亿，预训练数据量约 5GB，而 GPT-3 参数量达 1750 亿，预训练数据量达 45TB。在模型训练阶段，ChatGPT 的总算力消耗约为 3640PF-days，总训练成本为 1200 万美元。在服务访问阶段则会有更大消耗，据测算，仅满足当前 ChatGPT 日常用户搜索访问，使用服务器（GPU）进行处理，对应算力基础设施初始投入成本约为 30-40 亿美元。2 月 7 日晚，ChatGPT 再次因访问量激增而宕机，体现出 AI 应用对于云计算的海量算力需求。

IDC 数据显示：2021 年全球人工智能 IT 投资额为 929.5 亿美元，预计 2026 年将增至 3014.3 亿美元，复合年增长率约 26.5%。中国市场，2026 年 AI 投资预计将达 266.9 亿美元，约占全球投资 8.9%，居世界第二位，复合年增长率约 21.7%。未来五年，硬件市场将成为中国人工智能市场最大的一级市场，占人工智能总投资的 50%以上。IDC 预测，2026 年，中国在人工智能硬件市场的 IT 投资将超过 150 亿美元，接近美国人工智能硬件的市场规模，五年复合年增长率 16.5%。服务器作为硬件市场的主要组成部分，在五年预测期内将占 80%以上。人工智能的发展将对算力提出更高要求，算力网络基础设施需求有望持续提升。

根据中国信通院数据，2021 年全球计算设备算力总规模达到 615EFlops（每秒浮点运算次数），同比增长 44%，其中基础算力规模为 369EFlops，智能算力规模为 232EFlops，超算算力规模为 14EFlops，预计 2030 年全球算力规模将达到 56ZFlps，平均年均增长 65%。我国智能算力规模持续高速增长，2021 年智能算力规模已经超过通用算力。根据中国信通院数据，我国计算设备算力总规模达到 202EFlops，全球占比约为 33%，保持 50%以上的高速增长态势，增速高于全球，其中智能算力增长迅速，增速为 85%，在我国算力中的占比超过 50%。

文章来源：通信产业报，未来智库，鲜枣课堂

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：IT猿人

0 0

参与评论

登录后参与讨论 0/1000

下一篇海量煤电项目的核准，是否会产生新一轮产能过剩？

长期以来，煤电都在我国的电力系统中占据着...

2023-08-29

AIGC竞争的本质是什么？网络能力是运行基石，海量算力是成功前提

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

AIGC竞争的本质是什么？网络能力是运行基石，海量算力是成功前提

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总