国产企业追逐AI产业的“电力”,已取得哪些成效?

人工智源库 2023-07-10
3066 字丨阅读本文需 8 分钟

7月6日,中国工程院院士高文在昇腾人工智能产业高峰论坛上发表演讲,高文院士表示,算力建设非常重要,就像电力一样。按照高文的说法,算力够,数字经济就能够发展好,算力指数和GDP是正相关的关系,算力越强GDP就越强。

在这之前,清华大学智能科学讲席教授、智能产业研究院院长张亚勤院士表示算力不会卡AI人工智能的脖子。

张亚勤表示,在人工智能发展的四个关键要素(数据、算法、算力和人才)中,算力可能是最大的挑战。

张亚勤称,目前很多中外企业都在攻克人工智能芯片,即使未来算力成为短板,我们也很有希望找到新的途径或方法,比如新模型、新算法和新框架等等,需求是创新的源泉。目前,中国的人工智能人才和数据足够多、足够强。

未来算力发展趋势

放眼全球,算力已成全球各国科技战略布局重点。报告初步测算,预计到2025年,中国算力核心产业规模将不低于4.4万亿元,算力关联产业规模可达24万亿元,算力有望崛起为国家数字经济蓝图中继电子信息制造业和软件业之后的又一超级赛道。

毕马威首席经济学家康勇表示,在算力供不应求的现实情况下,传统计算架构正失去竞争力,必须探索新的计算模式。“普慧”算力将开启“万物皆数据”“无数不计算”“无算不智能”的新计算时代。

随着数字技术全面融入人类经济社会发展的方方面面,算力早已无处不在。报告指出,当前,算力正由终端计算等需求驱动的“被动式”发展,转向促进AI大模型训练、实现通用人工智能、超越经典计算等代表的“主动式”发展。新硬件、新架构竞相涌现,现有芯片、操作系统、应用软件等都可能被推翻重来,新计算时代呼之欲出。

深度学习出现之前,用于AI训练的算力增长大约每20个月翻一番;之后,用于AI训练的算力大约每6个月翻一番;2012年后,全球头部AI模型训练算力需求更是加速到每3个月至4个月翻一番,即平均每年算力增长幅度达到惊人的10倍;目前大模型发展如火如荼,训练算力需求有望扩张到原来的10到100倍,算力需求的指数级增长曲线将更加陡峭。

毕马威中国数字化赋能主管合伙人张庆杰在解读报告时表示,算力供给增速明显难以满足指数式爆发的需求,储备算力成为各行各业的必要举动。

针对现实挑战,报告认为,未来算力发展趋势将具备两大特征:“数字经济的基础设施”和“通用人工智能的核心动力”。因此,算力将在两个关键维度上加速发展:普适(Inclusive)与智慧(Intelligent),即“普慧”。

张庆杰表示,“普慧”算力意味着,算力要成为像电力一样的公共资源,本质上是站在使用者的角度上,让算力更好用。

报告指出,算力设施、算力应用、算力服务是“普慧”算力三大关键要素。其中,算力服务代表着算力的提供方式,算力应用实现了算力的软件定义,算力设施是基础中的基础。

当前,美、中、欧、日基本稳居全球算力产业规模前四,美、中两国处在领先地位且中国算力规模增速明显领跑。各国算力投资或补贴计划均超千亿。

经初步测算,到2025年,中国数据中心、云计算、人工智能市场规模总计将突破2.5万亿元,算力核心产业规模将不低于4.4万亿元,关联产业规模可达24万亿元,成为与新能源汽车比肩的超万亿级高潜赛道。

结合国家互联网信息办公室发布的《数字中国发展报告(2022年)》数据分析,当前中国数字经济规模为50.2万亿元,其中,10万亿元以上的赛道只有电子信息制造业和软件业。也就是说,算力关联产业有望崛起为数字经济蓝图中规模突破10万亿元的又一超级赛道。

本土算力持续追赶,但GPU软件生态仍需时日

除了华为之外,以阿里云、腾讯云、字节、商汤等企业为代表的算力底层,囤积大量的英伟达A100、T40芯片组进行模型训练,部分智算中心则增加AMD、英特尔芯片,以及天数智芯、寒武纪、海光等国产芯片,为客户提供异构、混合型算力支持。

智算厂商方面,阿里云表示,其拥有国内最强的智能算力储备,阿里云的智算集群可支持最大十万卡GPU规模,承载多个万亿参数大模型同时在线训练,拥有大规模AI集群。而在AI平台层,阿里云将AI训练效率提升可达10倍,推理效率提升可达6倍。目前,阿里发起的AI模型社区魔搭已拥有180多万AI开发者、900多个优质AI模型,以及30多个10亿以上参数规模大模型。

腾讯云则大量采购了英伟达A100/H800芯片,发布新一代HCC高性能计算集群,实现业界最高的3.2T超高互联带宽,提供高性能、高带宽和低延迟的集群算力,用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群,腾讯团队在同等数据集下,将万亿参数的AI大模型“混元NLP”训练由50天缩短到4天。据悉,腾讯云服务器组还使用了AMD、燧原科技的芯片产品。

火山引擎副总裁张鑫泽透露,其拥有庞大的算力支持,亚州/美洲有数百万CPU核心、超过20PB内存、数万张GPU计算卡,训练系统单日样本吞吐最超百万亿,高峰时GPU利用率达90%。此前消息称,字节跳动目前已经购买和到货英伟达A100/H800加速卡共10万块。

据联想和毕马威的分析报告预计,阿里云目前拥有200-300万台服务器,腾讯云拥有100-200万台服务器,字节跳动和华为云拥有约100万台服务器。

与此同时,从芯片端看,目前在加速计算/大模型算力领域,英伟达在全球市场占比高达95%以上,甚至可达99%。英伟达无论产品力还是CUDA算力生态构建,都是首屈一指,也“收割”了本轮AI热潮以来最大的利润。

据登临科技联合创始人王震宇估算,2022年,英伟达在中国市场的数据中心产品销售额约400亿元,按照行业机构预估,到2026年将会达1000亿元,这是在ChatGPT爆火之前的预测。

在WAIC 2023上,盖鲁江告诉钛媒体App,天垓100是该公司2018年研发的通用 AI 训练芯片,目前这款产品目前已经成功跑通了清华智谱 AI 大模型ChatGLM,Meta研发的LLaMA模型,北京智源研究院的Aquila模型等。

“现在大模型发展的核心三要素:算法、数据及算力,算力是底座。在6月9日,我们跟北京智源研究院,在北京发布了他们的AquilaCode-7B模型,用的就是我们天垓100这款产品在跑,这也充分体现了天数智芯产品的通用性。目前我们正在帮他们跑650亿参数的模型,预计10月份可以跑完。”盖鲁江表示,预计今年年底以及明年,天数智芯都会有新的产品推出来,而且对大模型算法做了硬件级优化。

如果不采用通用架构,客户进行平台切换门槛比较高。盖鲁江表示,天数智芯在第一阶段就走了一条兼容国际主流生态的路线,公司2022年全年确认收入在2.5亿元左右。“因为我是通用架构,基于我的硬件去做软件栈的开发,再在API接口层面兼容国际主流生态,这样其实让我们的下游客户能更方便地用起来,让他们的迁移成本很低。所以说在商业化这条路上,我们已经率先迈出了一步。”

最后一类是服务器云和各地算力中心,大模型公司与其合作/租用形式,补充算力训练不足的情况。而在服务器底层则依然用英伟达、鲲鹏、寒武纪、海光等产品。

例如,北京超级云计算中心官网披露,拥有超过50PFlops通用超算算力,超60万CPU核心数,超过20万算力用户;上海到2023年底,依托本市人工智能公共算力服务平台,接入并调度4个以上算力基础设施,可调度智能算力达到1000 PFLOPS(FP16)以上;到2025年,上海市数据中心算力预计将超过18000 PFLOPS(FP32)。

今年6月初,鸿博股份透露,搜狗创始人王小川成立的大模型公司百川智能(五季智能)和其签署了一个1280P的订单;二期正在推进,具体将围绕客户需求展开。据悉,鸿博股份全资子公司英博数科将在协议签署后的12个月内向五季智能提供高性能GPU算力出租服务,1期交付不超过256台服务器总计不低于1280P算力。

不过目前,国内 AI 算力、国产GPU芯片还存在制程工艺和产品规格限制、没有双精度浮点功能、没有CUDA这种完整生态、与其他芯片之间的解耦性较差、通信网络连接问题导致算力损耗高等挑战亟待解决。

多位行业内人士对钛媒体App透露,当下大部分模型训练领域仍会用英伟达产品,但信创、政务等数据私有化程度高的领域会更多采用本土算力。

“全球CUDA生态的注册开发者人数接近400万,多年来大家一直在沿用这一生态架构。因此,国内GPU企业现在面临生态迁移问题,操作系统、编程系统不一样。如果企业要换一个新的生态,就要做大量代码性的迁移及改变,这个成本及时间是非常高的。”盖鲁江透露,天数智芯在持续加大这部分投入,但这需要行业上下游企业共同研发,需要时间和过程。

“中国目前大算力芯片的发展还处于起步阶段。”清华大学电子工程系长聘教授、系主任汪玉认为,天数智芯、燧原科技、寒武纪等本土芯片算力如何做到高效统一的部署,在芯片上把这样的算法跑起来,是一个非常重要的问题。

文章来源: 快科技,钛媒体APP,中国新闻网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:人工智源库
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...