橙色云资讯 - 工业互联网行业信息门户

美国禁止高端GPU“外流”，却也给了国产GPU又一次发展机遇

电子大世界 2023-11-08

3545 字丨阅读本文需 9 分钟

被美国商务部将其列入“实体清单”后，国产显卡大厂摩尔线程表现的十分不爽。

11月6日，摩尔线程创始人兼首席执行官张建中给公司全体员工发出一封信，信中写道：在这个挑战与机遇并存的时间点，我想说的是，中国GPU不存在“至暗时刻”，只有星辰大海。

摩尔线程从始至终只有一项事业：打造中国最好的全功能GPU，我们会将这项事业进行到底，任何事情都不会影响我们坚定走下去的决心。

按照摩尔的说法，加快自主研发与创新。目前他们的已获授权专利数量暂时实现了国内领先，但是距离公司的目标还需更努力。

张建中还表示，要打造高效团队。加强组织管理，聚焦全功能GPU核心技术研发，保持团队高效和敏捷。

国产GPU的发展浪潮

要论国内的芯片热潮，主要是两次发展。第一次是在智能算法和技术加持下的AI芯片，其中包括图形处理器单元（GPU）、现场可编程门阵列（FPGA）以及专门用于人工智能的特定应用集成电路（ASIC）。

不管是早期入门的寒武纪，还是斥巨资入局的比特大陆、云知声等企业，都已经获得了数千万美元的投资，是指近日，有的已经成长为行业独角兽，有的成功上市，还有的被成功并购。

第二波浪潮是在2020年，芯片行业在GPU领域的创业热潮。众所周知，GPU主要被用作图形计算领域，在人工智能技术的加持下，GPU也因为拥有大规模运行并计算的能力而吸引了更多资本的入局，定义了GPU的英伟达就在2021年成为全球市值最高的芯片公司。

在芯片短缺的当下，我国也越来越认识到拥有国产芯片的重要性，于是推出了各种政策支持国产GPU的发展。同时，GPU也比一般科技领域的探索更加烧钱，因此需要大量的资本扶持。目前已经有很多早进入、已有陈品的公司开始和客户一起落地合作，不断完善其软件系统，后成立的公司也在研发过程中积极寻找自己潜在的合作伙伴，在GPU芯片创业浪潮的推动下，芯片的“落地”成为了重要需求。

我国的芯片黄金时代已经来临，国产GPU正在强势崛起，不管是GPU芯片、AI芯片还是计算芯片“新贵”DPU赛道，都热闹非凡。但不管是在那个领域，只有拥有真获赠的技术和拿的出售的产品才能掌握市场的话语权。

CPU+GPU都要才不被卡脖子

2022 年 10 月 7 日美国商务部工业安全局（BIS）发布《美国商务部对中华人民共和国（PRC）关于先进计算和半导体实施新的出口管制制造》细则中管制物项包含高性能 AI 芯片产品， Nvidia A100 和 H100 均在管制行列。在此背景下，Nvidia推出性能阉割的中国特供版芯片A800和H800天价向国内出售，而随着A800和H800的停产，Nvidia将对中国提供进一步阉割的A40和T40。未来在AI芯片，特别是 GPU上这种受制于人的状态势必会对中国 AI 产业提出极大的挑战。因此在国内自主可控的大背景下，国内AI产业对国产GPU芯片的需求也同样迫切。

当代人工智能建立在统计学基础上，是数据驱动型的表现，本质是在AI芯片上运行算法计算海量数据，训练AI模型，推理结论。在人工智能领域，AI芯片可以分为大概分为GPGPU、FPGA和ASIC。GPGPU芯片采用统一渲染架构，计算通用性最强，可以适用于多种算法，在很多算法前言的领域，GPGPU是最佳选择。 GPGPU服务器占据86%的市场份额，在人工智能的计算市场销售额占比最大，其中Nvidia约占96.1%。FPGA是一种半定制芯片，对芯片硬件层可以灵活编译，缺点是当处理的任务重复性不强、逻辑较为复杂时，效率会比较差。ASIC是一种为专门目的而设计的芯片（全定制），是根据特定算法定制的芯片架构，针对特性算法算力强大，但算法一旦改变，计算能力会大幅下降，如：基于神经网络算法与加速的 NPU。

根据参与运算数据精度的不同，可把算力分为双精度算力（64位，FP64）、单精度算力（32位，FP32）、半精度算力（16位，FP16）及整型算力（INT8、INT4）。数字位数越高，意味着精度越高，能够支持的运算复杂程度就越高，适配的应用场景也就越广。在需要处理的数字范围大而且需要精确计算的科学计算、工程计算领域，都需要双精度算力（FP64）的支持；在AI大模型、自动驾驶、深度学习等人工智能模型的训练领域，一般需要单精度算力（FP32）的支持；而像数字孪生、人脸识别等利用训练完毕的模型进行推理的业务，适用于半精度算力（FP16）或者整型算力（INT8、INT4）。

我们国产的GPU厂商，包括GPGPU架构的海光、天数智芯壁仞科技、摩尔线程等，其中海光是目前唯一一家大规模量产出货且规模应用的GPGPU芯片，能实现64位双精度、32位单精度、16位半精度和8位整型算力的全面覆盖；另外就是NPU架构体系的华为、燧原、寒武纪等。而不同架构体系对精度的实现也是不同的：

GPGPU芯片一般会布局大量的双精度和单精度的计算区域，同时也覆盖到半精和整形算力。GPGPU的算力精度涵盖较广，应用的领域也更广泛，整个产业的生态相对完整，但是芯片设计相对比较复杂，前一阵美国限制向中国出口的AI芯片也是高端的GPGPU芯片。

NPU的优势是大部分时间集中在低精度的算法，芯片算力一般以半精度算力（FP16）和整型算力（INT8、INT4）为主，擅长处理视频、图像类的海量多媒体数据，不涉及高精度算力应用的领域。因此NPU芯片主要是覆盖低精度，应用领域比较受限，特别是很多NVIDIA的业务如果迁移到NPU环境下，在需要大量的迁移适配工作的同时，也会面临模型迁移后而遇到的算法和引擎识别精度下降的问题。

值得注意的是，现阶段AI应用中，大量的算法、模型、库、开发框架、软件和应用都基于通用加速卡架构开发出来，且具备较高的成熟度。在国产AI产业发展之路上，随着超大规模预训练模型对算力需求的持续攀升，使用GPGPU的通用架构对Nvidia进行替换和业务模型的高效便捷移植，建设CPU+高精度通用GPGPU的算力中心，是自主可控发展的必由之路。

软件是更高的壁垒

比起硬件性能上可接受的差异，软件适配与兼容让客户接受更难。

当大模型和应用层面的竞争拉响，从商业角度思考，采用国产AI芯片参战并不是好的选择。

从硬件性能上，使用国产AI芯片计算会比采用英伟达A100慢，在分秒必争的当下，“慢”是企业最不愿意看到的场景。

此外，哪怕能通过堆芯片的方式堆出一个算力相当的产品，从服务器运营的角度，它的主板开销、电费、运营费，以及需要考虑的功耗、散热等问题，都会大大增加数据中心的运营成本。

因为算力资源常需要以池化的形式呈现，数据中心通常更愿意采用同一种芯片，或者同一公司的不同芯片，来降低算力池化难度。

对客户而言，把国产AI芯片用起来并不容易。

算力的释放需要复杂的软硬件配合，才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU，需要突破CUDA生态和整个产业生态的壁垒。

摩尔线程有着自己的全功能GPU芯片，且推出了AIGC平台，李丰告诉36氪：“最难的是生态的建立，我们要兼顾很多的生态兼容性。

先说CUDA，为了把GPU的算力能力进一步发挥，英伟达花了10年时间，投入3000多人打造了一个CUDA框架。这套框架里集成了很多调用GPU算力所需的代码，工程师可以直接使用这些代码，无须一一编写。

如果没有这套编码语言，软件工程师发挥硬件价值的难度会变得极大。一位关注基础软件的投资人告诉36氪：“没有CUDA ，调用GPU的代码会写到地老天荒，不可能所有的东西都自己写。”

尚处于创业阶段的芯片设计公司，很难在生态上投入如此大的人力财力。大多会选择兼容CUDA架构，来降低客户使用门槛。

也有部分公司会选择自研加速器，如寒武纪就构建了自己的加速平台；昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈，希望打造自己的生态，也能摆脱硬件需受CUDA更新的困扰。

即使有了这个编程框架，整个产业生态上的人也很难把这个芯片用起来。

目前世界上主流的深度学习框架都有基于CUDA进行加速的，整个产业中下游软件、驱动厂家等都基于此进行适配。这构成了一个极强大的生态壁垒，就像苹果系统内部的闭环生态，和window操作系统+上层应用软件一样。

对于企业来说，更换云端 AI 芯片要承担一定的迁移成本和风险，除非新产品存在性能优势，或者能在某个维度上提供其他人解决不了的问题，否客户更换的意愿很低。

祥峰投资管理合伙人夏志进也告诉36氪：“软件生态是好用不好用的问题，没有CUDA会提高门槛，不是不可以用，只是需要花很多额外的功夫。”

芯片需要适配硬件系统、工具链、编译器等多个层级，需要很强的适配性，否则会出现这款芯片在某个场景能跑出90%的算力，在另一场景只能跑出80%效能的情景。

即使英伟达，为了更好发挥硬件的功效，对于大客户也会提供一些人力，帮忙做软件适配调试，软硬两方仍需要针对客户做部署、调试。

对性能要求较高的大厂，还会设置专门的软件部署师对硬件进行适配，来发挥硬件的最大性能。这也是很多手机厂商会自研芯片来更好适配产品的原因。

共建生态，寻求解法

目前，国内从业者已经在构建生态上做努力。

在一个AI生态中，支撑大模型训练需求，需要底层硬件、中间深度学习平台、上层应用软件的整体适配，互相支持。

硬件对上层软件的支持情况，必须代码写出后，有人一步步躺坑，才能知道问题所在，改进硬件对软件的支持效果。

一家C轮应用型软件公司告诉36氪，自己需要对不同类型、不同版本的基础软硬件进行适配，每年花在适配上的支出超出千万元。

百度飞桨已在推动和国内芯片适配。

2022年4月时，百度飞桨已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商，31种芯片的适配和优化，基本覆盖国内主流芯片。

目前，昆仑芯和飞桨完成3级兼容性适配，登临科技和飞桨也完成2级适配，沐曦集成电路和飞桨完成1级兼容性测试。

近期，华为的MindSpore被报道和爱可生向量数据库兼容。有信息显示，沐曦之前也已加入昇思MindSpore社区。

另一个大模型领域重要玩家，智源研究院，其九鼎智算平台也在和多家国内AI芯片公司合作。

未来，大模型训练对算力的需求会越来越大。比如，科研场景或训练视频类信息，都需要更大的算力支持。

英伟达等厂商也会不断追求研发更高性能的芯片，海外企业可以购买英伟达算力更高的芯片，推动大模型训练。比如，微软已经和宣布加强和英伟达和合作，将GPU 从此前的 A100 升级到 H100。

参战大模型竞赛，算法、算力、数据环环相扣。在最卡脖子的环节，如何缩小GAP，成为一个求共解的命题。

文章来源：无线端，快科技，36氪，芯点评

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：电子大世界

0 0

参与评论

登录后参与讨论 0/1000

美国禁止高端GPU“外流”，却也给了国产GPU又一次发展机遇

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

美国禁止高端GPU“外流”，却也给了国产GPU又一次发展机遇

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总