橙色云资讯 - 工业互联网行业信息门户

高端GPU芯片拉警报，国产算力芯片如何突围

电子放大镜 2022-09-20

2828 字丨阅读本文需 7 分钟

高端GPU作为通用计算的“加速神器”，日渐成为大型数据中心、人工智能、超算等领域的刚需。长期以来，英伟达在高端GPU市场占据主导地位，市场占有率一度超过90%。目前来看，国内企业突破英伟达等国外公司的垄断仍然任重道远，但国内基于架构创新的DSA（特定领域架构，即针对特定领域的可编程处理器）芯片产品日渐丰富，可能会带来一些曙光。

高端GPU与传统GPU“泾渭分明”

20世纪90年代，Play Station等游戏主机的发布和彩色显示器的出现，催生了3D游戏的萌芽。而彼时的3D制作主要依靠计算机的CPU执行，计算任务需要串行排队，难以满足游戏画质的提升需求。英伟达的GeForce 256，将“GPU”概念推向市场。自此，光线追踪等图形图像处理任务有了专用芯片承载，在提升3D画质的同时，也提升了计算机的整体效能。

随着超算等高并发性计算需求不断增长，GPU用于计算任务的可能性受到业界关注。英伟达首席科学家David Kirk认为，GPU的浮点运算和并行计算能力不应该局限于图像渲染。在他的倡导下，英伟达以推动GPU从专用计算芯片走向通用计算处理器为目标，推出了GPGPU（即通用GPU），并于2006年发布并行编程模型CUDA。GPGPU与CUDA组成的软硬件底座，构成了英伟达引领AI计算的根基。

由于GPGPU专注高性能算力，也常常被业界和市场称为“高端GPU”，并发展出与传统GPU“泾渭分明”的应用路径。燧原科技产品市场部总监陈超向《中国电子报》记者指出，传统GPU聚焦图像学，关注帧数、渲染逼真度、对于真实场景的映射程度等指标，主要用于运行游戏、专业图像处理、加密货币处理等场景。而高端GPU是用于计算加速的芯片产品，专注于基础科学等超算领域和训练、推理等大规模人工智能计算场景。

“高端GPU不涉及消费级GPU的场景，纯粹用于计算加速。高端GPU早期用于超算等高性能计算场景，真正的蓬勃兴起并大规模产生一些商业行为，是在人工智能迅猛发展产生了强有力的算力需求之后，GPU被大量应用于人工智能场景，特别是人工智能训练。”陈超向记者指出。

目标不同则指标不同，高端GPU有着与传统GPU不同的关注点。昆仑芯科技CEO业务助理宋春晓向《中国电子报》表示，衡量高端GPU的主要维度是通用性、易用性和高性能。通用性指硬件架构要有足够的灵活性，以适应人工智能不断迭代变化的算法和场景。易用性是指较低的开发门槛，让开发者更容易上手，结合实际场景进行定制化的开发。高性能指芯片产品的基础性能和性价比要对标国际先进水平，才能进行市场开拓。

算力大小往往是市场对GPU性能优劣的“第一印象”。但高端GPU的性能不等于纸面性能，尤其不能以单一性能的纸面数据来衡量。

“在实际使用的过程中，GPU的通用性、易用性、实际性的重要程度远大于纸面标出的算力这一单一性能。纸面指标标得再高，也要关注内存和带宽够不够，以及芯片之间的互联等问题解决得好不好。用单一性能来衡量GPU是否高端，是一个常见的误区。”宋春晓说。

硬件性能最终要通过软件接口被开发者感知和使用。芯动科技GPU项目总监何颖对《中国电子报》记者表示，高端GPU设计的算力，需要专门优化过的驱动和加速库。只有软硬协同，才能把高端GPU的算力真正应用到实际场景中。

国产算力芯片如何突围

从长远来看，加速算力芯片的发展是必然的，那么国内算力芯片的能力怎样，如何突围呢？目前服务器加速，主要采用的是GPU芯片，占比接近90%，另外则是ASIC、FPGA等。

GPGPU芯片广泛用于商业计算和大数据处理，如天气预报、工业设计、基因工程、药物发现、金融工程等，在人工智能领域，使用GPGPU在云端运行模型训练算法，可以显著缩短海量训练数据的训练时长，减少能源消耗，从而进一步降低人工智能的应用成本。

不同应用领域，对芯片计算能力及运算精度要求也有所不同，比如用于商业计算和大数据处理（CAE仿真、物理化学、石油勘探、生命科学、气象环境等），需要双精度浮点、单精度浮点、32位整型运算；人工智能（模型训练、应用推理），要求混合精度浮点、半精度浮点、16位整型、8位整型运算。

近几年国内不少企业在这方面取得进展，包括海光信息、壁仞科技、燧原科技、摩尔线程等。

海光信息成立于2014年，不久前在科创板上市，海光信息的产品包括通用处理器（CPU）和协处理器（DCU），海光DCU属于GPGPU的一种。

海光DCU 8000系列，典型功耗260-350W，支持INT4、INT8、FP16、FP32、FP64运算精度，支持4个HBM2内存通道，最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器全面兼容ROCm GPU计算生态，由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性，CUDA用户可以以较低代价快速迁移至ROCm平台。

可以看到，海光DCU是国内唯一支持FP64双精度浮点运算的产品，英伟达的A100、H100都支持FP64，从这一点来看，海光DCU在这方面是比较领先的。

壁仞科技今年8月发布的首款通用GPU BR100，集成770亿晶体管，支持FP16半精度浮点运算，在这方面相比英伟达、海光DCU较弱，不过据该公司介绍，BR100的16位浮点算力能达到1000T以上，8位定点算力达到2000T以上，超过英伟达的A100。

另外燧原科技此前发布的第二代人工智能训练产品邃思2.0，支持从FP32、TF32、FP16、BF16 到INT8运算，单精度FP32峰值算力40 TFLOPS，单精度张量TF32峰值算力160 TFLOPS。

天数智芯的BI芯片，集成240亿晶体管，采用7纳米先进制程，支持FP32、FP16、BF16、INT8等多精度数据混合训练，单芯算力每秒147T@FP16。

另外值得关注的还有，寒武纪2021年11月发布的第三代云端AI芯片思元370，相比于上一代芯片，思元370全面加强了FP16、BF16以及FP32的浮点算力，在全新MLUarch03架构和7nm先进工艺加持下，8位定点算力最高为256TOPS。

对比来看，目前国内厂商的芯片水平，相比于英伟达的A100和H100是存在差距的。不过在国内市场需求和美国出口限制的背景下，这些芯片厂商具有足够的技术和经验积累，去实现进一步的突破。

那么国内的芯片厂商需要如何突围呢？难度肯定是大的，燧原科技创始人赵立东在日前世界人工智能大会的论坛上谈到，国际巨头用几代人、数十年的时间投入积攒下的技术实力，我们想靠两代和几十名工程师就超越，是不可能的。

要缩短差距，除了资金、人力等的高密集投入外，也需要有更快的更迭，还有就是架构创新，赵立东认为，唯有架构实现原始创新，才能真正拥抱开放生态，使产业得到健康发展。

另外与国外芯片执着于先进的制程，国内不少厂商开始通过更先进的封装工艺、异构芯片等来寻求突破。比如寒武纪思元370采用chiplet技术，在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每一个 MLU-Die 具备独立的AI计算单元、内存、IO以及 MLU-Fabric控制和接口，通过MLU-Fabric保证两个MLU-Die间的高速通讯，可以通过不同MLU-Die组合规格多样化的产品，为用户提供适用不同场景的高性价比AI芯片，壁仞科技今年8月发布的GPU BR100GPU芯片也采用了Chiplet技术。

国产高端GPU生态正在形成

“国产芯片必须要不断更新迭代，持续开发产品，才逐渐接近世界品质，进而在某些场景上超过你的竞争对手，但这必须得有客户愿意和你一起来做这件事。”赵立东认为，目前高端GPU市场主要集中于互联网公司、智慧城市和金融等行业，芯片的性能必须在实际业务上线后，端到端测试整个过程，才能发现问题，进而不断改进，不能只看实验室数据。

好消息是，国产高端GPU的生态正在逐渐形成。

“生态好不好，看客户用不用就行了。”天数智芯的7nm通用GPU推理芯片“智铠100”也是今年WAIC的另一件“镇馆之宝”，其首款GPGPU芯片“天垓100”也曾亮相于去年的WAIC上，吕坚平告诉《IT时报》记者，截至目前，“天垓100”产品累计订单金额已经超过2.3亿，累计触达客户300多家，其中有意向签约的客户有200多家，覆盖行业超过20个，“只有客户才能帮你将硬件推到各式各样的互动场景中”。

张凌岚也透露，壁仞BR100系列芯片正在做软件调优，预计在两个月内完成，覆盖100个左右的主流场景应用。

据不完全统计，从2021年初到2022年2月底，全国至少有26个城市在推动或刚刚完成智算中心的建设。原本这些智算中心的服务器芯片、软件系统等领域仍是国外产品的天下，但现在，或许“算力国产化”的市场大门正在打开。

文章来源： IT时报，电子发烧友网，中国电子报

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：电子放大镜

0 0

参与评论

登录后参与讨论 0/1000

下一篇国产芯片成品利好了吗？

此次苹果新品一发布,便占据了各大板块的头条...

2021-09-16

高端GPU芯片拉警报，国产算力芯片如何突围

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

高端GPU芯片拉警报，国产算力芯片如何突围

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总