高端GPU芯片拉警报,国产算力芯片如何突围

电子放大镜 2022-09-20
2828 字丨阅读本文需 7 分钟

高端GPU作为通用计算的“加速神器”,日渐成为大型数据中心、人工智能、超算等领域的刚需。长期以来,英伟达在高端GPU市场占据主导地位,市场占有率一度超过90%。目前来看,国内企业突破英伟达等国外公司的垄断仍然任重道远,但国内基于架构创新的DSA(特定领域架构,即针对特定领域的可编程处理器)芯片产品日渐丰富,可能会带来一些曙光。

高端GPU与传统GPU“泾渭分明”

20世纪90年代,Play Station等游戏主机的发布和彩色显示器的出现,催生了3D游戏的萌芽。而彼时的3D制作主要依靠计算机的CPU执行,计算任务需要串行排队,难以满足游戏画质的提升需求。英伟达的GeForce 256,将“GPU”概念推向市场。自此,光线追踪等图形图像处理任务有了专用芯片承载,在提升3D画质的同时,也提升了计算机的整体效能。

随着超算等高并发性计算需求不断增长,GPU用于计算任务的可能性受到业界关注。英伟达首席科学家David Kirk认为,GPU的浮点运算和并行计算能力不应该局限于图像渲染。在他的倡导下,英伟达以推动GPU从专用计算芯片走向通用计算处理器为目标,推出了GPGPU(即通用GPU),并于2006年发布并行编程模型CUDA。GPGPU与CUDA组成的软硬件底座,构成了英伟达引领AI计算的根基。

由于GPGPU专注高性能算力,也常常被业界和市场称为“高端GPU”,并发展出与传统GPU“泾渭分明”的应用路径。燧原科技产品市场部总监陈超向《中国电子报》记者指出,传统GPU聚焦图像学,关注帧数、渲染逼真度、对于真实场景的映射程度等指标,主要用于运行游戏、专业图像处理、加密货币处理等场景。而高端GPU是用于计算加速的芯片产品,专注于基础科学等超算领域和训练、推理等大规模人工智能计算场景。

“高端GPU不涉及消费级GPU的场景,纯粹用于计算加速。高端GPU早期用于超算等高性能计算场景,真正的蓬勃兴起并大规模产生一些商业行为,是在人工智能迅猛发展产生了强有力的算力需求之后,GPU被大量应用于人工智能场景,特别是人工智能训练。”陈超向记者指出。

目标不同则指标不同,高端GPU有着与传统GPU不同的关注点。昆仑芯科技CEO业务助理宋春晓向《中国电子报》表示,衡量高端GPU的主要维度是通用性、易用性和高性能。通用性指硬件架构要有足够的灵活性,以适应人工智能不断迭代变化的算法和场景。易用性是指较低的开发门槛,让开发者更容易上手,结合实际场景进行定制化的开发。高性能指芯片产品的基础性能和性价比要对标国际先进水平,才能进行市场开拓。

算力大小往往是市场对GPU性能优劣的“第一印象”。但高端GPU的性能不等于纸面性能,尤其不能以单一性能的纸面数据来衡量。

“在实际使用的过程中,GPU的通用性、易用性、实际性的重要程度远大于纸面标出的算力这一单一性能。纸面指标标得再高,也要关注内存和带宽够不够,以及芯片之间的互联等问题解决得好不好。用单一性能来衡量GPU是否高端,是一个常见的误区。”宋春晓说。

硬件性能最终要通过软件接口被开发者感知和使用。芯动科技GPU项目总监何颖对《中国电子报》记者表示,高端GPU设计的算力,需要专门优化过的驱动和加速库。只有软硬协同,才能把高端GPU的算力真正应用到实际场景中。

国产算力芯片如何突围

从长远来看,加速算力芯片的发展是必然的,那么国内算力芯片的能力怎样,如何突围呢?目前服务器加速,主要采用的是GPU芯片,占比接近90%,另外则是ASIC、FPGA等。

GPGPU芯片广泛用于商业计算和大数据处理,如天气预报、工业设计、基因工程、药物发现、金融工程等,在人工智能领域,使用GPGPU在云端运行模型训练算法,可以显著缩短海量训练数据的训练时长,减少能源消耗,从而进一步降低人工智能的应用成本。

不同应用领域,对芯片计算能力及运算精度要求也有所不同,比如用于商业计算和大数据处理(CAE仿真、物理化学、石油勘探、生命科学、气象环境等),需要双精度浮点、单精度浮点、32位整型运算;人工智能(模型训练、应用推理),要求混合精度浮点、半精度浮点、16位整型、8位整型运算。

近几年国内不少企业在这方面取得进展,包括海光信息、壁仞科技、燧原科技、摩尔线程等。

海光信息成立于2014年,不久前在科创板上市,海光信息的产品包括通用处理器(CPU)和协处理器(DCU),海光DCU属于GPGPU的一种。

海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64运算精度,支持4个HBM2内存通道,最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台。

可以看到,海光DCU是国内唯一支持FP64双精度浮点运算的产品,英伟达的A100、H100都支持FP64,从这一点来看,海光DCU在这方面是比较领先的。

壁仞科技今年8月发布的首款通用GPU BR100,集成770亿晶体管,支持FP16半精度浮点运算,在这方面相比英伟达、海光DCU较弱,不过据该公司介绍,BR100的16位浮点算力能达到1000T以上,8位定点算力达到2000T以上,超过英伟达的A100。

另外燧原科技此前发布的第二代人工智能训练产品邃思2.0,支持从FP32、TF32、FP16、BF16 到INT8运算,单精度FP32峰值算力40 TFLOPS,单精度张量TF32峰值算力160 TFLOPS。

天数智芯的BI芯片,集成240亿晶体管,采用7纳米先进制程,支持FP32、FP16、BF16、INT8等多精度数据混合训练,单芯算力每秒147T@FP16。

另外值得关注的还有,寒武纪2021年11月发布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加强了FP16、BF16以及FP32的浮点算力,在全新MLUarch03架构和7nm先进工艺加持下,8位定点算力最高为256TOPS。

对比来看,目前国内厂商的芯片水平,相比于英伟达的A100和H100是存在差距的。不过在国内市场需求和美国出口限制的背景下,这些芯片厂商具有足够的技术和经验积累,去实现进一步的突破。

那么国内的芯片厂商需要如何突围呢?难度肯定是大的,燧原科技创始人赵立东在日前世界人工智能大会的论坛上谈到,国际巨头用几代人、数十年的时间投入积攒下的技术实力,我们想靠两代和几十名工程师就超越,是不可能的。

要缩短差距,除了资金、人力等的高密集投入外,也需要有更快的更迭,还有就是架构创新,赵立东认为,唯有架构实现原始创新,才能真正拥抱开放生态,使产业得到健康发展。

另外与国外芯片执着于先进的制程,国内不少厂商开始通过更先进的封装工艺、异构芯片等来寻求突破。比如寒武纪思元370采用chiplet技术,在一颗芯片中封装2颗AI计算芯粒(MLU-Die),每一个 MLU-Die 具备独立的AI计算单元、内存、IO以及 MLU-Fabric控制和接口,通过MLU-Fabric保证两个MLU-Die间的高速通讯,可以通过不同MLU-Die组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片,壁仞科技今年8月发布的GPU BR100GPU芯片也采用了Chiplet技术。

国产高端GPU生态正在形成

“国产芯片必须要不断更新迭代,持续开发产品,才逐渐接近世界品质,进而在某些场景上超过你的竞争对手,但这必须得有客户愿意和你一起来做这件事。”赵立东认为,目前高端GPU市场主要集中于互联网公司、智慧城市和金融等行业,芯片的性能必须在实际业务上线后,端到端测试整个过程,才能发现问题,进而不断改进,不能只看实验室数据。

好消息是,国产高端GPU的生态正在逐渐形成。

“生态好不好,看客户用不用就行了。”天数智芯的7nm通用GPU推理芯片“智铠100”也是今年WAIC的另一件“镇馆之宝”,其首款GPGPU芯片“天垓100”也曾亮相于去年的WAIC上,吕坚平告诉《IT时报》记者,截至目前,“天垓100”产品累计订单金额已经超过2.3亿,累计触达客户300多家,其中有意向签约的客户有200多家,覆盖行业超过20个,“只有客户才能帮你将硬件推到各式各样的互动场景中”。

张凌岚也透露,壁仞BR100系列芯片正在做软件调优,预计在两个月内完成,覆盖100个左右的主流场景应用。

据不完全统计,从2021年初到2022年2月底,全国至少有26个城市在推动或刚刚完成智算中心的建设。原本这些智算中心的服务器芯片、软件系统等领域仍是国外产品的天下,但现在,或许“算力国产化”的市场大门正在打开。

文章来源: IT时报,电子发烧友网,中国电子报

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:电子放大镜
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...