SK海力士率先突围HBM3,HBM是成就高端显卡的“灵魂”?

微观人 2021-10-29

海力士堆栈显存

4361 字丨阅读本文需 11 分钟

人工智能/机器学习、高性能计算、数据中心等应用市场兴起,催生高带宽内存HBM(High Bandwidth Memory)并推动着其向前走更新迭代。如今,HBM来到第四代,尽管固态存储协会(JEDEC)尚未发布推出HBM3的相关规范,产业链各厂商已早早布局。

内存/IP厂商布局HBM3

10月20日,SK海力士宣布业界首次成功开发现有最佳规格的HBM3 DRAM。这是SK海力士去年7月开始批量生产HBM2E DRAM后,时隔仅1年零3个月开发了HBM3。

据了解,SK海力士研发的HBM3可每秒处理819GB的数据,相当于可在一秒内传输163部全高清(Full-HD)电影(每部5GB),与上一代HBM2E相比,速度提高了约78%;内置ECC校检(On Die-Error Correction Code),可自身修复DRAM单元的数据的错误,产品可靠性大幅提高。

SK海力士HBM3将以16GB和24GB两种容量上市。据悉,24GB是目前业界最大的容量,为了实现24GB,SK海力士技术团队将单品DRAM芯片的高度磨削到约30微米(μm, 10-6m),相当于A4纸厚度的1/3,然后使用TSV技术(Through Silicon Via,硅通孔技术)垂直连接12个芯片。

随着SK海力士成功开发HBM3,HBM开始挺进3.0时代,IP厂商亦已先行布局HBM3。

10月7日,Synopsys宣布推出业界首个完整的HBM3 IP解决方案,包括用于2.5D多芯片封装系统的控制器、PHY和验证IP。据了解,Synopsys的DesignWare HBM3控制器与PHY IP基于经芯片验证过的HBM2E IP打造,而HBM3 PHY IP基于5nm制程打造,每个引脚的速率可达7200 Mbps,内存带宽最高可提升至921GB/s。

值得一提的是,在Synopsys的新闻稿中,SK海力士、三星电子、美光等内存厂商均表示将致力于开发HBM3内存。

除了Synopsys,今年8月美国内存IP核供应商Rambus宣布推出其支持HBM3的内存接口子系统,内含完全集成的PHY和数字控制器,数据传输速率达8.4 Gbps,可提供超过1TB/s的带宽,是HBM2E内存子系统的两倍以上。Rambus预计,其HBM3内存将于2022年末或2023年初流片,实际应用于数据中心、AI、HPC等领域。

而更早些时候,中国台湾地区的创意电子于6月发布基于台积电CoWoS技术的AI/HPC/网络平台,搭载7.2Gbps HBM3控制器。

说了这么久,HBM到底是什么技术?为什么它这么重要?

HBM技术为什么对显卡很重要?

HBM(High-Bandwidth Memory )高带宽内存,主要针对高端显卡市场。HBM使用了3D TSV和2.5D TSV技术,通过3D TSV把多块内存芯片堆叠在一起,并使用2.5D TSV技术把堆叠内存芯片和GPU在载板上实现互连。

IDC《2021年全球数据圈(Global Datasphere 2021)》的报告显示,2018-2024年,全球数据总量将从36泽字节增长至146泽字节。因此,支持这一发展速度需要的远不止摩尔定律,人工智能硬件和软件的各个方面都需要不断的快速改进,内存带宽就是其中之一。

以先进的驾驶员辅助系统(ADAS)为例,L3级及更高级别系统的复杂数据处理需要超过200GB/s的内存带宽。这些高带宽是复杂AI/ML算法的基本需求,自动驾驶过程中需要这些算法快速执行大量计算并安全地执行实时决策。而在L5级,如果车辆要能够独立地对交通标志和信号的动态环境做出反应,以便准确地预测汽车、卡车、自行车和行人的移动,将需要超过500GB/s的内存带宽。

数据中心是另一个需要应用架构师尽快找到高带宽方案的领域。按照美光全球显存业务主管Bill Randolph的说法,随着数据密集型工作负载和应用程序的增长,以及不断演变的应用场景和新兴业务机会的出现,“我们很难想象将一个拥有超过13亿个参数的AI模型放入单个GPU(即使是拥有32GB内存)中进行处理。”

于是,人们改变了传统数据中心“CPU+内存(如DDR4)+存储(如SSD)”的数据处理方式,转而走进“异构数据中心”时代,即通过部署CPU、GPU、DPU、FPGA和ASIC等各种组件,分别侧重于提供特定功能或者处理不同类型和格式的数据,从而显著提高整个系统的速度和性能。

这就是以高带宽内存(HBM、HBM2、HBM2E、HBM3)为代表的超带宽解决方案开始逐渐显露头角的原因——通过增加带宽,扩展内存容量,让更大的模型/更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。

HBM的演进历史

一般来说,HBM 内存允许四个、八个或十二个 DRAM 相互堆叠并通过硅通孔或 TSV 相互连接,这是一种在 DRAM 内存中构建的电线的说法芯片本身并通过相同类型的微凸点连接在堆栈中相互连接,这些连接用于将芯片相互连接并连接到主板。在 HBM 中,中介层用于将计算元素链接到内存。

高带宽内存(HBM)于2013年推出,是一种高性能3D堆栈SDRAM构架,数据传输速率大概可以达到1Gbps左右。

虽然 HBM1(没有人这么称呼,但我们打算这样做)让 AMD 和 Nvidia 作为他们 GPU 卡的用户,但直到 HBM2 出现,成本才下降,技术也成熟到足以让 CPU 制造商考虑使用它。使用 HBM2E,HBM 的最新最大变体,带宽和容量都增加了一点,并且HBM 堆栈也越来越高。

HBM1 具有 1,024 位总线宽度,以 500 MHz 运行的四芯片堆栈可以提供每个堆栈超过 100 GB/秒的带宽,这比 32 位 GDDR5 内存要多得多,后者要少得多宽,但运行频率为 1.75 GHz,每个芯片的传输速度为 28GB/秒。同等容量的 GDDR5 内存占用了 19.2 倍的空间(在 1GB 块上),并且消耗的电量也是其三倍多。HBM1 价格昂贵且难以制造,这就是为什么我们没有在所有可以使用它的设备上看到它。HBM1 堆栈有四个芯片和两个 128 位通道,每个芯片或 1,024 位,将四个堆栈放在一个设备上可产生 16 GB 的总内存和 4,096 位的内存宽度,是 512 位宽内存的八倍GDDR5 接口。HBM1 在每个引脚上支持 1 Gb/秒的信号速率。

与前一代产品一样,2016年推出的HBM2为每个堆栈包含最多8个内存芯片,同时将管脚传输速率翻倍,达到了2Gbps。并且堆栈上具有相同的 1,024 位宽度,这意味着一个包可以驱动每个堆栈 256 GB/秒。因此,四个堆栈可以让您获得神奇的 1 TB/秒的总内存带宽,并且每个堆栈 8 GB(具有正确的高堆栈)也提供了 64 GB 的潜在最大容量。据我们所知,没有人将 HBM2 与所有八个堆栈一起投入生产。

2018年末,JEDEC宣布推出HBM2E规范,以支持增加的带宽和容量。当传输速率上升到每管脚3.6Gbps时,HBM2E可以实现每堆栈461GB/s的内存带宽。此外,HBM2E支持最多12个DRAM的堆栈,内存容量高达每堆栈24GB。

但 HBM2E(HBM2 的扩展版本)的情况并非如此,每个引脚的信号传输速率提高到 2.5 Gb/秒,每个堆栈的带宽提高到 307GB/秒。理论上,带有 HBM2E 的堆栈可以是 12 个芯片高,使用 2 GB HBM 内存 DRAM 将容量提升到 24 GB。SK海力士和三星都超过了这些水平。三星的 HBM2E保持每个堆栈 8 个裸片和 3.2 Gb/秒的信号传输速率,达到每个堆栈16 GB 和每个堆栈 410 GB/秒,而 SK 海力士将信号传输速率提高到 3.6 Gb/秒并保持不变每个 8 堆栈 16 GB,每个堆栈 460 Gb/秒的带宽。

HBM2E提供了达成巨大内存带宽的能力。连接到一个处理器的四块HBM2E内存堆栈就将提供超过1.8TB/s的带宽。通过3D堆叠内存,可以以极小的空间实现高带宽和高容量需求。

在NVIDIA最新一代的SXM4 A100 GPU上,就使用了HBM2E内存。从芯片内部结构图上可以看到,A100计算核心的两侧总共有6个HBM内存的放置空间。在SXM4 A100 GPU发布的时候,NVIDIA实际只使用了这6个HBM内存放置空间中的5个,提供40GB HBM2E内存容量,这意味着单个HBM2E内存上有8个1GB DRAM Die进行堆叠。对于升级版的80GB SXM4 A100 GPU,单个HBM2E内存上则采用了8个2GB DRAM Die进行堆叠。

而到了2021年,尽管JEDEC尚未发布HBM3相关标准,但SK海力士和Rambus已先后发布最高数据传输速率5.2Gbps和8.4Gbps的HBM3产品,每个堆栈将提供超过665GB/s和1075GB/s的传输速率,这无疑是极为惊人的。

三星电子另辟蹊径?

三星电子虽然目前尚未发布HBM3,但从披露的信息来看,其在HBM方面亦正持续发力。

今年2月,三星电子发布其集成AI处理器新一代芯片HBM-PIM(processing-in-memory),可提供最高达1.2 TFLOPS的嵌入式计算能力,从而使内存芯片本身能够执行通常由CPU、GPU、ASIC或FPGA处理的工作。在这款HBM-PIM芯片中,三星电子利用PIM技术,将AI处理器搭载于HBM2 Aquabolt中,可提升两倍性能,同时将功耗降低70%以上。

据介绍,HBM-PIM芯片将AI引擎引入每个存储库,从而将处理操作转移到HBM本身。这种新型内存的设计是为了减轻内存与一般处理器之间转移数据的负担,因为实际应用中,这种负担无论在功耗还是时间上,往往比真正的计算操作消耗更大。三星还表示,使用这种新内存不需要任何软件或硬件变化(包括内存控制器),从而可以被市场更快地采用。

对于HBM而言,三星电子的HBM-PIM提供了另一种方式,不过按照三星电子在Synopsys的新闻稿中所表达的态度,三星电子也将继续推进开发HBM3。

此外,三星电子5月宣布开发出能将逻辑芯片(Logic Chip)和4颗HBM封装在一起的新一代2.5D封装技术“I-Cube4”,该技术可用于高性能计算(HPC)、AI、5G、云、数据中心等各种领域。据悉,三星目前也正在开发更先进、更复杂的I-Cube6,可同时封装6颗HBM以及更复杂的2.5D/3D混合封装技术。

从GPU到CPU全面拥抱?

在内存/IP厂商在HBM领域的升级竞赛持续进行的同时,HBM正在得到更多应用,主要厂商包括如AMD、英伟达、英特尔等。

AMD和英伟达两大显卡厂商曾多次在其产品上采用HBM。据了解,AMD当初携手SK海力士研发HBM,并在其Fury显卡采用全球首款HBM;2017年AMD旗下Vega显卡使用HBM 2;2019年AMD Radeon VII显卡搭载的亦为HBM2。

英伟达方面,其2016年发布的首个采用帕斯卡架构的显卡Tesla P100就搭载了HBM2,包括后面的Tesla V100也采用了HBM2;2017年初,英伟达发布的Quadro系列专业卡中的旗舰GP100亦采用了HBM2;2020年5月,英伟达推出的Tesla A100计算卡也搭载了容量40GB HBM2;今年6月,英伟达升级了A100 PCIe GPU加速器,配备80GB HBM2e显存。

而英特尔更是将在其两款新品中用到HBM。

今年8月,英特尔在其架构日上介绍基于Xe HPC微架构的全新数据中心GPU架构Ponte Vecchio。Ponte Vecchio芯片由几个以单元显示的复杂设计构成,包括计算单元、Rambo单元、Xe链路单元以及包含高速HBM内存的基础单元。基础单元是所有复杂的I/O和高带宽组件与SoC基础设施——PCIe Gen5、HBM2e内存、连接不同单元MDFI链路和EMIB桥接。

英特尔也将HBM用在其下一代服务器CPU Sapphire Rapids上。据英特尔介绍,在内存方面,Sapphire Rapids除了支持DDR5和英特尔@傲腾™内存技术,还提供了一个产品版本,该版本在封装中集成了HBM技术,可在HPC、AI、机器学习和内存数据分析工作负载中普遍存在的密集并行计算中实现高性能。

近期外媒消息称,一名工程师曝光了英特尔Sapphire Rapids的照片,曝光的照片显示,Sapphire Rapids封装了四颗CCD核心,每颗核心旁均配备两片长方形的HBM内存芯片。爆料者表示这可能是HBM2E,每颗处理器核心将具备两条1024位内存总线。

值得一提的是,今年7月外媒消息称,AMD正在研发代号为Genoa的下一代EPYC霄龙服务器处理器,采用Zen 4架构。这一处理器将首次配备HBM内存,目的是与英特尔下一代服务器CPU Sapphire Rapids竞争。

若消息属实,那英特尔和AMD均将在CPU上采用HBM,这也意味着HBM的应用不再局限于显卡,其在服务器领域的应用将有望更加广泛。

HBM3将开启新一轮显卡时代?

HBM技术与其他技术最大的不同,就是采用了3D堆叠技术。对比HBM2E/HBM3、DDR、GDDR就会发现,它们的基本单元都是基于DRAM,但不同之处在于其他产品采用了平铺的做法,而HBM选择了3D堆叠,其直接结果就是接口变得更宽。比如DDR的接口位宽只有64位,而HBM2E通过DRAM堆叠的方式就将位宽提升到了1024位,这就是HBM与其他竞争技术相比最大的差异。

“目前来看,HBM的发展可能不会遇到障碍。但对比GDDR DRAM动辄16/18Gbps的速率,HBM3的速率即便达到8.4Gbps,也仍然存在差距,而限制HBM发展的原因则主要来自两方面:一是中介层,二是3D堆叠带来的制造成本。”Rambus IP核产品营销高级总监Frank Ferro说。

对中介层进行完整的设计和表征化处理,以确保信号完整性,即为挑战之一。因为HBM作为高速内存接口,在与中介层互联的过程中包括至少上千条不同的数据链路,必须要确保所有链路的物理空间得到良好的控制,整个信号的完整性也必须得到验证。因此,从表征化层面来讲,不但需要对整个中介层的材料做出非常精细的选择,还要考虑渐进层的厚度以及整个电磁反射相关的物理参数,并在此基础上进行完整的分析和仿真,以实现信号一致性的处理。

然而,在人工智能训练领域和数据中心应用中,HBM2E/HBM3的优点使其成为一个更好的选择。尽管在过去几年内,HBM、HMC、PAM4等标准在市场上展开了激烈的竞争,但从目前的发展态势来看,还是HBM占据了更多的市场份额。

HBM的性能非常出色,这点毋庸置疑,所增加的采用和制造成本可以透过节省的电路板空间和电力相互的缓解。在物理空间日益受限的数据中心环境中,HBM紧凑的体系结构提供了切实的好处。它的低功率意味着它的热负荷较低,在这种环境中,冷却成本通常是几个最大的运营成本之一。

数据中心采取分布式内存的方法会给HBM2E、HBM3和GDDR长期的发展带来影响吗?答案可能是不会。原因在于尽管SRAM的速度和延迟性都高于DRAM,但在固定的芯片面积上能安装的SRAM数量却非常少,很多情况下为了满足人工智能训练的需求,一部分SRAM设备不得不装在芯片之外,这就是问题所在。但总体来说,这两种方案属于从不同角度出发解决同一个问题,两者之间是互补而非相互阻碍。

在可预见的未来,提高内存带宽的道路将继续下去,但HBM3的即将推出有望开启系统设计的新阶段,将系统性能提升至一个新的水平。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...