存内计算照进现实,探秘“钞能力”下的技术成果

数据包 2022-12-13
3735 字丨阅读本文需 9 分钟

绕不开存内计算,会是未来的解法吗?

说起“存储”和“AI”,很多人会说存储对AI很重要,因为AI的发展是由海量数据支撑起来的,这就使得人们对数据处理提出了极高的要求,需要更大的内存去存储更多的数据,不得不承认,高性能的存储能让AI技术发挥出最大威力。但其实AI对存储也很重要,AI 时刻推动着存储的发展,究其原因绕不开存内计算(PIM :Processing in-memory)。

无论是前段时间爆火的绘图模型Stable Diffusion,还是大规模语言模型ChatGPT,AI无疑已经成了新时代的自动化工具,哪怕是在某些与认知相关的任务上,也能通过深度学习实现高于人类的精度。

但正因我们提过多次的算力问题,对于大型AI训练的计算要求已经在每两个月翻倍了,别说可持续能源供应了,就连硬件的可持续都有些陷入停滞了。其实以目前各种模型的迭代速度来看,更高的运算效率才是重中之重,毕竟这些模型并不需要每两个月就推陈出新。

面对数据量激增的未来,如何应对内存带宽挑战,实现更优质的 PIM来减轻各种 AI 驱动所面对的诸如HPC、培训和推理等工作负载?AI就是一个很好的选择,随着技术的演进,越来越多的存储厂商开始加入AI战……

存内计算或是未来的解法

存内计算,顾名思义就是把计算单元嵌入到内存当中。

存内计算是一项打破传统冯诺依曼架构的新型运算架构,通过将存储和计算有机结合,直接利用存储单元进行计算,极大地消除了数据搬移带来的开销,解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题,可以数十倍甚至百倍地提高人工智能运算效率,降低成本。

虽然存内计算的基本概念早在上个世纪七十年代就已经被提出,但直到近些年才逐渐成为人们关注的焦点,原因在于,算力和运算数据量的激增导致存储墙问题愈发凸显,想要进一步提高算力,只有解决存储墙问题,而在各种解决方案中存内计算是最直接的一种方式,可以实现高能效、低功耗、低成本。

早在2019年,美光首席执行官 Sanjay Mehrotra 就指出,曾经的计算架构并不适合未来的发展趋势,从长远来看认为计算最好在内存中完成。当时美光另一位技术高管也坚信计算和内存的融合对于提高性能效率和降低延迟是必要的,并愿意为此付出努力。不少业内人士认为,未来存储器可能不仅仅是存储设备,还可能是加速器,或者还会具备其他的功能,例如更好的ECC等。

深度学习还有哪些环节可以提升效率

我们先从深度学习运算来看哪些算数运算占比最高,根据IBM给出的统计数据,无论是语音识别的RNN、语言模型DNN和视觉模型CNN,矩阵向量乘法都占据了运算总数的70%到90%,所以打造一个矩阵矢量乘法加速器,是多数AI加速器的思路。

数据传输和运算的功耗对比 / ISSCC

要考虑效率,我们就不能不谈到功耗的问题,如果只顾算力而不考虑功耗,任由庞大规模的GPU等硬件消耗能量不顾碳排放的话,也不符合全球当下的节能减排趋势。而在深度学习中,各种精度的加法乘法都会消耗能量,但这些运算消耗的能量与传统冯诺依曼结构中数据移动消耗的能量相比,就显得微不足道了,尤其是从DRAM中读写高精度数值时,能耗差距甚至可以达到数十倍以上。

这还只是在数据中心场景中,如果我们放到边缘来看,如今的移动设备需要语音识别、图像识别之类的各种深度学习应用。所以提升这类设备的效率,才有可能在功耗和内存都有所限制的嵌入式应用中普及深度学习。

存内计算的存储选择

为了减少数据移动消耗的能量,提高MVM的计算性能,存内计算成了一个不错的选择。存内计算(IMC)是一项创新的计算方式,将特定的计算任务放到存储设备中,并使用模拟或混合信号的计算技术。相较冯诺依曼结构或近存计算来说,最大程度地减少了数据移动。

而早期利用IMC进行神经网络推理的测试结果证明,在软硬件结合的情况下,可以得到优秀的精度结果,而DAC、ADC、功能激活之类的数字操作则是通过片外的软件或硬件来实现的。自那之后,各种使用SRAM、NOR Flash、RRAM、PCM和MRAM的单核或多核存内计算芯片纷纷面世。

在对于正确存储类型的选择上,存内计算必须面临取舍的问题,比如性能、密度、写入时间、写入功耗、稳定性以及制造工艺上。性能自然就是直接影响到我们说的TOPS算力以及效率,目前SRAM优势较大,密度则决定了裸片大小,同时也影响到了成本。

而在边缘场景下,环境一致性往往不比数据中心,所以如果不能保证稳定性的话,就会影响到存内计算进行深度学习的精度。最后的制造工艺不仅决定了这类存内计算芯片能否量产,是否存在供应链危机或成本问题,也决定了它有没有继续推进的空间,比如目前工艺较为先进的主要是PCM和SRAM,最高分别已经到了14nm和12nm。

在2021年的VLSI技术大会上,IBM发表了一篇文章,讲述了他们以14nm CMOS工艺打造的一个64核PCM模拟存内计算芯片,HERMES。该芯片采用了后端集成的多层相变化内存,由256个线性化的CCO ADC组成,可以在1GHz的工作频率之上进行精确的片上矩阵矢量乘法运算。在深度学习的运算测试中,HERMES获得了10.5 TOPS/W的运算效率以及1.59TOPS/mm2的性能密度。

Thetis Core芯片 / Axelera AI

而荷兰初创企业Axelera AI则选了数字SRAM这一路线,他们在去年12月成功流片第一代IMC芯片Thetis Core。Thetis Core的面积不到9mm2,却可以在INT8精度下提供39.3TOPS的算力和14.1 TOPS/W的性能,甚至还可以超频到48.16TOPS。但不少存内计算芯片提到性能表现时,往往都是指满载的情况,正因如此,Thetis Core在低利用率下的效率表现才显得无比亮眼。哪怕从100%利用率降低至25%的,该芯片也能展现13TOPS/W的效率,降幅只有7%左右。

“钞能力”下的技术成果

存内计算不只是学界的圈地自娱,三星、SK海力士、台积电、英特尔、美光、IBM等半导体领域的巨头也在加紧对该技术的研发,今年的竞争更是尤为激烈,首先三星在顶级学术期刊Nature上发表了全球首个基于MRAM(磁性随机存储器)的存内计算研究,紧接着台积电在近日的ISSCC上合作发表了六篇关于存内计算存储器IP的论文,大力推进基于ReRAM的存内计算方案,SK海力士则发表了基于GDDR接口的DRAM存内计算研究。

应着这阵风口,我国的存内计算产业也开始迅猛发展,知存科技、九天睿芯、智芯科、后摩智能、苹芯科技等国内专注存内计算赛道的新兴公司纷纷获得融资,加速在该领域的早期市场布局及商业落地。

虽然不管学界、业界还是市场对存内计算的呼声都极高,相关研究和产品的研发在如火如荼的进行,但在现阶段存内计算的实现确实面临着诸多难点,目前市面上仍缺乏被市场认可而广泛应用的存内计算产品出现。

目前,业界实现存内计算的三种主流路径为SRAM、DRAM、Flash,简单来说DRAM内存具有动态刷新,断电会丢失数据的特征,SRAM为高速缓存,其无需刷新,但同样会在断电状态下丢失数据,Flash则为闪存,其有着无需刷新,断电不丢数据的特征,通常作为硬盘使用。

从投资方面来看,存储大厂对AI可谓是下足了“血本”,重金之下,厂商们的成果也是斐然,接连展示新技术。

三星电子在2021年2月率先研发出结合内存芯片和AI处理器的高带宽内存 HBM-PIM(也被称为 Aquabolt-XL),以强化数据中心、高性能计算(HPC)系统和支持 AI 的移动应用程序中的大规模处理。据了解,HBM-PIM 通过将经过DRAM优化的 AI 引擎置于每个存储子单元内,将处理能力直接引入到数据存储位置,从而实现并行处理并尽可能减少数据移动。数据显示,当应用于三星现有的 HBM2 Aquabolt 解决方案时,新架构能够提供超过两倍的系统性能,能源消耗也大幅降低。

三星电子DRAM产品和技术高级副总裁Nam Sung Kim表示,随着技术标准化发展,该技术应用将会进一步扩大,扩展至用于下一代超级计算机和AI应用的HBM3,甚至用于设备上AI的移动存储器,以及用于数据中心的存储器模块。最新消息显示,三星已经完成了运行其最新内存解决方案内存中高带宽内存处理 (HBM-PIM) 所需的软件标准化,计划在本月推出该解决方案。

SK海力士则在今年2月宣布,将与人工智能芯片公司 SAPEON合作,推出一款将 GDDR6-AiM 与 AI 芯片相结合的新产品。SAPEON即上述提到的SK海力士与SK Telecom 以及 SK Square在美国成立的AI芯片公司。GDDR6-AiM则是SK海力士在今年2月宣布的采用下一代存储芯片PIM技术开发出的样品,为 GDDR6内存芯片增加了计算功能,以 16Gbps 的速度处理数据。SK海力士声称,GDDR6-AiM 与 CPU 和 GPU 的组合,不是典型的 DRAM 芯片,可以将计算速度提高 16 倍,适用于机器学习、高性能计算和大数据计算与存储。

美光则是在收购FWDNX之后,推出一组用于深度学习应用的、功能强大的新型高性能硬件和软件工具,该综合性人工智能开发平台集成了计算、内存、工具和软件,可为探索针对人工智能工作负载优化的创新内存提供重要基石。FWDNXT是一种架构,专为打造快速上市时间的边缘AI解决方案而设计,通过非常易于使用的软件架构搭配广泛的模型支持与运用灵活度。据悉,美光深度学习加速器(DLA)技术支持广泛的机器学习框架和神经网络,能够通过易于使用的接口快速处理海量数据,在FWDNXT人工智能推理引擎的支持下,能让内存和计算能够更紧密地融合,从而实现更高的性能和更低的功耗。

此外,不同于上述三家存储大厂,铠侠则是发力SSD和AI技术的结合,专注于研发以内存为中心的AI技术。近日,铠侠开发了一种基于Memory-Centric AI的图像分类系统,Memory-Centric AI是一项利用大容量存储器的人工智能技术,该系统使用神经网络对图像进行分类,未来铠侠会将Memory-Centric AI从图像分类扩展到其他领域,并促进采用大容量存储的人工智能技术的研究和开发。

利用高容量存储的图像分类

铠侠方面指出,传统AI技术是使用大量数据来训练模型,而以内存为中心的AI则是基于其积累的知识,通过搜索和参考这些知识来执行任务,因此它积累的新知识和记忆越多,人工智能就越成熟,更重要的是,这项技术可以让人工智能可以无限期地成长,同时也能减少所需的大量计算并减少功耗。

而这项技术的关键之处就是积累的数据存储在哪里,这就是闪存的用武之地,能够在几乎不消耗电力的情况下存储信息,但这也对闪存的速度提出了挑战,速度太慢会影响人工智能做出决定。随着访问速度的提高,硬件和人工智能技术也在不断发展,铠侠认为如今是提出以内存为中心的AI的恰当时候。

写在最后

AI从概念被提出来开始就似乎是一个“万金油”般的存在,5G需要AI、元宇宙需要AI、自动驾驶需要AI,甚至于连EDA都需要AI。如今,AI又已经“渗入”存储芯片领域,各大存储厂商为此展现出“十八般武艺”,但未来谁能成为拔得头筹者,我们拭目以待。

除了“存”以外,存内计算在“算”上的选择也不尽相同,比如进行模拟或数字MAC运算等等。从斯坦福大学教授Boris Murmann提出的观点来看,在低精度下模拟运算要比数字运算更高效,但一旦精度拔高,比如8位以后,模拟计算的功耗就会成倍增加了。考虑到落地应用较少,未来的存内计算会更倾向于哪种形式仍有待观察,但从存储厂商、存算一体芯片厂商的动向来看,这或许是存储市场迎来又一轮爆发的绝佳机遇。

文章来源: 核芯产业观察,半导体行业观察,品玩

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:数据包
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...