数据中心进入革命时代,各种性能技术层出不穷,算力服务才是最终目的

微观人 2022-07-05

数据中心cpu时间云计算

5126 字丨阅读本文需 12 分钟

6月9日,SK海力士宣布公司已经量产了HBM3 DRAM芯片,并将供货英伟达。因此英伟达的Tensor Core GPU将成为首先配备HBM3 DRAM的GPU。

HBM3 DRAM通过分布式接口与主机计算芯片紧密耦合。接口分为独立通道,每个通道彼此完全独立,通道不一定彼此同步。HBM3 DRAM使用宽接口架构来实现高速、低功耗运行。每个通道接口都维持一个64位数据总线,以双倍数据速率运行。随着英伟达即将使用HBM3 DRAM,数据中心即将迎来新一轮的性能革命。

想了解HBM3能带来怎样的改变,首先要了解HBM技术。

巨头入局的HBM技术

HBM全称为High Band width Memory,即高带宽内存,是一种新兴的标准DRAM解决方案。高带宽内存方案最初是由三星、AMD和SK海力士提出来的。HBM技术可实现高于256GBps的突破性带宽,同时降低功耗。它具有基于TSV和芯片堆叠技术的堆叠DRAM架构,核心DRAM芯片位于基础逻辑芯片之上。

第一个HBM内存芯片由SK海力士于2013年生产,第一个使用HBM的产品是2015年的AMD Fiji GPU。

HBM的思路十分直接:让内存设备靠近CPU或GPU。HBM方法将内存芯片堆叠到一个矩阵里,接着将处理器与内存堆叠组合在一起,形成一个基本组件,然后将其安装到服务器主板上。

HBM栈并不是物理上与CPU和GPU集成,而是通过称为“中介层(Interposer)”的超快速互联方式连接至CPU或GPU。将HBM的堆栈插入到中介层中,放置于CPU或GPU旁边,然后将组装后的模块连接至电路板。通过中介层紧凑而快速地连接后,HBM具备的特性几乎和芯片集成的RAM一样。

HBM2于2016年被提出,2018年12月,JEDEC更新了HBM2标准。更新后的标准通常称为HBM2和HBM2E(表示与原始HBM2标准的偏差)。HBM2标准允许每个引脚3.2GBps的带宽,每个堆栈的最大容量为24GB(每个堆栈12个裸片,每个裸片2GB)和410GBps的最大带宽,通过1,024位内存接口提供,由8个独特的内存接口分隔每个堆栈上的通道。

最初,HBM2的最大传输速率为每个引脚2GBps,每个堆栈的最大容量为8GB(每个堆栈8个裸片的最大裸片容量为1GB)和256GBps的最大带宽。然后,在达到我们今天看到的标准之前,它达到了每个引脚2.4Gbps和24GB的最大容量(每个芯片2GB,每个堆栈12个芯片)和307Gbps的最大带宽。

目前,HBM已经被应用在高性能图形加速器、网络设备、高性能数据中心AI ASIC和FPGA以及一些超级计算机结合使用。除了AMD、英伟达、英特尔也宣布将在至强处理器SapphireRapids 增加HBM2e选项,Sapphire Rapids 也成为英特尔首款配备HBM的CPU。

HBM潜力何在?

深度学习和人工智能的兴起,对数据运算的要求越来越高。最开始数据中心通过提高CPU、GPU的性能进而提高算力,在冯·诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存,这样才能输出。由于半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。由于处理器与存储器的工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来越大。数据显示,从1980年到2000年,处理器和存储器的速度失配以每年50%的速率增加。

存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“内存墙”。

随着数据的爆炸增长,内存墙对于计算速度的影响正在显现。为了减小内存墙的影响,提升内存带宽一直是存储芯片关注的技术问题。黄仁勋曾表示计算性能扩展最大的弱点就是内存带宽。集成了大量的并行运算单元的处理器,如果内存带宽跟不上,无疑会成为整个运算的瓶颈。例如谷歌第一代TPU,理论值为90TFOPS算力,最差真实值只有1/9,也就是10TFOPS算力,因为第一代内存带宽仅34GB/s。

STREAM基准测试的作者John Mc Calpin在他的SC16受邀演讲中指出HPC系统中的内存带宽和系统平衡每个插槽的峰值flop/sec每年增加50%到60%,而内存带宽每年仅增加约23%。

在过去的七年里,GDDR5在业界发挥了重要作用。迄今为止,这项显存技术中的海量存储功能几乎应用在每个高性能显卡上。DDR的出现实现了在一个时钟周期内进行两次数据传输,从而使之前的标准SDR(单次数据传输)的性能提高了一倍。

但是随着显卡芯片的快速发展,人们对快速传输信息的要求也在不断提高。GDDR5已经渐渐不能满足人们对带宽的需要,技术发展也已进入了瓶颈期。每秒增加1GB的带宽将会带来更多的功耗,这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择。因此,GDDR5将会渐渐阻碍显卡芯片性能的持续增长。

凭借TSV方式,相对于GDDR,HBM技术可以提供更高的带宽,更高的性价比。GDDR技术需要将DRAM芯片直接放置在PCB上并散布在处理器周围。HBM位于GPU本身上,并且堆栈相互叠在一起。这种方法无疑更快。为了增加GDDR上的芯片数量,这些将占用卡上更多的空间,这需要更多的数据和电源走线。这导致制造成本增加,因此对最终用户来说更昂贵。

此外,TSV技术可以在增加带宽的同时降低封装尺寸,同时降低功耗。在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。

有研究指出,单个HBM2e设备的功耗几乎是GDDR6解决方案的一半。HBM2e能提供与GDDR6相同或更高的带宽和类似的容量,但功耗几乎GDDR6的一半。TOPS是在给定内存设备带宽的情况下衡量最大可实现吞吐量的指标,用于评估神经网络和数据密集型AI应用程序等应用程序的最佳吞吐量。HBM2e的设备的TOPS/W 比GDDR6技术的吞吐量增加了一倍。

除了应用在GPU、CPU中,HBM DRAM也已经被应用在FPGA上。2020年,浙江大学博士生导师王则可博士用团队自己开发出的竖亥测算出使用HBM的FPGA。传统的FPGA有两个DRAM内存通道,每个提供19.2GB/s的内存带宽。因此FPGA不能完成很多对带宽能力要求高的应用。使用竖亥测试得出的结果显示,HBM提供高达425GB/s的内存带宽,比传统使用两个DDR4来说要高一个数量级。这对FPGA来说也是一个巨大的进步。

数据中心进入算力新时代

近年来,随着各行业数字化转型升级进度加快,全社会数据总量爆发式增长。目前我国数据中心大多分布在东部地区,土地、能源等资源日趋紧张。而西部地区资源充裕具备发展数据中心、承接东部算力需求的潜力。

“东数西算”通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。

长期来看的话,东数西算的正式启动意味着中国进入算力新时代。截至目前,我国数据中心规模已达500万标准机架。随着数字技术向经济社会各领域全面持续渗透,全社会对算力需求仍十分迫切。

此前发改委表示,实施东数西算工程,有利于提升国家整体算力水平。通过全国一体化的数据中心布局建设,扩大算力设施规模,提高算力使用效率,实现全国算力规模化集约化发展。

由于东数西算主要是加强西部数据中心建设,来缓解东部数据中心压力。在此过程中,芯片是其中不可或缺的基础性支撑一环。

“东数西算”中的“数”,指的是数据,“算”指的是算力,即对数据处理的能力。而数据中心可以分为“计算”“存储”和“网络”三大元素。因此,这三大核心功能所需要的芯片,成为“东数西算”战略下产业关注的焦点。在此背景下,“国产芯”有望迎来新一轮需求增长。

今年2月,中国移动发布PC服务器集采数据,华为鲲鹏芯片服务器占比16.55%,海光芯片服务器占比10.49%。近日,中国电信2022-2023年服务器集中采购项目开标,本次集采是迄今为止国内三大运营商最大规模服务器集采项目之一,国产CPU占比27%。

多方观点认为,东数西算将集中建设大规模的数据中心集群和算力网络,直接拉动服务器芯片、AI芯片、DPU、GPU等数据中心异构加速芯片的巨大需求。

“XPU”筑牢大算力“芯基建”

算力进一步细分,可以分为三个不同类型。

第一种叫基础算力,这是由基于CPU芯片的服务器提供的算力,主要用于基础通用计算。我们常提到的云计算、边缘计算等,都属于基础算力。

第二种叫智能算力,这是由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力,主要用于人工智能的训练和推理计算,比如语音、图像和视频的处理。

第三种叫超算算力,这是由超级计算机提供的算力,主要用于尖端科学领域的计算,比如行星模拟、药物分子设计、基因分析等等。

“东数西算”作为落实数字经济国家战略的重要一步。从数据的产生到数据的传输、计算、处理,都离不开计算芯片。由于数据处理量提升反向刺激数据处理速度,CPU、GPU等高性能计算芯片需求有望持续提升。

从物理结构上看,GPU和CPU相似,包括控制单元、存储单元及运算单元,但CPU擅长于逻辑控制和串行计算,而GPU拥有更多的ALU,适合大规模数据的并行处理,适配深度学习等算法的数据处理需求。根据IDC,2021年AI服务器加速器中GPU占91.9%,NPU占6.3%,ASIC占1.5%,FPGA占0.3%。

IDC数据显示,中国GPU市场规模2020年为26亿美元,2024年将达到64亿美元,复合增长率达30%。而在市场需求的推动下,热钱也在迅速涌入GPU行业,助推我国GPU企业进一步高速发展。

仅在今年前三月,我国GPU赛道中就已完成多轮大额融资,砺算科技完成数亿元天使轮融资,用于研发天图GPU芯片;GPU厂商芯瞳半导体完成Pre-A轮融资; GPU企业深流微智能完成近亿元PreA轮融资。

而在东数西算进一步炒热的基础软件和IDC等细分领域中,DPU因其特性被广泛看好。

DPU被定义为数据处理器,核心是通过协处理器协助主控CPU处理网络、存储以及计算等功能,为高带宽、低延迟、数据密集的计算场景提供计算引擎,有望成为数据中心场景中继CPU和GPU之后的第三大算力支柱芯片。

目前,国内DPU行业已开始涌现出一批本土初创企业,东数西算工程的实施也会对整个DPU产业产生良好的促进作用。面对已经到来的算力增长时代,我国DPU企业也开启“融资热”,今年3月,芯启源获超亿元战略投资,用于下一代DPU产品研发。纵观过去一年,中科驭数、大禹智芯、星云智联、益思芯科技等皆获得融资,助推企业进一步成长。

全国人大代表、宁夏回族自治区工信厅党组副书记、副厅长万新恒指出,“东数西算”之后便是“芯云融合”。DPU等处理芯云融合解决方案,最直接的作用是作为CPU的卸载引擎,接管网络虚拟化、硬件资源池化等基础设施层服务, 从而释放宝贵的CPU资源来运行上层应用,实现了以数据为中心的业务和基础设施操作的分离,进而降低网络数据对数据中心的依赖,缓解东部应用端对网络数据的处理需求,让数据中心真正回归数据计算,解决供需失衡问题。

三股势力,归于算力原点

如果将算力服务商、运营商以及互联网厂商在产业链中的角色拆解来看,能够清晰地看到以算力为中心的产业格局。

算力服务商核心聚集于算力本身,更关注建设多样融合的算力,匹配客户越来越多的差异化诉求,受到外部环境和产业自身演进影响,单纯的智算、超算都无法满足客户需求,ABC(人工智能、大数据和云计算)深度融合调度的系统工程,是接下来的重点。

运营商的优势在于网络,一张健壮的网络是算力的最佳载体,运营商也是算力服务商的最佳辅助,同时运营商具有深入区县级别的人员布局,能够让算力辐射的范围更加宽广,当算力足够普及且易用,将大大加速算力服务网络的发展。

互联网服务商大多自自身业务场景出发,在某些类型业务上有出色的技术积累,反之,在一些偏底层基础设施领域,其出发点也是自身业务,而不是站在全局视角,在东数西算这种国家级工程中,互联网厂商更适合单点突破以及需求引导。

从长远来看,算力服务商抓住了算力核心,更贴近于“东数西算”工程的本质,企业客户最终需要的是算力,其产业配套需要在商业发展中摸索前行。

以算力的重要配套——网络为例,互联网时代,网络层已经形成了较为稳定的格局,主流数据媒介从文字到图片再到视频,尤其是互联网公司崛起之后,运营商网络被管道化的趋势愈发明显。

东数西算没有改变数据传输的方式,只是改变数据传输的方向,以行业视角观测,没有看到运营商管道化趋势扭转的因素,算力为主、网络为辅的定位不会有变化,网络需要满足算力演进方向而变化,将算力输送到用户需要的地方。

互联网厂商的电商、游戏和搜索等业务,也依赖于算力服务提供商,二者的关系近似于“生产决定消费”,先有算力服务商的底层技术创新,才有互联网厂商的上层应用创新。云计算作为互联网厂商的第二增长曲线,本质也是算力服务商的另一种形式,当站在国家基础设施的高度上,算力更需要底层思维,底层思维决定上层建筑。

综合来看,算力服务商将成为“东数西算”工程的核心角色,当然,“东数西算”工程需要全产业链不同类型玩家的协作才能突破,确立以算力为根本的产业模式,有助于尽早捋清产业格局与行业分工,推动我国“东数西算”工程的稳健发展。

终局思维看算力服务网络

业内专家指出,“东数西算”工程仍有诸多问题尚待解决,譬如算力供给的普及性问题,通过算力的标准化、异构算力的接入,避免算力过于集中,当前多云算力的统一管理、调度技术相对成熟,但如何屏蔽多云的算力差异,实现算力的标准化,还需要进一步统筹推进。

此外,算力的调度也是难题,一方面,算力调度要保证算力使用的便捷性,使用户可以方便的使用不同区域、不同企业提供的算力资源;另一方面,算力调度要支持算力资源分配的自动化和智能化,保证算力需求的合理分布,提高算力资源使用率,提升用户体验。

算力服务网络的未来是电话、电力一样的公共服务,好比通信公司和电网公司站在产业链的中央,上下协同,左右联动,以终局思维看待“东数西算”工程和算力的演进方向,算力服务网络也将形成以算力服务商为核心链动上下游的产业逻辑。

纲举目张,执本末从,抓住算力服务网络的主要矛盾,其他难题也将迎刃而解,电力行业的发展可以作为参考。例如电网公司实现了电力的标准化,简化了过程复杂性,算力服务商也可以提供标准化、精细化的管理,而不是单纯某项业务的升级转化。

再如用户使用电力的成本不断降低,使得电力普及程度大大提高,推进了全社会使用电力的积极性,从发电的源头降本增效,对比之下,算力服务商是算力的发起端,可以有力推进算力网络的可用好用,建立低成本、低门槛的算力基础,协同产业链厂商做大做强。

独木不成林,一人不为众,算力服务体系不是简单的提供算力,重点在于完整的服务能力,围绕算力服务体系的搭建、生态建设,需要全产业链携手,从生态出发,反哺于生态,打造健康的正循环算力服务商业模式。

“今天下,车同轨,书同文,行同伦”,算力已成为国民经济发展的重要基础设施,历史证明,统一度量衡将推动时代的极大发展,以算力为中心的产业链认知和技术重塑,正在掀开数字经济时代新的扉页。

文章来源:爱集微APP,中国新闻周刊,半导体产业纵横

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...