国内外巨头竞相逐鹿,算力大利润大,这位产业“新贵”光中国市场就有千亿规模

微观人 2022-06-27

aws数据中心大数据

3643 字丨阅读本文需 9 分钟

很长一段时间,CPU 主导了整个数据中心,虚拟化算力成为云计算的重点。

直到人工智能应用的爆发性增长,GPU 的芯片架构被发现更适合支持大规模的AI模型训练和推理,GPU 成为数据中心第二大算力芯片。

当 CPU 再无力解决数据中心基础设施遇到的瓶颈时,新一代 DPU 芯片出现了。DPU 可以重新分配算力和优化算力资源,带来新的数据中心创新范式,因而被认为是未来几年行业内最重要的创新。

据智能计算芯世界数据显示,DPU 全球市场需求巨大,从 2020 年的 30 亿美元增加到 2025 年内的 136 亿美元,CAGR 约 36%,到 2027 年全球数据中心加速器市场价值可达 530 亿美元,复合年增长率 CAGR 近 44%。

看到这种“CPU、GPU、DPU 成为数据中心三大算力芯片”的趋势之后,国外几大传统芯片巨头正马不停蹄地规划自己的 DPU 产品线,国内也集中出现了一批拿到融资的 DPU 创企。仿佛一夜之间,DPU 公司成为芯片投资的香饽饽。有些没有任何芯片投资经验的风投都希望可以在本次半导体热潮中坐上顺风车,令一些从没做过高端芯片的团队、甚至创始人没有任何芯片背景的初创企业都可以借此 DPU 风口拿到融资。

但打造一家成功的 DPU 企业远不像外界所设想的那么简单:一款商业上成功的DPU,必然是一款世界级芯片,也是一款极度复杂的高端芯片。

DPU:新一代数据中心算力和服务的核心

首先,DPU 是在目前算力困境、摩尔定律放缓的大背景下产生的。它从处理网络负载和卸载 CPU 任务的智能网卡,演变成新一代数据中心算力和服务的核心,让云服务商“将基础设施和客户应用分而治之”,这个思想也指导着数据基础设施领域近年来的诸多创新。

随着单一服务器的网络端口的速度达到 200G 或以上,原来的网络、存储、虚拟化、安全等基础设施多方面任务,已经无法有效率地由 CPU 承载,而将这一类基础设施任务转移到新的计算单元 DPU 上,这也就意味着,DPU 的设计逻辑需要遵从软件定义思路,它一定是灵活且兼具可编程性的,可以支持不同客户的不同业务和私有协议。

有几个重要的研究报告强有力地证明了,这些基础设施任务的运行可以消耗大量的 CPU 性能。

一项由哈佛大学和谷歌的团队在 2015 年发表的研究报告 Profiling a warehouse-scale computer 称,该研究对谷歌数据中心业务和数以万计的服务器进行了经过三年的深度分析,结果显示,跨越不同服务器的应用所产生的属于基础设施类的任务构成了“数据中心税”,消耗了服务器中约 30% 的算力资源。该报告也指出,因为谷歌数据中心服务器数量庞大,若每台服务器资源利用率能提升一点,都会带来巨大的成本效益。

另一项研究是 Facebook(现称 Meta)数据中心团队 2020 年的分析 Accelerometer: Understanding Acceleration Opportunities for Data Center Overheads at Hyperscale。该团队对运行在 Facebook 计算优化数据中心平台上的微服务进行全面描述,发现执行核心应用程序逻辑只占用 CPU 18% 的时间;剩余时间完全用于非应用程序逻辑核心的一般操作。也就是说,在 Facebook 执行核心应用时,其数据中心里的 CPU 82% 的时间都消耗在基础设施类任务,这个数字是相当惊人的。也正因如此,Facebook 团队态度更加鲜明地表示,“加速此类基础设施的通用模块,可以极大地提高数据中心的性能”。

DPU 大幅提高算力性价比和利润,引来云服务商和芯片厂纷纷布局

全球云计算老大亚马逊云 AWS 最早看到数据中心算力的瓶颈和提升空间,因此 AWS 也是最早尝试自研 DPU 芯片的云服务商。

AWS 的数据中心体量最为庞大,因此对于算力痛点的体会是最深刻的。其 CTO Werner Vogels 就公开表示过,传统架构的数据中心已经优化到了极限。

以 AWS 的客户场景举例,在传统架构下,大量的资源浪费在算力、网络、存储的运营和调度管理上,这些资源没有为客户提供直接价值。

对此,AWS 的提出的解决方案,就是把大部分虚拟机管理程序迁移到其自研的 DPU —— Nitro 中。2017 年起,AWS 开始用 Nitro 系统取代上一代架构。

效果是立竿见影的,Nitro 的应用成功证实了 DPU 的市场价值:管理云服务的程序从原来的 CPU 转移到 DPU 上之后,CPU 的资源几乎可以完全用来运行客户业务负载,其 DPU 使用上不但灵活还兼具高性能。尤其在成本上,DPU 令宝贵的 CPU 资源被充分利用,因此 AWS 大幅提高了能售卖给云客户的算力资源。对于云客户来说,他们同样买到了更高性价比的算力。

通过 DPU 去达到其数据中心的算力资源利用率最大化,AWS 迎来了前所未有的最高云服务利润:2022 年第一季度,AWS 业务实现收入 184 亿美元,同比去年增长 36.6%;利润 65.1 亿美金,同比去年增长 57%,利润率 35.3% 达到了历史新高。这些数字的背后,离不开其自研的 DPU 芯片 Nitro。

AWS 模式因此成为其他云服务商学习的榜样。我们也看到,在国内,诸如阿里云这样的云大厂,也已高调宣布了基于 FPGA 的自研 DPU 解决方案。

可以说,最近几年,云服务商的数据中心最大的变化就是 DPU 的诞生。它对云计算最大的变革既是性能、功耗和安全的优化,算力资源的弹性调度,更是经济价值上的提升。

因为 DPU 解决的技术痛点在云服务里面起了关键的作用,芯片巨头英伟达 Nvidia、英特尔 Intel 等也迅速反应过来,一边开始紧锣密鼓地收购相关技术团队,一边竞相推出 DPU 或者类 DPU 的早期产品,卖给数据中心客户,不甘落于人后, 因此 DPU 成为数据中心芯片巨头兵家必争之地。

如今,世界最大的几家云计算服务商,几乎都靠 DPU 在各自数据中心去进行所有的算力资源弹性调度、动态按需分配等,以期大力提升云服务的质量和效率。换句话来说,每一家云服务商都要靠 DPU 去优化自身数据中心的利用率和性价比,才能和别的云服务商竞争。

与国外厂商“逐鹿中原”

“我们认为DPU的潜力确实是巨大的。”在鄢贵海看来,从技术发展的角度来看,DPU的出现有一定的必然性——上层应用对于算力的需求在过去5年急剧增长,使得DPU的应用场景很多,它将广泛分布在5G、云计算、大数据、数据中心和边缘计算等领域。

而从工业和信息化部今年发布的《新型数据中心发展三年行动计划(2021—2023年)》中,鄢贵海更是看到了新型算力芯片难得的历史发展机遇。

该计划明确提出要加快提升算力算效水平,“推动CPU、GPU等异构算力提升,逐步提高自主研发算力的部署比例”“加强专用服务器等核心技术研发”“树立基于5G和工业互联网等重点应用场景的边缘数据中心应用标杆”等要求和措施。

“虽然国内厂商在芯片产品化的环节相比国外一线厂商还有差距,但是在DPU架构的理解上是有独到的见解的,而且我国目前在数据中心这个领域,无论是市场规模、增速还是用户数量,相较于国外都有巨大的优势。”鄢贵海认为,国内厂商有望充分利用这一“应用势能”,加快发展步伐,在DPU这个赛道与国外厂商“逐鹿中原”。

不过,挑战与机遇并存。

“目前要解决DPU标准化应用,还存在一定挑战。”鄢贵海解释道,由于数据中心本身的复杂性,各大厂商一方面采用商用现货组件(即COTS)来构建系统,追求低成本,一方面又设法分层服务化,打造面向不用类型客户的标准化产品,但除此之外的所有技术实现几乎都是“八仙过海,各显神通”——如AWS有Nitro,阿里云有MOC。

“有的厂商强化IO能力、有的关注路由转发、有的重视存储卸载、有的关注安全加密,不一而足。”鄢贵海说,而上层负载不同,也必然对底层架构有各异的需求,这也许是目前DPU标准化面临的最大挑战。

未来中国DPU行业市场规模将达千亿级

资本对赛道看好、客户开始进入测试阶段,中国DPU行业进入高速发展期。放眼全球,DPU已在数据中心、通信及网络安全等领域加速渗透,客户已开始进行产品适配验证,准备投入应用。国际芯片巨头也纷纷开始布局DPU芯片业务,2020年NVIDIA收购Mellanox、2021年Intel推出IPU以及2022年AMD收购Pensando,DPU行业的崛起趋势已经明确。在此阶段,国内公司也面临着巨大的行业机遇与挑战:机遇在于国内公司将有望参与到新技术新应用的定义;挑战则在于大规模商业化方向仍待探索与验证、试错成本大。

目前部分国内公司已与国内大客户签订合同,进行产品、方案测试和引入,而客户是公司积累DPU推动商业化的经验的关键;DPU稳定性要求高、导入周期长,若验证成功,公司将与客户深度绑定,形成客户壁垒,进一步提升国内公司的影响力。整体上,国内DPU公司已具备把握机遇的能力,中国DPU市场进入高速发展期。

中国市场巨大DPU需求潜力即将释放,未来市场规模可达千亿级。中国DPU市场规模主要受两大核心增长动力所驱动:东数西算工程与数字化趋势。一方面,东数西算工程核心在于数据中心的算力资源配置优化,而DPU则能通过对网络、储存、算力等资源的有效调度,从而提升计算效率,能够较好地满足算力资源优化的需求。数据中心领域的主要客户云厂商与运营商的需求已确定,未来1-2年内市场将逐步放量。

另一方面,DPU所能触及的行业广泛,在全产业数字化转型趋势之下,DPU覆盖领域将从数据中心逐步向智能驾驶、网络安全、网络储存等领域渗透,而中国则是需求量最大的市场,市场规模潜力巨大。仅在中国数据中心领域,DPU市场规模将于2025年突破200亿元人民币,而综合多个领域的需求,预计未来中国DPU市场规模将达千亿级。

未来或将进一步拓展至自动驾驶、人工智能和元宇宙等领域

目前DPU主要应用于数据中心、通信及网络安全等领域。网络、存储与安全是DPU的三大功能应用,以互联网公司为首的云厂商,其存储在数据中心的庞大数据量对于DPU的网络虚拟化、存储虚拟化及安全加速能力有着显著的需求;5G建设的推进、千兆网的普及,通信运营商采用的CPU解决方案已无法负载现有的业务量;金融机构及大型央企则对防火墙、路由器以及负载均衡等网络安全的应用有需求…技术的演进、功能的迭代,上述应用领域的计算需求随数据量的爆炸式增长而显著提升,传统 CPU 已不堪重负。DPU能通过从服务器 CPU 中卸载基础设施任务,让尽可能多的CPU算力集中进行必要的工作。同时 DPU 芯片更优的硬件加速功能,相较于 CPU 能够以更快的速度运行基础设施。并且,DPU将传统分散运行在操作系统内和用户态的安全策略统一整合到底层的硬件中执行,将网络数据和应用数据收缩到智能网卡进行统一防护和管理,并提供灵活的数据路径监控和可视化的流量服务,配合加密算法,在CPU 数据受到破坏时,实现从数据传输到用户数据的立体化防护。

未来,DPU将向自动驾驶、元宇宙及人工智能等新兴应用领域延伸。如在智能驾驶领域, ADAS渗透率的上升使得单车日内产生的数据量多达1TB,若采用DPU解决方案,将大幅提高算力。随着DPU 厂商对应用场景的拓展,DPU 解决方案也将会对人工智能、元宇宙企业和新势力造车等领域进行渗透。总之,所有高带宽、低延时、数据密集的计算场景,DPU都将发挥巨大的作用。

文章来源:中国科学报,DeepTech深科技,头豹科技创新网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...