AI服务器现“大黑马”,注册才一年多就做到了老二,还超越了华为,凭什么?

3421 字丨阅读本文需 9 分钟

产品到底哪家强,自己说了都不算,也不是比谁声音大,最好是有个公平的竞赛,好在世界是公平的,权威的世界级比赛还是有的。

中国AI服务器市场,成立不到2年的新品牌超越华为、新华三高居第二。

国内的AI服务器市场集中度一直比较高,浪潮信息是绝对的龙头,上半年市占率接近50%,比较意外的是2019年底刚刚注册成立的宁畅信息产业(北京)有限公司,仅用了一年多的时间就超越了华为和新华三,在国内AI服务器市场份额达到了13.8%,排名第二。

根据网上资料显示,宁畅的总裁秦晓宁是曙光信息产业前副总裁,宁畅致力于填补精细定制服务器市场空白,凭借多年来在服务器领域的研发积累,可结合用户需求,提供软件、硬件、运维、服务、认证等全方位的定制化服务。2020年4月,宁畅举行线上品牌发布会,目标是在2022年内,在中国区X86架构定制化服务器市场占有率超过50%,截至去年底,就已近千家企业、用户采购宁畅服务器产品,宁畅已经成为近年来服务器行业的最大一匹黑马。


要判断AI服务器哪家强, 国际AI性能基准测试MLPerf™可以说是试金石。

MLPerf™ 由图灵奖得主大卫•帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等顶尖学术机构发起成立,是影响力最广的国际AI性能基准评测。

八大场景测试 宁畅浪潮雄霸榜单

6月30日,国际权威AI性能基准评测平台MLPerf,发布了基于Training V1.0 的最新标准测试结果。宁畅 AI服务器X640 G40和X660 G45,分别以48.43、28.64成绩,取得固定任务(closed)赛道,单机服务器系统的MASK R-CNN、U-NET3D两项AI场景世界性能第一。

也就是说宁畅 AI服务器X640 G40和X660 G45在固定任务(closed)赛道8大场景测试中收获两大场景世界冠军。

而另外国产大厂---浪潮,在固定任务(Closed)赛道的全部8项任务中,获得图像分类 ResNet、自然语言理解 BERT、目标检测 SSD 和智能推荐 DLRM 4项训练任务性能冠军,其中,浪潮 NF5688M6 获得 ResNet、DLRM 和 SSD 的单机训练性能第一,NF5488A5 获得 BERT 的单机训练性能桂冠。

浪潮 NF5688M6和NF5488A5在固定任务赛道8大场景中一共收获4项冠军。

“国家对”表现非常强劲,浪潮在毫不掩饰自己的喜悦,新闻标题用上了:“浪潮AI服务器斩获半数冠军”。而宁畅则是直接用:“世界冠军!宁畅服务器获MLPerf 新纪录“来表达。

此情此景,真有点中国乒乓球队领奖的味道。

宁畅这样简单描述这一重要赛事的胜利:一秒分析5040张X光照片、AI"奥运会” MLPerf放榜、宁畅AI服务器再获世界性能第一。

浪潮则凭借卓异的软硬件系统优化能力,将 MLPerf™ 训练基准的单机效率进一步提升至新的高度。相比2020年 MLPerf™ Training v0.7 榜单,浪潮刷新了图像分类、自然语言理解、目标检测(SSD)和智能推荐4项任务的单机训练性能纪录,将模型训练耗时分别缩短了17.95%、56.85%、18.61%和42.64%,凸显出顶级 AI 服务器在 AI 模型训练效率上的巨大价值。

浪潮在 MLPerf™ 基准评测中的出色表现,得益于在 AI 计算系统创新上卓越的系统设计能力和全栈优化能力。在硬件层面,针对 AI 训练中常见的密集 IO 通信瓶颈,浪潮 PCIe Retimer Free 设计实现了 CPU-GPU 间通道免中继高速互联,大幅降低通信延迟,极大提升了 AI 训练效率;同时,针对高负载多 GPU 协同任务调度,对 NUMA 节点与 GPU 之间的通信进行全面优化和基准调校,确保训练任务中的数据 IO 无阻塞通信;此外,在通信散热层面,针对目前业界功率最高的 500W 80GB A100 GPU ,浪潮率先开发的先进片上液冷系统,确保 GPU 在全功率甚至超频负载下依然稳定工作,将 AI 计算系统的性能发挥到极致。

宁畅同样刷新的新记录,宁畅夺冠的两大场景MASK R-CNN、U-NET3D是重量级图像目标检测以及图像分割模型,其应用场景包括自动驾驶、医疗图像分析、监控、工业检测等,是典型数据中心应用模型。而第一成绩背后是每秒分析5040张X光照片、57000张图片以及570余次训练迭代的,单机服务器世界极限处理速度。

宁畅方面介绍,本次MLPerf Training V 1.0测试,共有16家国际一线厂商在固定任务(closed)赛道,提交了91个单机系统配置,并于DLRM、MASK R-CNN、Resnet50、SSD、U-NET3D等8个AI场景下,产生超百项测试成绩。MLPerf测试的AI场景包含固定任务(Closed)和开放优化(Open)两个赛道,固定任务(Closed)更侧重公平性,参与测试的各计算系统基于同一套参数运行。搭载英特尔第三代®至强®可扩展处理器、Optane™ BPS大容量持久内存以及NVIDIA® A100 Tensor Core GPU的宁畅X640 G40以及X660 G45,从众多机型配置中“杀出”,以48.43、28.64分钟成绩夺得MASK R-CNN、U-NET3D场景的单机世界性能第一,取得新世界性能纪录。

在MASK R-CNN、U-NET3D测试中,单机服务器系统需要运行29GB、21GB的原始图像数据,并通过分析与迭代最终完成模型训练。而完成过程所耗费时间越少,则印证系统性能越强。

此处划重点:

除获得以上两项性能冠军外,在横向比较搭载同400W功耗GPU的单机服务器系统,宁畅X660 G45在DLRM(推荐系统)、SSD(目标检测)固定任务赛道,以1.92、8.51分钟成绩取得世界性能第一。

请大家注意的是:浪潮 NF5688M6 获得 DLRM 和 SSD 的单机训练性能第一,搭载的是500W功耗GPU ,宁畅搭载的是400W功耗GPU 。

从这个角度上来说,宁畅收获的同样是八大场景4个冠军席位。

两强争霸不是头一回

我们来看去年榜单,2020年美国东部时间10月21日,全球备受瞩目的权威AI基准测试MLPERF公布推理测试榜单。

10月22日,浪潮AI服务器NF5488A5宣称一举创造18项性能纪录,在数据中心AI推理性能上遥遥领先其他厂商产品。

同日,宁畅AI服务器X640宣称:首登MLPERF,斩获30项AI性能世界第一,同配置测试获16项世界第一。

当时,宁畅工程师介绍,参加MLPERF INFERENCE(推理)基准测试的X640 G30 AI服务器,最高可支持10张NVIDIA A100 PCIE卡或21张NVIDIA T4 PCIE卡,堪称“性能猛兽”。

在去年基准测试中,浪潮AI服务器NF5488A5在开放优化(OPEN)和固定任务(CLOSED)的RESNET50基准性能测试中,均表现优异,相比2019年MLPERF推理榜单的服务器最好性能提升高达3倍。

总体来说,浪潮和宁畅都在去年的冠军的基础上获得了长足的进步。

值得注意的是,宁畅是夺冠MLPerf的唯一初创公司,而浪潮是全球领先的 AI 计算厂商, AI 服务器市场份额全球第一,在中国的市场份额已连续四年保持在50%以上。

不知道,面对如此贴身肉搏的宁畅,是否感到了压力?

大黑马的成长之路

宁畅优异的测试成绩,引起行业分析师的关注。

电子信息产业研究中心资深分析师袁钰表示,宁畅在AI加速服务器上的惊艳表现,足以说明其巨大的潜力,是近年来少有的服务器领域“独角兽”型企业。

而从宁畅对外公布的成绩来看,其成长速度确实惊人。

据宁畅公司透露,其创立仅12个月,就有近千家企业、用户采购宁畅服务器产品。并收到定制咨询350余次,累计落地服务器定制方案170项,宁畅用户已覆盖互联网、金融、电信等数十个行业,出货量以万计。

而根据国际数据公司(IDC)发布的《中国半年度加速计算市场(2020下半年)跟踪》报告显示,在AI加速器市场,宁畅公司的市场占有率已跻身中国前五。

对于创立初年的优异表现,宁畅总结是对客户需求的准确把握并提供定制化方案,让宁畅成为深信服、Ucloud、苏宁科技集团、华数传媒等知名企业的主要服务器供应商。

而这些厂商采用宁畅服务器,最关键的是看重宁畅提供的服务器定制化能力。

服务器新蓝海

根据东方证券《电子行业深度报告》显示,预计到2024年中国5G用户将超过7.7亿人,大环境对数据处理的需求增长,正拉动服务器出货量猛增。

《中国互联网发展报告(2021)》统计,2020年我国人工智能产业规模为3031亿元,同比增长15%,这意味着更高的数据处理量,以及围绕不同AI场景的多样化算力基础设施需求。

不断升高的数据处理量,多样化的场景,使得标准化的服务器产品痛点愈发凸显,如潜在的资源浪费、运维过于复杂及与应用场景难匹配等。

因此整个服务器市场,正加速进入定制化时代。据IDC市场调研显示,全球服务器市场定制化产品采购份额已达30%以上。

早在2020年创立之初,宁畅便提出“定制”战略,从质量、技术、行业等维度,为互联网、电信、金融、医疗、教育等细分市场用户,提供从架构、FEA、运维到部署等全周期的定制保障服务。

2021年4月,宁畅又提出“智定+”战略,重点面向AI算力用户,依托“智慧研发”、“质能制造”、“至享服务”等服务与技术体系,真正赋能用户AI应用场景。

不难看出,宁畅高速成长背后正是抓住了服务器定制化蓝海的重要契机。

结 语

我一直认为AI时代已经来临,但一服务器品牌主管坚持认为AI是一项技术。

如果从静态的角度来看,AI的确是一项技术。但从动态来看,AI带来了方方面面的改变,让我们感受到生活的各种便利和丰富多彩,关键是带来了产业链上的悄然变化。

浪潮IPF2021数据中心合作伙伴大会,公开资料中没见英特尔携手。回想起,2020年同样的大会,同样以智算为主题,IPF2020 宣传网页上清晰呈现:“英特尔携手浪潮,让智者更强。”而今年的合作大会上,浪潮与寒武纪发布AI服务器“扬子江”

再来看,累创佳绩的浪潮AI服务器NF5488A5采用的是2颗AMD EPYC7742处理器。

浪潮首席科学家王恩东在谈到智慧时代算力需求的时候说:“在2020年以GPU为代表的AI加速芯片所交付的计算力已经超过了同类CPU,预计到2025年加速芯片所提供的计算力可能在整个计算力交付当中超过80%。”

王恩东在谈到挑战多元化时说:“不同数值精度的计算类型对计算芯片的指令集、架构等要求也是不一样的,这样就导致之前一直使用的通用CPU没有办法满足多元计算场景的要求,应当说这也是计算芯片种类越来越多的重要原因。”

在多元化这一段段落最后,王恩东告诉大家:“英伟达公司的CUDA软件环境更是通过长期的大规模的投入才打造了支撑GPU在HPC和AI方面的霸主地位。”

听话听音,作为一位IT业者,你或多或少意会了英特尔为什么没有携手,或多或少你都能意会到产业链变革已经来临。剩下的问题是,你还以为AI 只是一项技术么?

来源:深度围观,易水辞寒,智东西

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:硬件君
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...