国内掀起智算中心“落地潮”,但算力国产化依然难行,为何?

7455 字丨阅读本文需 17 分钟

“算力”相关产业近期持续火爆。

据中国信息通信研究院测算,截至2021年底,中国算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,互联网数据中心(服务器)市场规模超过1500亿元,AI 核心产业规模超过4000亿元。

同时,“算力”发展也受到了资本市场关注。数据显示,自今年4月底起,A股算力相关概念板块指数涨幅高达26%。

“算力已经成为继热力、电力之后新的关键生产力。”工业和信息化部副部长张云明7月30日在中国首届算力大会上表示,国内算力产业近五年平均增速超过30%,算力规模超过150EFlops(每秒15000京次浮点运算次数),排名全球第二,第一是美国。

所谓“算力”,是指设备通过处理数据,实现特定结果输出的计算能力。2018年诺贝尔经济学奖获得者William Nordhaus在《计算过程》一文中提出:“算力是设备根据内部状态的改变,每秒可处理的信息数据量。”

小至芯片、手机、PC,大到汽车、互联网、人工智能(AI)、数据中心、比特币、超级计算机、航天火箭,“元宇宙”概念以及48万亿元规模的中国数字经济等,“算力”都在其中发挥着基础核心作用。没有算力就没有各种软硬件的正常应用。

实际上,算力既是信息基础设施的重要组成部分,也是承载数据和运算运行的平台,更是数字经济时代计算、存储、网络能力的一种综合体现。

目前,算力已经成为拉动中国经济增长核心引擎之一。据信通院数据显示,算力投入能显著提升经济价值:每1元的算力投入,可以带动3-4元的GDP(国内生产总值)经济产出,实现经济增长的倍增效应。计算力指数越高对经济的拉动作用越显著。

随着今年国家推出“东数西算”工程,地方上也进一步加码布局。发改委公布的数据显示,今年以来,全国10个国家数据中心集群中,新开工项目25个,带动各方面投资超过1900亿元。预计“十四五”期间,大数据中心投资还将以每年超过20%的速度增长,累计带动投资超过3万亿元。

算力还是中美未来科技竞争的关键因子。去年4月,美国商务部对中国国家超级计算济南中心、深圳中心、无锡中心、郑州中心等中国超算实体列入“实体清单”。有行业人士告诉钛媒体App,“算力的重要性在于,它是国家竞争能力高低的核心指标,也是中长期的投资抓手。”

不过,中国算力产业依然面临需求碎片化、国产基础软件生态和配套芯片不强、传输能力不足、无效算力增多、人才紧缺、难互通协同等诸多挑战。正如中国工程院院士王恩东在算力大会上所说,中国算力产业未来要加强顶层规划,规范产业发展,不能“躺平”,更要避免一哄而上、低水平重复的问题。

云岫资本合伙人兼CTO赵占祥接受钛媒体App采访时表示,服务器芯片“国产替代”需要长时间布局,有一个循序渐进的过程,同时还需要软件生态、人才、芯片性能、客户支持等资源整合,“这是一个全方位的工程(体系)。”

中国掀起智算中心“落地潮”

当大规模的人工智能、大数据基础设施建设在全球主要经济体推行之时,在政策扶持和需求推动下,中国也迎来了一股人工智能计算中心(下称“智算中心”)的“落地潮”。

据不完全统计,从2021年初到2022年2月底,全国至少有26个城市在推动或刚刚完成当地智算中心的建设,其中已经投入使用的就包括南京、合肥等地的智算中心。

中国智算中心的城市“大军”中又将迎来一位“新兵”。中新财经近日获悉,安徽省宿州市与浪潮签署战略合作协议,共同推进淮海智算中心建设。据悉,淮海智算中心总体投资10亿元,全面建成后智能算力性能将达30亿亿次每秒,将成为技术先进、架构开放、应用丰富、生态完善的智算枢纽。

算力是数字经济时代新的生产力,将为加强数字政府建设、激活数据要素潜能以及各行各业的数字化转型注入新动能,助推经济社会高质量发展。眼下,算力正从计算走向智算。

国家工业信息安全发展研究中心此前发布的《新一代人工智能算力基础设施发展研究报告》认为,现阶段,人工智能已经成为世界各国竞争角逐的焦点。智算中心作为人工智能产业发展的重要底层基础设施形态,也因此被推向发展新高地。

浪潮信息总裁彭震近日在接受中新财经等媒体采访时称,数字时代的智算中心,就像电气时代的发电厂一样,规划建设智算中心,构建未来经济增长的新引擎,是谋求经济模式创新和城市治理智能化转型的第一步,也是吸引产业聚集、人才聚集,促进产业升级的重要抓手。

彭震认为,算力基建化以算力服务为核心,将智算中心的计算、存储、网络等能力,通过智算中心操作系统进行统一调度并对外服务,把计算力像水和电一样提供给千行百业。过去的算力很大一部分源于传统的应用模式,但是在数字化转型的过程中,对智慧算力的需求会越来越大。

在彭震看来,在数字化时代,数据中心、智算中心等算力基础设施建设将会替代原来的“铁公基”成为新时代的新基建,成为经济增长、发展方式转变的主要动力,以前是“要想富,先修路”,现在是“想发展,投算力”。

他结合数据指出,根据全球服务器出货量估算,从2020年到2025年全球算力规模将提高30倍,用于深度学习的人工智能算力规模每隔三四个月就翻一番。数字化、智慧化时代对于算力的需求几乎是无穷尽的。

提升算力就是要“撒钱”堆服务器

2018年9月,台风“山竹”到来之前,深圳市气象台发布了雷暴及大雨预警。一个小时后,深圳全城下起了大暴雨。

深圳气象局能够如此准确的公布降雨、雷暴等灾害性天气,主要来源于云计算、AI、5G等技术以及灾害性天气 AI 气象预测模型,捕捉雷达、云图等数据中的时空关系实现气象预警。实际上,气象 AI 预测模型背后拥有每年约300TB的数据,那么就需要大量算力支撑,才能让模型应用,AI 技术实现产业落地。

而在浙江横店,每年有大量的影视作品在后期制作时需要对动画和特效进行渲染,而这类渲染工作就需用到大量的算力。考虑成本的情况下,这些后期工程文件会通过云平台,将其上传至贵州、内蒙这些西部地区的数据中心进行计算。

这些算力应用背后,服务器的作用功不可没。中国科学院院士邬贺铨表示,算力产业链很长,数据中心是算力产业里突出的中心环节。

按应用领域划分,算力包括两种:计算量小的通用算力,以及数据中心、超级计算机等在内的HPC(高性能计算)算力。

仅从算力经济来看,主要分为三个层次:

第一层次是算力的“基础设施建设”。作为新型生产力,算力离不开工具和技术。而基础设施是算力的工具,包括高性能芯片、数据中心、网络等基础设施建设为算力、应用以及产业发展提供可持续发展的保障。

第二个层次是算力应用。得益于基础设施的进步、数据推动算力水平的不断提升,云计算、大数据、AI、物联网、5G等应用都将发展,从而带来计算方法的革新,提高计算效率,拉动算力发展。

第三个层次是算力与实体经济产业的融合。工业互联网、金融科技、自动驾驶、智慧医疗等产业数字化加速、新的需求以及产生的大量数据,让超大算力得以“施展才华”。

“算力”产业链逻辑关系框架(来源:钛媒体App编辑整理)

相对于中国超14亿人的算力应用和消费市场,数据中心、芯片半导体等算力基础设施产业链,则是中国目前急需布局的重点领域之一。

作为算力的主要承载,数据中心就是一个容纳核心计算服务和基础设施的服务器机房(物理场所),可用于存储和计算数据。

数据显示,2019年,中国在用的数据中心数量达到2213个,其中超大型、大型数据中心数量占比12.7%。与之对比的是,美国超大型数据中心占到全球总量40%,国内数据中心建设仍有较大空间。

2021年5月,中国提出“东数西算”工程,计划在国内8个地方启动建设国家算力枢纽节点,规划10个国家数据中心集群,将东部算力需求以及产生的数据,通过网络引导到中国西部地区的数据中心处理、计算和存储。预计在2025年,中国将有望建成全国一体化数据中心系统。

借助“东数西算”东风,今年以来,阿里、华为、商汤、浪潮,以及国内三大电信运营商——中国移动、中国联通、中国电信等,在苏州、呼和浩特、成都等地大量投资,建立及运营新的数据中心或计算中心。

中国移动副总经理高同庆表示,预计2021年内,中国移动数据中心投产能力超过117万架。2022年,中国移动算力网络资本开支达数百亿元,未来还将继续在算力领域加大投入。目前中国移动长三角数据中心位于南京江北新区,投资超200亿元。

“国内提出‘东数西算’,是利用西部比较充裕的能源,比较廉价的电费,以及有可能利用再生能源,更好满足低碳的需要。”邬贺铨表示。

不过邬贺铨也质疑称,“东数西算”工程难以互通,从而让算力与存储容量无法得到最佳利用。

他以广东数据中心规划为例,“他们设计省内算力70%,省外算力30%。按理说,省外就是冷数据,应该占比80%,那与省外算力30%差别很大,这是否意味着,80%是指存储容量而非算力的比例?另外,在市场经济条件下,东部与西部并非固定配对,如何各自做到容量最佳利用?”

而作为AI技术三要素(数据、算力、算法)之一,算力在 AI 中也发挥了关键作用。商汤科技联合创始人林达华告诉钛媒体App,在青岛市西海岸新区,利用其 AI 大装置算力以及算法技术支持下,商汤对千万级海量遥感影像样本数据进行深度学习,形成多种面向业务应用场景的算法模型。在城市违建治理、生态环境监测、河湖四乱治理等方面实现了问题的高效发现和治理核查。

此外,当前中国的算力建设还受到碳中和、碳达峰目标的制约:一是工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》等政策,面对算力设施的建设方针和能耗管理趋于严格,如2023年新建大型及以上数据中心电能利用率(PUE)将被要求降到1.3;二是能耗“双控”背景下,地方政府对于建设高能耗算力设施的积极性在降低。

因此,国内外头部IT企业也开始部署液冷技术。业内人士告诉钛媒体App,目前高功率服务器应用越来越多,其可在同等温度下大幅提升数据中心的运算效率,为提升高功率服务器散热需求,同时降低散热能耗,业内通常采用冷板、浸没、喷淋三类液体冷却服务器方案,通过将CPU(中央处理器)、GPU(图形处理器)等服务器部件与冷板液冷的冷板紧密贴合,或与浸没液冷直接接触,提升服务器散热系统换热能力,实现高功率运算。

阿里云数据中心设施模型在2022中国算力大会展示。下面两端物体是浸没液冷的CDU,也叫冷源分配单元,它起到内外换热的作用,把吸收服务器热量的液体收集后,在CDU内部与外部冷源进行换热,是一个中间装置;上面两端则是浸没液冷的一种冷源形态,图中是给集装箱内的液冷tank进行散热用,设备类型可能是冷塔、干冷器、冷机等(图片来源:钛媒体App编辑拍摄)

无锡数字经济研究院执行院长吴琦表示,一些规模小、能耗大、技术更新缓慢的企业和设施将面临淘汰,电能利用效率高的产品会是未来算力市场的主流。

政企花了钱,算力也难用

中国首届算力大会上,中国工程院院士刘韵洁直言,目前不管是算力网络,还是算力面临着诸多挑战。如果不能解决这些问题,算力网络将难以构建(实现)。

实际上,算力网络是基于数据中心等算力基础设施,将海量数据通过云、边、端协同方式,实现智能计算与网络连接。华为发布的《通信网络2030》提到,算力网络代表了从“面向人的认知”向“面向机器认知”(AI)的网络设计理念的重要变化,联接海量用户数据与多级算力服务。

因此,刘韵洁的说法意味着,政府、企业花了大量的资金投入算力基础建设,但如果算力网没有构建好,算力也很难使用。

刘韵洁认为,目前算力网络面临三个主要挑战:

一是实时性严重缺乏,目前互联网几乎没有实时性的能力,而实时性的能力,不论是工业、能源还是电力,都提出了确定性网络的具体指标;二是带宽的挑战,FAST(500米口径球面射电望远镜)每天产生的数据大概超2000TB,这些数据与全球网络共享,网络带宽的不确定性导致传输效率低;三是当前“烟囱化算力”难互联、难协同,这就造成算力利用率低,使得算力成本增加,如何将“算力”和“网”深度融合在一起,也是一个非常大的挑战。

以国有企业“宝武钢铁集团”为例。武钢通信技术有限公司总工程师陈巍崴曾在2021年7月提到,宝武集团工厂存在大量非云化设备,且协议不开放、工业连接组模不丰富,对接耗费成本;再就是工控网、管理网和互联网多网并存,网络安全无法有效管控。传统“尽力而为”的网络已经无法满足宝武集团数字化及新业务。

华为的智能算力网络生态(来源:钛媒体App拍摄)

实际上,算力网络、基础设施的互联互通、转移新平台设施一直是企业的核心难题——阿里云没有腾讯云、华为云平台接口,美国Oracle数据库的信息资料没办法转移等。

2021年3月,作为金融领域的国有企业,中国邮政储蓄银行发布采购前公示,而且是单一来源采购,理由是:当前多个核心生产系统使用美国Oracle(甲骨文)数据库进行数据存储和处理,无法替换。随后6月,邮储银行以1.45亿元与甲骨文签下续约合作。

那么,如何解决“全国算力一张网”的难点与挑战?

刘韵洁院士提出,建立以“大带宽、低时延、超低抖动、极高可靠”为主要特征的确定性网络,支撑产业核心应用加速云化、线上化、智能化,将真正改变产业互联网模式。“无论是智慧医疗、能源、交通,以及未来的元宇宙,没有确定性的网络会有问题。”

与此同时,中国也在努力逐步解决这一难题。今年6月15日,中国正式上线“中国算力网-智算网络”,将整个算力网络接入中央批准成立的鹏城实验室的鹏城云脑、北京、杭州等9个算力中心,总算力超过2000PFlops(每秒200亿亿次浮点运算)。

华为公司副总裁、计算产品线总裁邓泰华认为,中国算力网是一个大工程。目前中国有电力网、高铁网、通信网,未来有算力网,尤其利用大型的算力资源连成一张网。

“东数西算”实际上是“东数西存”

邬贺铨认为,数据分为冷数据和热数据,“热数据主要是一些需要实时性计算的数据,相比之下冷数据就不需要实时性了,国家的八大算力枢纽,实际上西部主要是处理冷数据,当然还有本地的一些数据,而东部主要是热数据。”

今年2月,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。

“人类历史上90%的数据都是过去几年产生的,50%是短短两年产生的,意味着两年之前的数据肯定都是冷数据,而且两年之内产生的数据也有很多是冷的。预见到2025年的数据量年均增长30%。最近产生的数据是热数据,但是热数据经过一周或者几个月以后,也要变成冷数据。一般的统计,冷、温、热的数据分别占到80%、15%和5%,也就意味着‘冷’是主要的。冷数据主要是存储,对冷数据来讲,计算不是常态。要这样算,东西部分别是热数据和冷数据,照这样算,‘东数西算’实际上是‘东数西存’,主要存在西边,当然偶尔会有一些计算。”

国产化依然难行

作为“算力”的极限领域,中国超级计算机一直受到美国超级电脑的压制。

2016年,美国以担心中国“天河二号”进行核子研究为由,禁止英特尔出口芯片给中国。随后于2016年,利用上海高性能集成电路设计中心自研设计的SW26010处理器,中国自主研发出“神威·太湖之光”超级计算机,以93014.6TFlops问鼎世界第一。

不过,到了2018年6月,“神威·太湖之光”被美国IBM研发的Summit OLCF-4超级电脑所超越。

2021年4月起,美国商务部对多家中国超级计算机实体列入“实体清单”,其中包括天津飞腾信息技术有限公司、上海高性能集成电路设计中心、成都申威科技有限责任公司,以及中国国家超级计算济南中心、深圳中心、无锡中心、郑州中心等。更早之前,美国对华为海思、中芯国际、商汤等“算力”产业链相关企业进行制裁。

截止发稿前,Top500网站数据显示,目前全球超算排名第一的是,美国能源部及芯片巨头AMD、HPE慧与科技合作研发的Frontier(OLCF-5)全球首台百亿亿次级计算机。而中国“神威·太湖之光”排名第六,“天河二号”则排名第八。

在中美博弈持续升级的大背景下,目前包括服务器芯片、软件系统、数据库等领域仍依赖于国外产品,“算力”产业的国产化依然难行。

其中在服务器整机市场方面,IDC数据显示,2021年全球服务器市场出货量和销售额分别为1353.9万台和992.2亿美元,其中中国销售占比达25.3%。2022年第一季度,全球服务器市场份额排名前五,分别是美国戴尔(份额高达16%)、中国浪潮(10%)、美国惠普、美国AMD、中国联想(不足5%)。

操作系统装机量方面,数据显示,尽管互联网领域的服务器操作系统,实现100%国产化,但通信、金融和政企领域依然有35%以上,仍依赖国外操作系统,例如美国微软的Windows、IBM的Redhat等。

算力数据库方面,中国软件协会数据显示,国内集中式数据库市场,国外品牌仍占据90%以上;关系型数据库领域,美国微软(21.6%)、甲骨文(21.4%)和亚马逊(8.5%)共占市场总份额的50%以上。

最重要的服务器芯片领域,无论是通用处理器还是加速处理器,英特尔(Intel)、AMD和英伟达占据国内85%以上的服务器芯片市场,国产处理器及关键零部件份额较低。

“这其实还是一个软件生态的问题,因为英伟达、英特尔等国外的软件生态太强了,国内企业想要追上来难度很大,需要投入很长时间与大量资源。”赵占祥对钛媒体App表示,Windows等操作系统需要几十万开发者,而国内很难调动这么多资源,因此国内服务器需要长期依赖国外芯片企业。

7月31日结束的中国计算机学会(CCF)芯片大会上,清华大学教授魏少军就表示,国产服务器芯片的产品能力不行,无法具有足够的市场竞争力。例如,国内芯片无法实现服务器中非常重要的配置并发多线程(SMT)能力,而国外芯片在这个问题上已经全面突破,国产芯片技术依然落后。

“我们花了很多精力去建立AI平台,实际上不可用,或者说它并没有想象的那么好。说的更好听一点,还没有达到我们所需要的要求,仍需要时间等待。”魏少军表示。

一家国产GPU芯片企业高管告诉钛媒体App,很多国产服务器板卡都无法在客户数据中心上“跑动”,因为适配度较差。

今年以来,阿里、腾讯、字节都纷纷开启了“造芯”模式,均与服务器有关。但一位芯片行业人士对钛媒体App表示,互联网“造芯”无法从根本上解决国内服务器依赖进口芯片的情况。

在赵占祥看来,这些互联网企业“造芯”主要原因是自身服务器的降本增效。

目前,浪潮、阿里云、腾讯云等国内厂商,仍大部分使用美国芯片企业的产品。其中,腾讯云的星星海处理器均为AMD、英特尔定制开发;阿里云第七代云服务器ECS的CPU则采用英特尔第三代Xeon可扩展处理器;浪潮服务器所使用的芯片大部分来自英特尔、AMD、英伟达三家,部分服务器则使用寒武纪的 AI 芯片。

“算力建设的最大难点还是在于半导体与集成电路制造。而在服务器芯片领域,无论是通用处理器还是GPU芯片,对国外的依赖程度非常高,解决问题的难度也非常大。”王恩东认为,中国要集中力量打造国产CPU芯片,打破技术壁垒,不能烟囱林立。

另外,节能减排是算力提升进程中绕不开的话题。目前,数据中心的能耗大概占全社会能耗的2%,不过在邬贺铨看来,“尽管比例不大,但是相当于一个三峡加一个葛洲坝,也就是说能耗绝对值还是相当可观的,而且还在增长。”

因此,在建设数据中心时多在强调PUE值,即数据中心消耗的所有能源与IT负载消耗的能源的比值,是评价数据中心能源效率的指标。“现在一般希望能做到1.3,也就是说主要的能耗还在IT上面,数据中心附加的制冷、空调等尽可能降低,当然PUE值低了,仍然不能反应就可以了,因为我们希望 PUE值的电力最好是来自‘绿色’的,所以还有一个指标叫CUE(环保效率),比如说碳排放,在常规能源情况下,PUE跟CUE是等效的,消耗多少电就排放多少二氧化碳。”邬贺铨说。

邬贺铨还指出,“PUE、CUE都降低,也不等于说IT的能耗不需要再进一步降低,IT的能耗其中有服务器里的能耗,有存储站的能耗,有网络站的能耗,数据中心虽然是7×24小时工作,但不是7×24小时计算,很多时间是不计算,但是也耗能,也就是说不仅要降低计算的耗能,还要降低存储的耗能。”

对此,邬贺铨建议,针对冷数据可用磁带代替磁盘,以降低大量能耗,对热数据,可先用闪存代替硬盘,这样访问速度会快,而且能耗也能降低,“只是目前成本要高一点。”

在降低耗能之外,另外一个努力方向应是降低数据中心的散热,“现在已经提出来用液冷、水冷,甚至有人提出把数据中心泡在水底上、海底上,或者利用自然冷却,比如挖个山洞,利用山洞的穿堂风等。”邬贺铨说,不过他也指出,尽管数据中心的能耗值得关注,但还应该看到,数据中心提供的节能效果是它自身产生能耗的20倍。

张云明表示,下一步工信部将要加速推进高端芯片、核心算法等算力关键核心技术的研发突破,攻克关键技术,支持企业、科研机构开展联合攻关,增强算力产业链、供应链自主可控能力,并在绿色低碳发展等方面发力。

“不能说芯片初创企业一旦亏损就不投资了。我认为,更多的民间资本应该要投资长期会亏损、对国家很重要的芯片企业,而且政策上要鼓励其早点上市,给这些亏损公司融资提供一个比较好的通道。”赵占祥说。

来源:钛媒体APP,封面新闻,中国新闻网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:数据包
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...