谷歌和甲骨文服务器被末世热浪“热晕”了,创新冷却技术的“位份”将更重要

微观人 2022-07-20

数据中心谷歌

2848 字丨阅读本文需 6 分钟

7月16日,三伏天正式拉开大幕。今年我们要经历的极端高温,可是长达40多天的「超长待机版」。

要问今年夏天有多热?

动物园的狮子热成狗。

马路热得烫脚。

目前,这波超强热浪正在席卷全球。欧洲正在上演末世一般的高温景象。各国气温创下纪录,纷纷拉响警报。据最新消息,近一周的热浪已造成葡萄牙和西班牙1000多人死亡。

甲骨文服务器「宕机」

不仅如此,在这波末世热浪的冲击下,谷歌和甲骨文在英国的云服务器已经热炸了!

看到温度计上的水银条冲到了史上前所未有的40.3摄氏度(104.5华氏度),英格兰东部的人们目瞪口呆。

显然,数据中心无法承受这种高温。为了避免机器的损坏,不得不切断它们的电源。于是许多服务器和虚拟机纷纷停摆,大量网站被迫关闭。

甲骨文在伦敦的云基础设施,一度有5处都处于离线状态。

甲骨文在周二表示,英国南部(伦敦)数据中心内的一部分冷却基础设施遇到了问题,因此,一些客户可能无法访问或使用该地区托管的Oracle云基础设施资源。

「服务团队已经在争取让受影响的基础设施恢复正常,但为了预防硬件故障,我们正在确定哪些服务基础设施可以关闭。我们这么做,也是想尽量避免对客户产生长期的影响。」

好在,经过「抢救」之后,有3处已经能正常运转了。

显然,在这种极端气温下,倒霉的不会只有一家。

谷歌「遭殃」

7月19日的当地午餐时间,甲骨文发生故障。就在大约2个小时后,谷歌也报告说,负责托管europe-west2地区的europe-west2-a出现了冷却故障。

由此影响到了众多与存储和计算相关的服务,包括BigQuery、SQL和Kubernetes等等。

有的是错误率和延迟飙升,有的则甚至直接404了。比如,英国WP引擎托管的WordPress网站,就直接瘫痪了。

不过,和甲骨文一样,谷歌也正在努力恢复冷却系统。

英特尔将液浸冷却技术提上日程

英特尔公司与绿色革命冷却公司(GRC)合作编写了一份关于液浸冷却(liquid immersion cooling)的联合白皮书,探讨了数据中心采用液浸冷却技术而不是空气冷却技术的实际好处,包括提高能源效率、降低环境影响和提高计算密度。

这两家公司在 1 月份宣布了一个多年期项目,旨在帮助数据中心行业减少数字基础设施对环境的影响。GRC 是白皮书的共同作者,专门从事液浸冷却技术,英特尔也在 5 月透露其正在建立自己的实验室来鉴定、测试和演示液浸冷却技术。

该论点的核心是,数据中心使用的电力约占世界总电力供应的 1.5%-2%。如果不加以控制,在未来十年,这一比例可能会扩大到 13%。

更重要的是,其中高达 40% 的电力消耗不是用于实际计算,而是用于冷却所有数据中心基础设施,而且随着处理器的功率密度不断增加,服务器现在已经突破了空气冷却系统所能应付的极限,冷却风扇能散去的热量是有限的。

根据英特尔和 GRC 的调查结果,许多数据中心运营商都意识到了这一点,多达四分之三的运营商现在正在考虑将可持续性作为竞争的差异化因素。然而,这两家公司声称,数据中心在电力使用效率(PUE)方面已经碰壁,近十年来平均在 1.6 左右徘徊。

白皮书补充说,取消内部服务器风扇可以减少 10-15% 的能源消耗。机箱内的热部件仍然必须以某种方式冷却,英特尔和 GRC 认为,全浸式液体冷却可以使更多的服务器安装在一个特定的空间里。他们声称,由于电力负荷减少,这就减少了开关设备、电缆和备用发电机等设备的数量,他们说这意味着资本支出和运营成本的降低。

不过,也有人质疑上述观点。Omdia 的数据中心物理基础设施高级首席分析师 Moises Levy 称,液浸冷却要求更专业的安装和更高的维护成本。还需要对冷却机制进行更专业的监控,包括对过滤系统的维护,可以检测到可能表明泄漏的细微压力变化的软件,以及对电介质液体本身质量的监控。

IT之家了解到,液浸冷却技术还有一个额外的好处,可使数据中心减少用于发电和辅助冷却的水消耗。

“双碳”战略下,绿色数据中心成为必然趋势

随着新基建、东数西算、数字中国等一系列国家级战略项目的全面铺开,数据中心产业增长提速。中国通信院发布的《数据中心白皮书》显示,2021年,我国数据中心行业市场收入达到1500亿元左右,近三年年均复合增长率达到30.69%。

但数据中心产业快速发展的同时,所面临的能耗挑战也与日俱增。尤其在“双碳”战略的指引下,各地都对数据中心的能耗指标作出了新规定,一方面,对新建数据中心的审批更为谨慎,另一方面,对存量数据中心的PUE值也提出更高的要求。

为了推动绿色数据中心的建设,2021年7月,工业和信息化部印发《新型数据中心发展三年行动计划(2021-2023年)》就提出,到2021年底,新建大型及以上数据中心PUE降低到1.35以下,到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。

数据中心最大的特性就是寿命周期很长,一座数据中心一旦落成,使用周期都以10年计,“着眼未来”是数据中心坚守的理念。因此,对于企业来说,数据中心作为承载算力的核心,已经成为数字化转型的坚实底座;而数据中心的绿色节能,也可以帮助企业更快实现“双碳”目标,切实践行绿色可持续发展。

对于数据中心来说,节能降碳是一项系统工程,涉及规划、设计、建设、运维等方面。目前,业界除了利用液冷、间接蒸发、自然冷却、高效供电等技术降低基础设施能耗,还在服务器、存储等IT领域开展更多技术研究,提高整体算力算效,同时结合可再生能源、储能、氢能等方式实现节能减碳。

其中,数据中心的设计是一个多专业、多领域的复杂平衡的事情,在“双碳”战略下,数据中心的技术架构将变得更加多样,规划设计也变得更加精细,企业必须将可持续发展理念纳入选址过程、优化供配电和制冷架构、通过数字化工具规划设计流程、选择绿色低碳的智能化产品等方式,设计高效的运行系统。

从智能冷却入手,数据中心将绿色低碳落到实处

在数据中心能耗标准中,PUE是关键能效考核指标之一。作为数据中心总设备能耗和IT设备能耗之间的比率,PUE越接近1,表明数据中心的电越多地用于数据中心的计算力中。对于数据中心来说,如何才能有效降低数据中心的PUE值?要解答这一问题,还要从数据中心的能耗结构入手。

对于数据中心来说,能源侧的碳排放主要来自于IT设备及基础设施的电力消耗;而在数据中心能耗结构中,主设备耗电占45%~55%,空调设备占35%~45%,电源及其他设备占10%~15%。由此可见,空调设备的冷却系统能耗是数据中心能耗的重要组成部分。

现有数据中心广泛采用风冷散热方式,或是利用室外机+冰水机的冷却系统输出冷气对机房服务器进行散热的方式,但传统的风冷散热模式不仅散热效率低,同时会耗费大量能源,难以满足建设绿色数据中心的要求。

此外,风冷技术一直被用于处理器使用功率不超过150W的系统。随着数据量暴增,设备的功率、密度和发热量都非昔日可比。想要实现提高散热效率、降低能耗的目标,必须在制冷设备中的导热介质、散热方案等领域做出彻底的革新。如今,液体冷却技术的崛起,无疑为数据中心的冷却提供了新的解决思路。

分析机构Gartner认为,到2025年,液冷技术的应用将降低数据中心20%-40%的运营成本,是更高效的风冷替代方案。如今,许多头部IT企业都在加强数据中心液冷市场的产品开发力度。有分析机构预计,到2026年,液冷数据中心市场的初始估值将从2018年的14.3亿美元增至1205亿美元,年化复合增长率达30.45%。

顺应这一趋势,由中国信息通信研究院云计算与大数据研究所具体牵头制定的5项数据中心液冷行业标准,已经于2022年4月1日起正式实施,不仅有效填补了当前国内外数据中心液冷行业标准的空白,也为液冷技术的普及奠定了坚实基础。

不过,受技术成熟度、应用条件等限制,数据中心若想从冷却系统能耗入手实现绿色低碳,还必须借助风冷、液冷等混合应用的模式。因此,在绿色数据中心建设中,必须要根据地理位置、工作负载等实际情况,科学地规划和采用不同的冷却系统,才能更加有效降低PUE值,进而实现节能降碳的目标。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...