鹅厂最新力作拥有TB级数据吞吐能力,高算力才是未来经济的基础

数据包 2023-04-14
3349 字丨阅读本文需 8 分钟

4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,服务器之间采用业界最高的3.2T超高互联带宽,为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

实测显示,腾讯云新一代集群的算力性能较前代提升高达3倍,是国内性能最强的大模型计算集群。

大模型进入万亿参数时代,单体服务器算力有限,需要将大量服务器通过RDMA网络相连,打造大规模算力集群。通过对处理器、网络架构和存储性能的全面优化,腾讯云攻克了大集群场景下的算力损耗问题,能为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。腾讯自研的星脉网络,为新一代集群带来了业界最高的3.2T的超高通信带宽。实测结果显示,搭载同样的GPU,3.2T星脉网络相较1.6T网络,能让集群整体算力提升20%,让超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。

存储层面,几千台计算节点同时读取一批数据集,需要尽可能缩短加载时长。腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级IOPS,充分满足大模型训练的大数据量存储要求。

底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的TACO Train训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

腾讯混元大模型背后的预训练框架AngelPTM,也已通过腾讯云对外提供服务,帮助企业加速大模型落地。

算力与数字化转型

传统的数据中心通常是单一的算力架构。随着业务应用的不断复杂化,单一的CPU算力很难满足现有的应用场景。张振谈到针对图形类的计算、推理深度学习的计算等,由于CPU性能无法充分得到发挥便延伸出了GPU,目前这种CPU+GPU异构算力的架构在大型数据中心已得到广泛使用。未来随着业务不断深入以及业务场景对网络的高要求,将会产生对DPU的需求,DPU最大限度卸载CPU和GPU处理网络性能算力需求,能让CPU和GPU充分发挥各自擅长计算领域,CPU+GPU+DPU多样性算网融合架构将成为未来先进多样性主流发展方向。

数字化转型丰富了要素资源体系,开辟了新的增长源泉,成为提升全要素生产率的关键方向,而企业数字化转型的关键突破口正是算力。

算力成为数字经济时代的生产力,那算力产业的发展又将如何影响数字经济发展水平呢?陈霞教授认为数据已经构成数字经济的核心生产要素,算力已经成为挖掘数据要素价值的生产力,驱动数字经济的发展。在中国信通院《中国数字经济发展白皮书》中提到了数字经济的“四化”模型,其中生产力包括驱动数字产业化和产业数字化。首先从产业数字化方面来看,算力产业在为传统产业赋能,成为推动产业数字化转型的重要基础。它不止帮助企业降本增效,还能够重塑和优化产业结构,助力我国从大国向强国进行转变。其次从算力对经济影响来看,由IDC及清华大学机构联合编制的《2021~2022全球计算力指数评估报告》显示,一个国家或者地区增加算力的投资可以带来经济的增长,计算力指数平均每提高一个点,数字经济和GDP将分别增长3.5‰和1.8‰,且这种增长具有长期性。

算力产业赋能传统产业,针对算力如何深度赋能千行百业进行数字化转型,中兴通讯张振认为不同的行业要根据应用场景和业务场景选择最合适的基础设施。比如,做计算型业务的,要选用核数多、主频高的服务器;做存储型业务的,选择支持盘多的;做高性能计算或推理或科学研究型业务的,要选择特定的AI算力服务器,适配高速的GPU卡。数字化转型需要算力的升级,算力和业务场景又该如何进行关联,对此Intel陈治文指出,算力要想真正服务到业务场景之中,首先需要对业务场景需求做到深入了解,通常算力的发挥需要“软硬”兼施。

算力的发展对企业数字化转型至关重要,针对未来算力将如何发展,又将面临何种挑战等问题,陈霞教授从政策方面进行了解答。她指出,我国颁布了很多支持、鼓励、规范算力行业的相关政策,比如《“十四五”数字经济发展规划》里面提出,加快构建算力、数据等资源协同的全国一体化大数据中心体系,以及工信部也表示,将进一步推动算力基础设施的建设,加速打造数网协同、数云协同、云边协同、绿色智能的多层次算力设施体系,实现算力水平的持续显著提升,夯实数字经济发展“算力底座”。总体来看,目前算力发展呈良好的发展态势。

5G、云计算、人工智能等新技术的流行大大扩宽了算力的应用场景,应用场景的变化对算力提出了新需求与新挑战,“5G是一个非常重要的技术指标,它的出现使得云边协同、边缘端的计算有了突飞猛进的增长。”Intel陈治文说到,“现在我们会发现云计算的发展趋势越来越趋向于资源极端整合,而人工智能体现在利用人工智能加速器去追求一些性能上的表现,这些都是为了满足客户不同层面的需求。”另外,服务器作为数据存储及计算的主要承载,是数字经济运转的核心底座。在保障数据存储和计算的安全性与可靠性方面,中兴通讯张振表示从整个硬件安全底座的角度来看,设备安全分为物理安全和数据安全。第一,物理安全,服务器要高可靠、故障率低,设计要考虑到冗余的备份;第二,数据安全,中兴通讯基于Intel数据安全和加密技术,推出整体全套的数据安全保护方案。

算力总规模大了,有什么用?

算力总规模一般指某个计算机系统、网络或者区块链网络中参与计算的终端设备的总体计算能力,通常以浮点运算次数(FLOPS)或哈希速度(hash rate)等指标进行衡量。

算力总规模的大小直接关系到系统或网络的处理速度、性能和运行效率,这对于许多应用领域都具有非常重要的意义。

首先,算力总规模大可以提高系统或网络的运行速度和性能。例如,一个拥有大量计算能力的数据中心可以更快地处理数据,提高数据处理的效率和准确性。在区块链网络中,算力总规模大的节点可以更快地解决数学难题,从而提高交易验证的速度和准确性,保证网络的安全性和稳定性。

其次,算力总规模大可以为一些特定的应用场景带来更广泛的应用。例如,在人工智能领域中,拥有大量算力的计算机系统可以更好地处理复杂的图像、语音和自然语言等数据,从而提高机器学习和深度学习的效率和准确性。在科学研究领域中,拥有大量算力的计算机集群可以更快地模拟天体物理学、分子动力学等计算密集型的科学计算,为科学研究带来更多的突破。

最后,算力总规模大还可以带来经济效益。例如,在比特币等加密货币挖矿过程中,拥有大量算力的矿工可以更快地解决数学难题,从而获得更多的奖励,带来更多的经济收益。

综上所述,算力总规模大具有非常重要的意义,它可以提高系统或网络的处理速度和性能,为一些特定的应用场景带来更广泛的应用,同时还可以带来经济效益。

“东数西算” 已进入全面建设阶段

算力,如同农业时代的水利、工业时代的电力,已成为数字经济发展的核心生产力,是国民经济发展的重要基础设施。但是,算力越高,对能源的需求就越大,为了让资源更合理地配置,2022年我国的“东数西算”工程正式启动。目前,京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地的国家算力枢纽节点,已经全部开工。

在西部地区发展数据中心,把东部地区经济活动产生的数据和需求放到西部地区来计算和处理。具体什么样?我们走进内蒙古和林格尔集群看一看。

这段时间,在内蒙古高性能计算公共服务平台,工作人员正在利用超算服务器为清华大学科研团队模拟复杂的大气环流,对全球气候变化和预测评估提供更为科学的理论支持。

内蒙古高性能计算公共服务平台项目负责人 徐星海:它的计算能力是1亿亿次,相当于普通的我们笔记本电脑要10万台一起运算,才跟它的计算能力是匹敌的。

机房内超算服务器信号灯闪烁,中控室内各项参数飞快更迭,充足的算力,为科研提供了强大支撑。投运2年来,这里已经为全国近百所高校和科研机构,累计提供了约5200万机时服务。徐星海介绍,超算服务器除了能进行复杂的运算,还能进行模拟仿真实验。

内蒙古高性能计算公共服务平台项目负责人 徐星海:在超算里面可以相当于有一个虚拟的实验室,而这个虚拟实验室可以设置我们一般的实验室很难同时设置的多种试验环境,同时进行筛选。这样能大大加速科研的进程,原来要几个月的时间,那么在超算的实验室里可能几个小时就完成了。

凭借每秒超30万亿次的运算能力,该算力中心为超高清视频渲染及AI、VR虚实结合的实时互动等应用,提供强大的算力支撑。以往只能在用户端通过高性能设备处理的工作任务,在这里不仅能高效地完成,还能大大降低用户的设备投入。

数据产业的蓬勃发展,离不开信息的高速传输。作为国家互联网骨干直联点之一,目前和林格尔新区与国内18个主要城市实现高速数据直连,建成了国际互联网数据专用通道,为“东数西算”奠定了坚实的网络基础。以呼和浩特到北京为例,目前两地间网络互访时延仅为10毫秒左右。

今年,内蒙古将按照全国一体化大数据中心协同创新体系建设布局,有序推进和林格尔数据中心集群建设,进一步提高京津冀高实时性算力保障,加快建设国家北方算力中心。

文章来源: 数智前线,光明网,36氪,知识基地

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:数据包
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...