英特尔公布重大技术架构改变,面向 CPU、GPU 和 IPU

2618 字丨阅读本文需 5 分钟

IT之家 8 月 19 日消息 在 2021 年英特尔架构日上,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理 Raja Koduri 与多位英特尔架构师,介绍了两种全新 x86 内核架构的详情。

英特尔首个性能混合架构,代号“Alder Lake”,以及智能的英特尔硬件线程调度器;专为数据中心设计的下一代英特尔至强可扩展处理器 Sapphire Rapids;基础设施处理器 (IPU);即将推出的显卡架构,包括 Xe HPG 微架构和 Xe HPC 微架构,以及 Alchemist SoC,Ponte Vecchio SoC。

能效核

全新的英特尔能效核微架构,曾用代号“Gracemont”。能效核可以利用各种技术进步,在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进功能直接提高性能,这些功能包括:

拥有 5000 个条目的分支目标缓存区,实现更准确的分支预测

相比英特尔最多产的 CPU 内核 Skylake,在单线程性能下,能效核能够在相同功耗下实现 40% 的性能提升,或在功耗不到 40% 的情况下提供同等性能。与运行四个线程的两个 Skylake 内核相比,四个能效核所提供的吞吐量性能,能够在功耗更低的情况下同时带来 80% 的性能提升,而在提供相同吞吐量性能时,功耗减少 80%。

性能核

英特尔全新性能核微架构,曾用代号“Golden Cove”。性能核拥有更宽、更深、更智能的架构:

更宽:解码器由 4 个增至 6 个,6µop 缓存增至 8µop,分配由 5 路增至 6 路,执行端口由 10 个增至 12 个

性能核是英特尔有史以来构建的性能最高的 CPU 内核,并通过以下功能突破了低时延和单线程应用程序性能的极限:

相比目前的第 11 代英特尔酷睿处理器架构(Cypress Cove),在通用性能的 ISO 频率下,针对大范围的工作负载实现了平均约 19% 的改进

Alder Lake 客户端 SoC

代号为“Alder Lake”的英特尔下一代客户端架构是英特尔的首款性能混合架构,它首次集成了两种内核类型:性能核和能效核。Alder Lake 基于 Intel 7 制程工艺打造而成,支持最新内存和最快 I/O。

Alder Lake 支持从超便携式笔记本,到发烧级,到商用台式机的所有客户端设备,它采用了单一、高度可扩展的 SoC 架构,提供三类产品设计形态:

高性能、双芯片、插座式的台式机处理器 ,具有领先性能和能效。支持高规格的内存和 I/O

英特尔需要在不影响功率的情况下满足计算和 I/O 代理对带宽的需求。为了解决这一挑战,英特尔设计了三种独立的内部总线,每一种都采用基于需求的实时启发式后处理方式。

・ 计算内部总线可支持高达 1000GBps—— 即每个内核或每集群 100GBps,通过最后一级缓存将内核和显卡连接到内存

具有高动态频率范围,并且能够动态选择数据路径,根据实际总线结构负载而进行时延和带宽优化

・ I/O 内部总线支持可高达 64GBps,连接不同类型的 I/O 和内部设备,能在不干扰设备正常运行的情况下无缝改变速度,选择内部总线速度来匹配所需的数据传输量

・ 内存结构可提供高达 204GBps 的数据,并动态扩展其总线宽度和速度,以支持高带宽、低时延或低功耗的多个操作点

英特尔硬件线程调度器

为使性能核和能效核与操作系统无缝协作,英特尔开发了一种改进的调度技术,称之为“英特尔硬件线程调度器”。硬件线程调度器直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。硬件线程调度器具有动态性和自适应性 —— 它会根据实时的计算需求调整调度决策 —— 而非一种简单的、基于规则的静态方法。

传统意义上,操作系统会根据有限的可用数据做出决策,如前台和后台任务。硬件线程调度器可通过以下方式增加新维度:

使用硬件遥测工具将需要更高性能的线程引导到当时适合的性能核上

Xe HPG 微架构和 Alchemist SoC

Xe HPG 是一款全新的独立显卡微架构。Xe HPG 微架构为 Alchemist 系列 SoC 提供动力,首批相关产品将于 2022 年第一季度上市,并采用新的品牌名 —— 英特尔锐炫(Intel Arc)。Xe HPG 微架构采用全新的 Xe 内核,是一款聚焦计算、可编程且可扩展的元件。

客户端显卡路线图包括 Alchemist(此前称之为 DG2)、Battlemage、Celestial 和 Druid SoC。在演讲中,英特尔展示了微架构细节,并分享了在试产阶段的 Alchemist SoC 上运行的演示视频,包括真实游戏展示,虚幻引擎 5 测试良好,全新的基于神经网络的超取样技术 XeSS 等。

基于 Xe HPG 微架构的 Alchemist SoC 能够提供可扩展性和计算效率,并拥有以下关键架构特征:

多达 8 个具有固定功能的渲染切片,专为 DirectX 12 Ultimate 设计

XeSS

XeSS 利用 Alchemist 的内置 XMX AI 加速,带来了一种可实现高性能和高保真视觉的全新升频技术。其使用深度学习来合成接近原生高分辨率渲染质量的图像。英特尔表示,凭借 XeSS ,那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行。

XeSS 的工作原理是通过从相邻像素,以及对前一帧进行运动补偿,来重建子像素细节

下一代英特尔至强可扩展处理器(代号为“Sapphire Rapids”)

Sapphire Rapids 的核心是一个分区块、模块化的 SoC 架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片 CPU 接口优势的同时,具有显著的可扩展性。Sapphire Rapids 提供了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和 I/O 等所有单元上的全部资源,由此实现整个 SoC 具有一致的低时延和高横向带宽。

Sapphire Rapids 基于 Intel 7 制程工艺技术,采用英特尔全新的性能核微架构。

Sapphire Rapids 提供数据中心相关加速器,包括新的指令集架构和集成 IP,以在各种客户工作负载和使用中提升性能。新的内置加速器引擎包括:

英特尔加速器接口架构指令集(AIA)—— 支持对加速器和设备的有效调度、同步和信号传递

基础设施处理器(IPU)

IPU 是一种可编程的网络设备,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销。英特尔推出了以下 IPU 家族的新成员。

Mount Evans 是英特尔的首个 ASIC IPU。Mount Evans 是与一家云服务提供商共同设计和开发的。

超大规模就绪,提供高性能网络和存储虚拟化卸载,同时保持高度控制

Oak Springs Canyon 是一个 IPU 参考平台,基于英特尔至强 D 处理器(Intel Xeon-D)和英特尔 Agilex FPGA 构建:

卸载 Open Virtual Switch(OVS)等网络虚拟化功能以及 NVMe over Fabric 和 RoCE v2 等存储功能,并提供硬化的加密模块,提供 2x 100Gb 以太网网络接口

IT之家了解到,英特尔 N6000 加速开发平台,代号为“Arrow Creek”,是专为搭载至强服务器设计的 SmartNIC。其特性包括:

英特尔 Agilex FPGA。用于高性能的 100GB 网络加速的英特尔以太网 800 系列控制器

Ponte Vecchio 基于 Xe HPC 微架构。英特尔公布了 Xe HPC 微架构的 IP 模块信息;包括每个 Xe 核的 8 个矢量和矩阵引擎(称为 XMX Xe Matrix eXtensions);切片和堆栈信息;以及包括计算、基础和 Xe Link 单元的处理节点的单元信息。在架构日上,英特尔表示,早期的 Ponte Vecchio 芯片展示了领先的性能,在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录。英特尔 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量,高于 5 TBps 的内存结构带宽,以及高于 2 TBps 的连接带宽。同时,英特尔分享了一段演示视频,展示了 ResNet 推理性能超过 43,000 张图像/秒和超过每秒 3400 张图像/秒的 ResNet 训练。

Ponte Vecchio 由多个复杂的设计组成,这些设计以单元形式呈现,然后通过嵌入式多芯片互连桥接(EMIB)单元进行组装,实现单元之间的低功耗、高速连接。这些设计均被集成于 Foveros 封装中,为提高功率和互连密度形成有源芯片的 3D 堆叠。高速 MDFI 互连允许 1 到 2 个堆栈的扩展。

计算单元是一个密集的多个 Xe 内核,是 Ponte Vecchio 的核心。

一块单元有 8 个 Xe 内核,总共有 4MB 一级缓存,是提供高效计算的关键

基础单元是 Ponte Vecchio 的连接组织。它是基于 Intel 7 制程工艺的大型芯片,针对 Foveros 技术进行了优化。

基础单元是所有复杂的 I/O 和高带宽组件与 SoC 基础设施 ——PCIe Gen5、HBM2e 内存、连接不同单元 MDFI 链路和 EMIB 桥接

Ponte Vecchio 已走下生产线进行上电验证,并已开始向客户提供限量样品。Ponte Vecchio 预计将于 2022 年面向 HPC 和 AI 市场发布。

oneAPI

目前,NVIDIA GPU、AMD GPU 和 Arm CPU 均有 Data Parallel C++(DPC++)和 oneAPI 库。同时,英特尔还提供了商业产品,包括基本的 oneAPI 基础工具包,它在规范语言和库之外增加了编译器、分析器、调试器和移植工具。

英特尔的 oneAPI 工具包拥有超过 20 万次单独安装

来源:IT之家

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:IT之家
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...