Die-to-Die接口成为行业趋势的关键因素,不同应用对Die-to-Die接口有不同要求

电子芯技术 2021-10-27

半导体封装用例模型应用架构

4191 字丨阅读本文需 12 分钟

现在超大规模数据中心、人工智能和网络应用芯片正在追求更高的数据速率和更复杂的功能。

随着芯片的尺寸越来越接近掩膜版极限,开发者不得不将芯片分成多个较小的Die,这些Die封装在多芯片模块(MCM)中,在多芯片模块中,较小的Die通过Die-to-Die互连进行链接,这些互连必须具有极低功耗,而且每个Die的边缘都具有高带宽,以此来实现高良率并降低总体成本。合适的Die-to-Die接口是影响芯片性能的重要因素。Die-to-Die接口也成为行业趋势的关键因素。

了解Die-to-Die接口

Die-to-Die接口是在同一个封装内的两个芯片裸片间提供数据接口的功能块。为了实现功效和高带宽,它们利用了连接裸片的极短通道的特征。这些接口通常由一个PHY和一个控制器模块组成,在两个裸片的内部互连结构之间提供无缝连接。

Die-to-Die PHY使用高速SerDes架构或高密度并行架构实现,这些架构经过优化以支持多种先进的2D、2.5D和 3D封装技术。

那么,Die-to-Die接口如何工作?Die-to-Die接口就像任何其他芯片到芯片接口一样,在两个芯片之间建立可靠的数据链接。它在芯片运行期间建立和维护链路,同时向应用程序提供连接到内部互连结构的标准化并行接口。通过添加错误检测和纠正机制(例如前向纠错 (FEC) 和/或循环冗余码 (CRC) 和重试)来保证链路可靠性。

接口在逻辑上分为物理层、链路层和事务层。其中物理层架构可以是基于 SerDes 的或基于并行的。基于SerDes的架构包括并行到串行(串行到并行)数据转换、阻抗匹配电路和时钟数据恢复或时钟转发功能。支持NRZ信令或PAM-4信令,带宽可达112Gbps。SerDes体系结构的主要作用是在简单的2D封装(如有机基板)中最小化I/O互连的数量。

基于并行的体系结构包括许多低速、简单的并行收发器,每个收发器由一个驱动程序和一个具有转发时钟技术的接收器组成,以进一步简化体系结构。支持DDR信令。并行架构的主要作用是在密集的2.5D封装中最小化功耗,比如硅插入器。

Die之间的接口必须满足以下多个需求:

首先是电源效率。多芯片系统实现应该与等效的单片实现一样节能。Die-to-Die链路使用短距离、低损耗的通道,没有明显的不连续性。PHY 架构利用良好的信道特性来降低PHY复杂性并节省功耗。

其次是低延迟。将服务器或加速 器 SoC 划分为多个芯片不应导致不统一的内存架构,因为访问具有显着不同延迟的不同芯片中的内存。Die-to-Die接口实施简化的协议并直接连接到芯片互连结构以最大限度地减少延迟。

高带宽效率。高级服务器、加速 器和网络交换机需要在芯片之间传输大量数据。Die-to-Die接口必须能够支持所有所需的带宽,同时减少芯片边缘占用。通常使用两种替代方法来实现此目标,通过部署具有每通道非常高的数据速率(高达 112 Gbps)的 PHY 来最小化所需通道的数量,或者通过使用更细的Bump来增加 PHY 的密度) 在大量并行化以实现所需带宽的低数据速率通道(高达 8 Gbps/通道)。

强壮的链接。Die-to-Die 链接必须没有错误。接口必须有足够强大的低延迟错误检测和纠正机制,以检测所有错误并以低延迟代价纠正它们。这些机制通常包括 FEC 和重传协议。

不同应用对Die-to-Die接口的要求

针对HPC、网络、超大规模数据中心和人工智能 (AI)等应用,Die-to-Die接口主要有4个不同的用例。

扩展SoC通过连接Die,以实现Die间紧密耦合的性能,从而提高计算能力,并为服务器和AI加速 器创建多个SKU,如图a)。拆分SoC可以制作规模非常巨大的SoC,同时也提高良品率,降低成本,并通过将大型单体SoC分成较小的裸晶组装在一起,从而延伸了摩尔定律,如图b)。“聚合”使不同的裸晶实现多种不同功能,以充分利用每个功能的最佳工艺节点。这种方法还有助于在FPGA、汽车和5G基站等应用中降低功耗,并减小面积,如图c)。“分解”使中央数字芯片与I/O芯片分开,便于中央芯片向先进工艺迁移。而I/O芯片维持保守节点,以降低产品演进的风险和成本,支持重复使用,并加快上市速度,如图d)。

(图源:新思科技)

在高性能计算和人工智能应用中,大的芯片被分为两个或多个同质Die;在网络应用中,I/O和互连内核被分为单独的Die。在这些不同种类芯片中, Die-to-Die的互连必须不影响整体系统性能,并且要求低延迟、低功耗和高吞吐量。对于多Die SoC 设计人员来说,需要关注链路延迟、跨链路的数据一致性、可接受的误码率 (BER) 及其控制机制、带宽和分支以及Die到Die接口协议这些Die-to-Die接口的要求。

例如针对高性能计算 (HPC) 的多裸片SoC 的一个常见用例是在同一封装中组装多个同质die,如下图所示,一个互连网格连接每个die中的所有 CPU 集群和共享内存组。Die-to-Die链路连接两个Die中的网状互连,如同它们是同一互连的一部分。在这其中,至关重要的是,一个Die中的 CPU 能够以最小的延迟访问另一个die中的内存,同时支持缓存一致性。通常,利用CXL或CCIX 流量的优势来降低链路延迟。

采用同质die组装的多die SoC 图示(图源:新思科技)

在 IO 访问这样的应用中,为了灵活性和效率,数字处理存在于 IO 功能之外的一个单独的模块中(IO示例可以是电子SerDes、光学、无线电、传感器或其他),通常没有一致性要求,对链接延迟更宽容。在这些情况下,IO 流量通常通过标准协议路由,如 AXI 接口。

类似情况如 GPU 和连接到 CPU 集群的一些异构计算类的加速 器这样的并行架构,可能只需要IO一致性(如果加速 器Die没有缓存),或者根本不需要一致性,如下图所示。

具有并行异构架构的多Die SoC(图源:新思科技)

链路错误也是一大重要关注的点。为了避免因链路错误导致数据损坏,进而对系统运行造成灾难性影响,Die-to-Die链路必须实现允许错误检测和纠正的功能。根据系统要求和原始 PHY BER,有两个主要选项可用于检测和纠正传输错误,这些选项可单独使用或结合使用:

与错误检测功能结合的重试机制能够纠正所有检测到的传输错误。一个错误检测码,如奇偶校验或循环冗余检查 (CRC) 码被添加到发送的数据,以便接收端可以验证接收的数据,在检测到错误时,请求重新发送数据。

前向纠错 (FEC) 是与数据一起传输的更复杂的代码,能够检测和纠正错误位。根据 FEC 算法的复杂度,检测和纠正的错误数量可能更高。只是,FEC 编码和解码的延迟增加了复杂性。

与其他芯片到芯片链路一样,Die-to-Die链路的协议栈可以分割成与开放系统互连 (OSI) 模型栈定义一致的不同协议层,如下图所示。PHY 层由物理介质无关 (PMA) 和物理介质相关 (PMD) 组成。PHY 层处理与通道的电气接口。逻辑层位于 PHY 层的上方,将 PHY 层的信令特性与链路层隔离,辅助数据流构建和恢复。当他们在一起定义和验证时,每一层都会得到优化,即使每一层都有预定义的接口。

Die-to-Die协议栈

链路层管理链路将处理错误检测和纠正机制,保证一个端到端无错误的链路。链路层还处理流控,调节发送方和接收方之间的数据通信量。传输层从应用层接收读写请求,从链路层创建和接收请求包。

Die-to-Die链路的特性使其不同于传统的芯片到芯片链路。例如,在封装多Die SoC 时,链路的两端是已知且固定的。因此,Die-to-Die链路特性可以提前确定,通过软件或寄存器在开机时进行设置,避免链路发现和协商步骤的复杂性。最好是,Die-to-Die链路是一个连接两个Die的互连结构的简单“隧道”,而没有特定的已定义协议。为减少延迟并保证互操作性,理想的做法是将链接紧密优化,以便与die上互连结构进行操作。例如,Arm Neoverse 平台定义了支持缓存一致性的专用接口,可用于低延迟的Die-to-Die解决方案。或者,更通用的应用接口(例如 AXI)可用于附接到任何片上互连结构。

Die-to-Die 连接性用例

涌现了 MCM 中 die-to-die 连接的新用例,其中一些包括:

1.接近最大光罩尺寸的高性能计算和服务器 SoC

2.以太网交换机和网络 SoC 超过最大光罩尺寸

3.可扩展复杂算法的具有分布式 SRAM 的人工智能 (AI) SoC

高性能计算和服务器 SoC 的尺寸越来越大,达到 550 平方毫米 (mm2) 至 800 mm2,从而降低了 SoC 的良率并提高了单位芯片成本。优化 SoC 良率的更好方法是将 SoC 分为两个或多个等效的同质芯片(如图 1 所示),并使用 die-to-die PHY IP 连接芯片。在这种用例中,主要的要求是极低的延迟和零误码率,因为更小的多个芯片的表现和行为必须像单一芯片一样。

需要 die-to-die 连接的高性能计算和服务器 SoC 的示例

以太网交换机 SoC 是数据中心的核心,必须以 12 Tbps 到 25 Tbps 的更快速率转移数据,这需要 256 通道的 100G SerDes 接口,因此无法将 SoC 放入面积为 800 mm2 的光罩区域。为了克服这一挑战,设计人员会将 SoC 拆分为一种配置,其中的内核芯片被 I/O 芯片包围,如图 2 所示。然后,使用 die-to-die 收发器将内核芯片连接到 I/O 芯片。

在这一用例中,仅当 die-to-die 收发器的带宽密度远远优于 I/O 芯片中的长距离 SerDes 时,芯片拆分才有效。因此,关键参数是每毫米的芯片边缘带宽密度。

需要 die-to-die 连接的以太网交换机 SoC 的示例

在 AI SoC 中,每个芯片都包含智能处理单元 (IPU) 和位于每个 IPU 附近的分布式 SRAM。在这种使用情况下,一个芯片中的 IPU 可能需要依赖于极低延迟的短距离 die-to-die 链路来访问另一个芯片的 SRAM 中的数据。

需要 die-to-die 连接的 AI SoC 示例

在所有这些用例中,如果为 die-to-die 连接选择理想的高速 PHY,就可以简化 MCM 封装要求。由于每个通道的吞吐量高达 112 Gbps,因此在通道数量相对有限的情况下可以实现非常高的总吞吐量。在这种情况下,封装走线的间距和堆叠可能比较保守(L/S 通常为 10u/10u)。在这些用例中,也可以使用基于有机基材的传统低成本包装。

高速 PHY IP 对于 die-to-die 连接的要求

光学互联网络论坛 (OIF) 正在定义电气 I/O 标准,以在超短距离 (USR) 和极短距离 (XSR) 链路上以高达 112 Gbps 的数据速率进行传输。这些规范定义了 die-to-die 链路(即:在封装内)以及芯片到芯片到与 SoC 位于同一封装内的光学模块的链接,从而显着降低了功耗和复杂性,并实现了极高的吞吐量密度。

在研究用于 MCM 的 die-to-die 连接的高速 PHY IP 解决方案时,SoC 设计人员必须考虑几个基本功能,包括以千兆位或兆兆位每秒(Gbps 或 Tbps)衡量的数据吞吐量或带宽、以每比特皮焦耳 (pJ/bit) 衡量的能源效率、以纳秒 (ns) 衡量的延迟、以毫米 (mm) 衡量的最大链路范围,以及误码率(无单位)。

数据吞吐量或宽带

为了实现与其他收发器的互操作,die-to-die PHY IP 必须确保符合 USR 和 XSR 链路的相关 OIF 电气规范。支持脉冲幅度调制 (PAM-4) 和不归零 (NRZ) 信令,对于满足两种链路的要求并实现每通道最大 112 Gbps 带宽至关重要。这样的信令产生了非常高的带宽效率,这是一项关键要求,因为在 MCM 中的芯片之间传输的数据量非常大。数据移动的速率通常处于每秒兆兆字节的范围,这限制了分配给 USR 和 XSR 链路的芯片边缘的大小。但是,支持多种数据速率也同样重要。通常,假设其数据速率与内部结构中使用的数据速率一致,或支持 die-to-die 协议所需的所有数据速率,就有望实现芯片到芯片链接。例如,即使在 32 Gbps 这样的高速下,PCI Express 也必须支持低至 2.5 Gbps 的数据速率以进行协议初始化。

链路距离

在 die-to-die 的实现中,大量数据必须流经桥接芯片之间间隙的短数据路径。为了保证将芯片放置在封装基板上时的最大灵活性,PHY IP 必须支持 TX 和 RX 之间 50 毫米的最长距离。

能效

能效成为重要的因素,尤其是在将 SoC 功能划分为多个同质芯片的用例中。在此类用例中,设计人员寻求在不影响 SoC 总功耗预算的情况下,在芯片之间推送大量数据的方法。理想的 die-to-die PHY IP 的能效好于每比特 1 皮焦耳 (1pJ/bit) 或同等的 1mW/Gbps。

延迟和BER

为了使芯片之间的连接“透明”,延迟必须维持得极低,同时必须优化误码率 (BER)。由于简化了架构,die-to-die PHY IP 本身实现了超低延迟,BER 优于 10e-15。根据链路距离,可能需要使用前向纠错 (FEC) 机制保护互连,以实现如此低的 BER。FEC 延迟会影响解决方案的整体延迟。

宏块布局

除了这些与性能相关的参数外,PHY IP 还必须支持所有侧面的放置芯片,以实现芯片以及 MCM 的有效布局。优化了宏的布局可实现低耦合的高效芯片间布线,优化芯片和 MCM 面积,并最终提高功耗效率。

选择 die-to-die PHY IP 时,还有许多其他考虑因素,包括纳入可测试性功能,以便能够在封装之前对芯片进行生产测试,但是上文所述的因素是最重要的。

结语

数据速率提高和功能日趋复杂致使超大规模数据中心、AI 和网络应用程序的 SoC 大小与日俱增。随着 SoC 尺寸接近占满光罩尺寸,设计人员被迫将 SoC 分成较小的芯片,这些芯片封装在多芯片模块 (MCM) 中,以实现高产量并降低总体成本。然后,一个 MCM 中的多个较小芯片通过 die-to-die 互连进行链接,这些互连具有极低的功耗且每个芯片边缘的带宽都很高。在高性能计算和 AI 应用中,大型 SoC 被分为两个或多个同质芯片,而在网络应用中,I/O 和网络内核被分为单独的芯片。这种 SoC 中的 die-to-die 互连必须不影响整体系统性能,并且要求低延迟、低功耗和高吞吐量。这些要求推动了对高吞吐量 die-to-die PHY 的需求。

文章来源: 半导体行业观察,新思科技

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:电子芯技术
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...