3D 堆叠技术——从相当简单到令人困惑的复杂的进步

芯圈那些事 2022-03-17

晶圆集成电路封装半导体封装

3926 字丨阅读本文需 10 分钟

近日,英国AI芯片公司Graphcore发布了一款IPU产品BOW,成为首颗采用台积电7nm工艺和3D封装技术的量产产品。

图:基于台积电WoW封装的BOW

据介绍,这款处理器将计算机训练神经网络的速度提升40%,同时能耗比提升了16%,而技术指标的进步主要得益于台积电的3D WoW硅晶圆堆叠技术。

在台积电技术加持下,Bow IPU单个封装中的晶体管数量也达到了前所未有的600亿个。

官方介绍称,Bow每秒可以执行350万亿flop的混合精度AI运算,是上代的1.4倍,吞吐量从47.5TB提高到了65TB,联合创始人Knowles将其称为当今世界上性能最高的AI处理器。

同时,最近亮相的一批高性能处理器表明,延续摩尔定律的新方向即将到来。根据约定速成的规定,每一代处理器都需要比上一代拥有更好的性能。这意味着将更多的逻辑集成到硅片上。但是这会面临两个问题:一个是我们缩小晶体管及其构成的逻辑和内存块的能力正在放缓。另一个是芯片已经达到了它们的尺寸极限。光刻工具只能图案化大约 850 平方毫米的区域,这大约是顶级 Nvidia GPU 的大小。

几年来,片上系统的开发人员已经开始将他们越来越大的设计分解成更小的小芯片,并将它们在同一个封装内链接在一起,以有效增加硅面积及其他优势。在 CPU 中,这些链接大多是所谓的 2.5D,其中小芯片彼此并排设置,并使用短而密集的互连连接。由于大多数主要制造商已就 2.5D 小芯片到小芯片通信标准达成一致,这种集成的势头可能只会增长。

但是,要像在同一个芯片上一样将真正大量的数据传输出去,您需要更短、更密集的连接,而这只能通过将一个芯片堆叠在另一个芯片上来实现。面对面连接两个芯片可能意味着每平方毫米有数千个连接。

它需要大量的创新才能使其发挥作用。工程师必须弄清楚如何防止堆栈中一个芯片的热量杀死另一个芯片,决定哪些功能应该去哪里以及应该如何制造,防止偶尔出现的坏小芯片导致大量昂贵的哑系统,并处理随之而来的是一次解决所有这些问题的复杂性。

3D堆叠的出现

现代芯片的功能越来越复杂,芯片尺寸也越来越大,导致工艺技术越来越复杂,由此带来了成本问题:不但制造成本高,设计成本也越来越高。为了应对这个问题,很多人想到了使用模块化设计方法,即把功能块分离成小型模块,做成一个个高良率、低成本的芯粒,然后根据需要灵活组装起来,即把芯片合理剪裁到各种不同的应用。

近年来,学术界和产业界都在进行芯粒的研发工作。芯粒一般可以通过2.5D架构的中介层来组装或堆叠。2.5D技术是指将多块芯片粒在硅载片(silicon interposer)上使用互联线连接在一起,由于硅载片上的互联线密度可以远高于传统PCB上的互联线密度,因此可以实现高性能互联。其典型的技术即TSMC推出的CoWoS,InFO以及Intel的EMIB等技术。

而传统的3D IC技术则是将多块芯片堆叠在一起,并使用TSV技术将不同的芯片做互联。目前,3D IC主要用在内存芯片之间的堆叠架构和传感器的堆叠,而2.5D技术则已经广泛应用在多款高端芯片组中。另外3D和2.5D之间也不是完全对立,例如在HBM内存中,多块内存之间使用3D IC集成,而内存与主芯片之间则使用2.5D技术集成在一起。

现在,抓住先进封装和3D集成提供的机会,芯粒为安全可靠的电子系统设计开辟了新的领域。通过调整放置在一个芯片封装中的芯粒数量,就可以创建不同规模的系统,大大提升了系统设计的灵活性和可扩展性,同时也大大降低了研发成本,缩短了研发周期。

什么是3D堆叠技术?

从世界第一款CPU诞生开始到今天,甚至包括摩尔定律本身,都是在二维层面展开的。也就是说,研究重点都放在如何实现单位面积上元器件数量的增加以及微观精度的改进,而3D堆叠的概念是把一块芯片从二维展开至三维,那接下来我们就来了解一下什么叫做3D堆叠。

大家都知道CPU是一个超大规模的集成电路板,指甲盖儿大小的芯片上安置着数以亿计的晶体管,再也留不出任何空白的地方,那为何不再叠加一张纸放在它的上面呢?3D堆叠由此产生。

3D堆叠技术是利用堆叠技术或通过互连和其他微加工技术在芯片或结构的Z轴方向上形成三维集成,信号连接以及晶圆级,芯片级和硅盖封装具有不同的功能。针对包装和可靠性技术的三维堆叠处理技术。该技术用于微系统集成,是在片上系统(SOC)和多芯片模块(MCM)之后开发的先进的系统级封装制造技术。

所谓的3D堆叠技术其实很好理解,就是在原本的封装体里面,封装进两个以上不同功能的芯片,一般都是在不改变原本的封装体积大小,而在垂直方向进行的芯片叠放,这种技术所带来的特点就是改变了原有的在单位面积上不断增加晶体管的方式,而是在垂直方向上进行芯片叠放,自然也会实现芯片的功能多样化。

总体上看,3D堆叠技术在集成度、性能、功耗等方面更具优势,同时设计自由度更高,开发时间更短,是各封装技术中最具发展前景的一种。当前,随着高效能运算、人工智能等应用兴起,加上用于提供多个晶圆垂直通信的TSV技术愈来愈成熟,可以看到越来越多的CPU、GPU和存储器开始采用3D堆叠技术。

在传统的SiP封装系统中,任何芯片堆栈都可以称为3D,因为在Z轴上功能和信号都有扩展,无论堆栈位于IC内部还是外部。

3D芯片的三种方法

以下是三个示例,从相当简单到令人困惑的复杂,展示了 3D 堆叠现在的位置:

AMD 的 Zen 3

AMD 的 3D V-Cache 技术将一个 64 兆字节的 SRAM 缓存 [红色] 和两个空白结构小芯片连接到 Zen 3 计算小芯片上。

长期以来,PC 都提供了添加更多内存的选项,从而为超大型应用程序和数据繁重的工作提供更快的速度。由于 3D 芯片堆叠,AMD 的下一代 CPU 小芯片也提供了该选项。当然,这不是售后市场的附加组件,但如果您正在寻找具有更多魅力的计算机,那么订购具有超大缓存内存的处理器可能是您的选择。

尽管Zen 2和新的Zen 3处理器内核都使用相同的台积电制造工艺制造——因此具有相同尺寸的晶体管、互连和其他一切——AMD 进行了如此多的架构改动,这让他们即使没有额外的高速缓存的前提下,Zen 3也能平均提供 19% 的性能提升。其中一个架构瑰宝是包含一组硅通孔 (TSV),垂直互连直接穿过大部分硅。TSV 构建在 Zen 3 的最高级别缓存中,即称为 L3 的 SRAM 块,它位于计算小芯片的中间,并在其所有八个内核之间共享。

在用于数据繁重工作负载的处理器中,Zen 3 晶圆的背面被减薄,直到 TSV 暴露出来。然后使用所谓的混合键合将一个 64 兆字节的 SRAM 小芯片键合到那些暴露的 TSV 上——这一过程类似于将铜冷焊在一起。结果是一组密集的连接可以紧密到 9 微米。最后,为了结构稳定性和热传导,附加空白硅芯片以覆盖 Zen 3 CPU 芯片的其余部分。

通过将额外的内存设置在 CPU 芯片旁边来添加额外的内存不是一种选择,因为数据需要很长时间才能到达处理器内核。“尽管 L3 [缓存] 大小增加了三倍,但 3D V-Cache 仅增加了四个 [时钟] 周期的延迟——这只能通过 3D 堆叠来实现,” AMD 高级设计工程师 John Wuu表示。

更大的缓存在高端游戏中占有一席之地。使用台式机锐龙 CPU 和 3D V-Cache 可将 1080p 的游戏速度平均提高 15%。它也适用于更严肃的工作,将困难的半导体设计计算的运行时间缩短了 66%。

Wuu 指出,与缩小逻辑的能力相比,业界缩小 SRAM 的能力正在放缓。因此,您可以预期未来的 SRAM 扩展包将继续使用更成熟的制造工艺制造,而计算芯片则被推向摩尔定律的前沿。

Graphcore 的 Bow AI 处理器

Graphcore Bow AI 加速 器使用 3D 芯片堆叠将性能提升 40%。

即使堆栈中的一个芯片上没有单个晶体管,3D 集成也可以加快计算速度。总部位于英国的 AI 计算机公司Graphcore仅通过在其 AI 处理器上安装供电芯片,就大幅提高了其系统性能。添加供电硅意味着名为 Bow 的组合芯片可以运行得更快(1.85 GHz 与 1.35 GHz 相比),并且电压低于其前身。与上一代相比,这意味着计算机训练神经网络的速度提高了 40%,能耗降低了 16%。重要的是,用户无需更改其软件即可获得这种改进。

电源管理芯片由电容器和硅通孔组合而成。后者只是为处理器芯片提供电力和数据。真正与众不同的是电容器。与 DRAM 中的位存储组件一样,这些电容器形成在硅中又深又窄的沟槽中。由于这些电荷储存器非常靠近处理器的晶体管,因此功率传输变得平滑,从而使处理器内核能够在较低电压下更快地运行。如果没有供电芯片,处理器必须将其工作电压提高到高于其标称水平才能在 1.85 GHz 下工作,从而消耗更多的功率。使用电源芯片,它也可以达到该时钟频率并消耗更少的功率。

用于制造BoW的制造工艺是独一无二的,但不太可能保持这种状态。大多数 3D 堆叠是通过将一个小芯片粘合到另一个小芯片上来完成的,而其中一个仍然在晶圆上,称为晶圆上芯片 [参见上面的“AMD 的 Zen 3”]。相反,Bow 使用了台积电的晶圆对晶圆,其中一种类型的整个晶圆与另一种类型的整个晶圆键合,然后切割成芯片。Graphcore 首席技术官Simon Knowles表示,这是市场上第一款使用该技术的芯片,它使两个裸片之间的连接密度高于使用晶圆上芯片工艺所能达到的密度。

尽管供电小芯片没有晶体管,但它们可能会出现。Knowles 说,仅将这项技术用于供电“对我们来说只是第一步”。“在不久的将来,它会走得更远。”

英特尔的 Ponte Vecchio 超级计算机芯片

英特尔的 Ponte Vecchio 处理器将 47 个小芯片集成到一个处理器中。

Aurora 超级计算机旨在成为 美国 首批突破 exaflop障碍的高性能计算机 (HPC)之一——每秒进行 10 亿次高精度浮点计算。为了让 Aurora 达到这些高度,英特尔的 Ponte Vecchio 将 47 块硅片上的超过 1000 亿个晶体管封装到一个处理器中。英特尔同时使用 2.5D 和 3D 技术,将 3,100 平方毫米的硅片(几乎等于四个Nvidia A100 GPU )压缩成 2,330 平方毫米的占地面积。

英特尔研究员 Wilfred Gomes告诉参加IEEE 国际固态电路会议的工程师,该处理器将英特尔的 2D 和 3D 小芯片集成技术推向了极限。

每个 Ponte Vecchio 都是使用英特尔 2.5D 集成技术 Co-EMIB 捆绑在一起的两个 镜像小芯片集。Co-EMIB 在两个 3D 小芯片堆栈之间形成高密度互连的桥梁。桥本身是嵌入封装有机基板中的一小块硅。硅上的互连线的密度可以是有机衬底上的两倍。

Co-EMIB 管芯还将高带宽内存和 I/O 小芯片连接到“基础块”,这是堆叠其余部分的最大小芯片。

基础tile使用英特尔的 3D 堆叠技术,称为 Foveros,在其上堆叠计算和缓存小芯片。该技术在两个芯片之间建立了密集的芯片到芯片垂直连接阵列。这些连接可以是 36 微米,除了短铜柱和焊料微凸块。信号和电源通过硅通孔进入这个堆栈 ,相当宽的垂直互连直接穿过大部分硅。

八个计算tile、四个缓存tile和八个用于从处理器散热的空白“热”tile都连接到基础tile。基础本身提供缓存内存和允许任何计算块访问任何内存的网络。

不用说,这一切都不容易。Gomes 说,它在良率管理、时钟电路、热调节和功率传输方面进行了创新。例如,英特尔工程师选择为处理器提供高于正常电压(1.8 伏)的电压,以便电流足够低以简化封装。基础块中的电路将电压降低到接近 0.7 V 以用于计算块,并且每个计算块必须在基础块中有自己的电源域。这种能力的关键是新型高效电感器,称为同轴磁性集成电感器。因为这些都内置在封装基板中,所以在向计算块提供电压之前,电路实际上在基础块和封装之间来回蜿蜒。

Gomes 说,从 2008 年的第一台 petaflop 超级计算机到今年的 exaflops机器, 用了整整 14 年。Gomes 告诉工程师,但高级封装(如 3D 堆叠)是可以帮助将下一个千倍计算改进缩短到仅六年的技术之一。

本文来源:电子产品世界,半导体行业观察,芯片大师

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:芯圈那些事
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...