存算一体助力自动驾驶芯片,能带来多少想象?

芯闻速递 2022-06-23

存储器自动驾驶存储芯片

2843 字丨阅读本文需 7 分钟

自动驾驶芯片,越来越「热闹」了。

近年来,自动驾驶的普及以肉眼可见的速度加快,根据1月12日工信部数据,2021年新能源汽车销售352.1万辆,其中搭载组合辅助驾驶系统的乘用车新车市场占比达到20%。而两年前,L2级辅助驾驶的渗透率仅为3.3%。

相伴而生的,是汽车「大脑」自动驾驶AI芯片的竞争加剧。

英伟达、英特尔等老牌芯片企业早就瞄准了这一赛道,特斯拉、蔚来、小鹏等车企,黑芝麻、地平线、芯驰科技、寒武纪、后摩智能等国内芯片厂商也都纷纷入局。

比如,蔚来汽车有自研芯片的计划;高通去年宣布和宝马合作,2025年使用高通骁龙Ride自动驾驶平台;初创公司有的直接聚焦在自动驾驶上,也有的业务范围更广,覆盖自动驾驶、智能座舱、中央网关、高可靠MCU等;收购、合作等关系网也在不断变动,这一战场的发令枪已经拉响了。

然而,与常见的数据中心AI芯片不同,应用于汽车场景的AI芯片,在算力、功耗、性能方面都提出了更极端的要求。

在摩尔定律逐渐失效、“存储墙”问题日益凸显的当下,汽车AI芯片到底需要提供多大算力?何种路径才是突破摩尔定律的存储墙壁垒的最接近落地方法?面对山头林立、秩序井然的芯片市场,初创公司的市场机遇和差异化优势又是什么?

「存算一体」也许是个值得研究的答案。

两堵”墙”:存算一体技术发展的必要性

存算一体的发展是时代发展的要求,现有冯·诺伊曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。

在冯·诺伊曼架构的核心设计中计算机的组成架构包括运算器、控制器、存储器、输入设备、输出设备五部分。

在冯·诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存,这样才能输出。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。由于工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来越大。数据显示,从 1980年到 2000年,处理器和存储器的速度失配以每年50%的速率增加。

存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。

此外,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。

再加上人工智能的发展,需要运算的数据量开始了极大的增长。人工智能算法是一个很庞大和复杂的网络,包含大量的图像数据和权重参数,计算的过程中又会产生大量的数据,数据需要在计算单元和存储单元之间进行频繁的移动,这迫切需要合适的手段来减少数据移动及其带来的性能和功耗开销。

自1945年提出的冯·诺伊曼架构,其本身仍是现代计算机的主要架构,在此架构下关于存算流程的弯路,在当时是合理的。但是在人工智能飞速发展的现在,却有必要颠覆它。

于是,业界开始寻找弱化或消除存储墙及功耗墙问题的方法,开始考虑从聚焦计算的冯·诺伊曼体系结构转向存算一体结构。

一笔取舍账,自动驾驶需要多少算力

过去几年中,用于衡量一款自动驾驶芯片最直接的标准之一,就是算力高低。

自动驾驶级别越高时,产生的数据越多,对芯片的算力要求也就越高。

2014年时,最早应用Mobileye的第一代EyeQ芯片,算力只有0.256TOPS;2015年,就已有专门面向自动驾驶的平台,每年要迭代1-2次;英伟达也预告将在2025年上市1000T算力的Atlan芯片。

算力的不断提升,是否意味着自动驾驶的需求已经得到了满足,自动驾驶玩家们可以跑出算力焦虑了?

远还没有。

一方面,大算力也意味着更高的成本。实际上在现有的自动驾驶芯片中,单片算力很难满足高级别自动驾驶的需求,车企或自动驾驶企业多会采取“堆料”的方式,用芯片数量的增加来实现大算力。成本的增加不可避免,难以推动自动驾驶技术的规模化应用,车企也很难实现技术和商业的平衡。

另一方面,除了对算力需求高,智能驾驶场景也对芯片的功耗和散热有很高的要求。服务于丰田的创业者Amnon Shashua曾在多个场合表示过,效率比算力更重要。具体解释,算力、功耗、成本就像是一个三角架构,一角的增减要用另一角来填补才行。

除此之外,「算力」并不真正代表着「性能」。

1000Tops的芯片参数,并不意味着这块芯片在实际应用中能够发挥出1000Tops的真实性能。

在当前的冯·诺伊曼架构当中,内存系统的性能提升速度大幅落后于处理器的性能提升速度,有限的内存带宽无法保证数据高速传输,形成了一道“存储墙”。

一方面,大量的计算单元受限于带宽的限制,无法发挥作用,造成算力利用率很低;另一方面,数据来回传输又会产生巨大功耗,进一步加大汽车电动化大潮下的里程焦虑。

因此,仅仅简单用算力高低来评估,远远达不到自动驾驶的需求。

汽车AI芯片不仅需要大算力,更要有实际利用率的大算力,而且能够保障低功耗、低延迟以及可承受的成本。

摘取「高挂的果实」

最近几年,在缺芯的时代背景下,随着政策支持的不断加码,我们看到国内半导体产业迎来了发展的良机。芯片的“国产替代”已经在很多细分领域取得了进展,深受资本市场青睐。

但是资本市场也有越来越多的人意识到,热门芯片赛道的“国产替代”创业项目已经日趋饱和。一部分嗅觉敏锐的投资人开始关注后摩尔时代的“创新架构”,认为要想在纯市场化竞争中挑战英伟达等国际芯片巨头,必须另辟蹊径。于是差异化的技术创新成为芯片投资中的重要策略。

HBM、DSA、存算一体都属于芯片行业当前的技术创新路径,三者对比来看,存算一体可以算作是一条难度最大、颠覆性最强、风险最高,但差异化和创新性也最显著的路径。

近年来,国内外涌现出不少专注于存算一体芯片的新兴创企,巨头们纷纷加快了产业布局,资本也对其青睐有加。国内最近一笔相关融资来自今年4月,国内存算一体明星创企「后摩智能」宣布获得数亿人民币Pre-A+轮融资。

不过,一直以来,传统的存算一体研究大多集中在低功耗、低算力的「小」芯片场景中,比如语音、AIoT、安防等边缘领域。

能够应用在车载AI的存算一体「大」算力芯片,即便在学术界也是一大难题,产业界敢于迎战者更是屈指可数。

想要将二者融合,既需要存储单元阵列、AI core、工具链等各个方面都需要有深厚积累的团队,又需要进行整体的协同优化设计,才能最终实现一款高效的基于存算一体的大算力AI芯片。

所幸,这一创新性技术已经让市场看到了落地可能性。

 存算一体芯片现状

(1) 技术实现方式

根据存储期间的易失性分类,存算一体技术的实现方式大致可分为两种,

基于易失性、现有工艺成熟的SRAM、DRAM实现;

基于非易失性、新型存储器如相变存储器PCM、阻变存储器RRAM/忆阻器ReRAM、浮栅器件或闪存Flash来实现。

易失性存储器SRAM和DRAM工艺成熟,是目前商业化的主要存储器产品。因此,很多的厂商和研究机构开始基于SRAM和DRAM展开存内计算的研究。但由于目前存储器和处理器的制造工艺不同,尚不能在处理性能和存储容量之间取得一个良好的平衡。

非易失性存储器包括自旋矩磁存储器STTRAM、相变存储器PCM、阻变存储器RRAM等,这些存储器的研究在近十几年也取得了较快的发展,容量不断增大,且具有对计算和存储的天然融合性,研究者们也开始考虑基于非易失性存储器构建存算一体系统的可能性。但由于相应的厂商和工艺尚未成熟,距真正的商用还有一定的距离。

(2) 竞争格局

近几年,国内外涌现了多家存算一体初创企业。

国外比较有名的存算一体初创企业包括Mythic、Syntiant。另外,老牌巨头三星也基于HBM2 DRAM开发了其存算一体技术。

国内的企业更是百花齐放,包括知存科技(基于Flash)、闪亿半导体(基于忆阻器PLRAM)、新忆科技(基于RRAM)、恒烁半导体(基于NOR Flash)、后摩智能(研究方向包括SRAM/MRAM/RRAM)、九天睿芯(基于SRAM)等。另外,还有阿里平头哥(基于DRAM的3D键合堆叠)。

来源:36氪,半导体产业纵横,牧羊女说

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:芯闻速递
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...