向死而生,浴火重生,创新能让AI芯片新生?

Soft6软件网 2022-04-27

人工智能英伟达fpga

5247 字丨阅读本文需 10 分钟

本文是《中智观察》“企业数字服务供需市场”行业洞察之人工智能篇。市场预言,AI芯片企业将倒在2023年,那么芯片企业如何自救?放弃简单重复的做法,凤凰涅槃,浴火重生,唯有通过技术创新,才能杀出一条血路。

——海比研究院

2022年4月26日


小郅驾驶新买的特斯拉汽车在小区行驶,突然一位老人牵着狗冲在车前。在小郅还没有采取措施前,特斯拉自动刹车了,反应时间超过了小郅。

能做出这样举措的是特斯拉的自动驾驶系统,离不开其全车几十个AI芯片,完成推理,做出决策和行动。

无独有偶,在你的智能手机上,在你家的智能家居上,很多AI芯片都被植入了,发挥着与特斯拉汽车AI芯片一样的作用。

我们正在迅速进入一个人工智能几乎渗透到生活方方面面的世界—— 从我们玩的游戏,到家用电子产品,再到驾驶的汽车等。为AI提供动力的技术是GPU、FPGA、ASIC等芯片。

目前AI芯片市场正面临令人尴尬的局面:一方面市场需求巨大,参与者众多,如过江之鲫。

另一方面,因为需要资金大,难以落地等,不少创新企业纷纷退出。更有专家预言,更多的AI芯片企业将倒在2023年。

海比研究院认为,AI芯片将人工智能带到更多的地方,而企业要做的就是放弃简单重复的做法,用技术创新实现新生。

1.四大AI芯片技术架构,千帆竞发百舸争流

AI芯片是一个广阔的海洋,它足够大,即便是后来者,也能找到广阔的生存市场。

从不同的角度,可以对AI芯片进行分类。按功能不同,AI芯片可以分为模型训练和模型推理两类。而从应用场景来看,AI芯片又分为云端和移动端两类。

从技术架构来分类,AI芯片主要分为图形处理器GPU、半定制化的FPGA、全定制化ASIC,以及神经拟态芯片(类脑芯片)几类。

从成熟度来看,当前主流的GPU、FPGA均是较为成熟的芯片架构,属于通用型芯片。ASIC属于为AI特定场景定制的芯片。目前,行业公认CPU不适用于AI计算,但是在AI应用领域却必不可少。

英伟达和AMD占领着全球GPU市场第一、第二的位置,英特尔、苹果等火速进入该市场。

GPU性能高、功耗高,但是通用性强,提供了多核并行计算的基础结构,且核心数可以不断扩大,可以支撑大量数据的并行计算,拥有更高的浮点运算能力。

英伟达是GPU行业事实上的标准,市场占比最高。在最近的几年,英伟达股价飙升,并在2020年7月8日收盘后,市值首次超过英特尔,成为美国市值最高的芯片企业。

苹果对GPU市场跃跃欲试。苹果在2020年WWDC上首次透露有可能弃用AMD的GPU,转而使用自研的基于ARM架构的解决方案。根据计划,苹果在2021下半年推出自研GPU芯片,代号为lifuka,采用台积电5纳米工艺,并将搭载于新推出的iMaC中。

另一个挑战者英特尔不再强调自己是CPU厂商,而是XPU厂商,XPU囊括了CPU、GPU、NPU、VPU以及FPGA等。在英特尔2022年的投资者大会,GPU成为了一个亮点。Intel宣布Xe架构GPU时,提出以一个架构做弹性化扩展,实现GPU产品覆盖各个领域,包括低功耗平台、游戏、工作站、资料中心等。

2021年,国内芯片企业芯动科技发布了首款国产高性能4K级显卡GPU芯片——“风华1号”。芯动科技因此被称为“中国版的英伟达”。

从各个调研机构的数据来看,GPU在AI推理市场、服务器市场、数据中心市场等都呈现出蓬勃增长的态势。

具有较强灵活性的FPGA发展较快,但国内发展受制造能力、封测工艺、IP资源等因素的制约。

FPGA(现场可编程门阵列)是一种半定制的硬件,通过编程可定义其中的单元配置和链接架构进行计算,因此具有较强的灵活性。

由于采用了无指令、无需共享内存的体系结构,FPGA运算速度足够快,优于GPU。功耗与通用性介于GPU与ASIC之间。

相对于GPU,FPGA能管理能运算,但是相对开发周期长,复杂算法开发难度大。

研究报告显示,目前FPGA市场由Xilinx 和Altera 主导,两者占据85%的市场份额,其中Altera在2015 年被英特尔以167 亿美元收购, Xilinx则选择与IBM进行深度合作。Xilinx最新推出了耐辐射的Kintex UltraScale可编程芯片,可用于卫星和其他太空硬件。

在人工智能时代,FPGA倍受看好,国内的百度大脑、地平线AI芯片等也是基于FPGA 平台研发。紫光同创推出自主知识产权的大规模FPGA开发软件Pango DesignSuite,可支持千万门级FPGA器件设计开发。

而高云半导体推出中国首颗55nm嵌入式Flash SRAM非易失性FPGA芯片,实现可编程逻辑器件、嵌入式处理器无缝连接。

ASIC正成为创新企业的天下,但是复杂的技术和较长的周期却让不少新来者望而生畏。

ASIC(特定用途集成电路)则是定制化的,根据产品的需求进行特定设计和制造,能够在特定功能上进行强化,具有更高的处理速度和更低的能耗。

但是由于研发成本高,前期研发投入周期长,且由于是定制化,可复制性一般,因此只有用量足够大资金和周期,才能够分摊前期投入,降低成本。

它作为集成电路技术与特定用户的整机或系统技术紧密结合的产物,与通用集成电路相比,ASIC具有体积更小、重量更轻、 功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。

谷歌TPU、寒武纪、地平线等在ASIC方面卓有成效,应用比较广,市值也很高。

作为图灵奖得主、计算机架构巨擘,David Patterson在2016年从美国伯克利退休后,以杰出工程师的身份加入了谷歌大脑团队,为几代 TPU 的研发做出了卓越贡献。TPU也从v1发展到 到v4。

神经拟态芯片目前市场上不大常见,但是这种类脑芯片发展前景却被普遍看好。

2017年,美国空军研究实验室与IBM公司宣布合作研发了TrueNorth,一款机器学习性能号称超过了目前任何其他硬件模型的人工智能超级计算机,这一模拟人脑神经网络设计的 64 芯片系统,数据处理能力已经相当于包含 6400 万个神经细胞和 160 亿个神经突触的类脑功能。

IBM 研究人员表示,传统计算机就像人类左脑,擅长逻辑性思维和语言,而TrueNorth神经突触芯片,更像人类右脑,感觉和图形识别能力是其特长,使研究人员既可以在多个数据集上运行单个神经网络,也可以在单个数据集上运行多个神经网络,高效地将多个数据集上的图片、视频和文本等信息实时转换成计算机能识别的代码。

国内的西井科技已推出了自主研发的拥有100亿规模的神经元人脑仿真模拟器(Westwell Brain)和可商用化的5000万类脑神经元芯片(Deep South)两款产品。前者是面向SNN脉冲神经网络及深度学习的软硬件平台;后者是深度学习处理器,2016年9月,西井科技对外发布Deep South已成功实现全球首次“片上学习”。

2.国际巨头和创新企业,技术剑指何方?

国际AI芯片队列不乏科技巨头,如英伟达NVIDIA、Intel、Google、AWS、Qualcomm等;而创新企业更是如雨后春笋版涌现,如Esperanto、Graphcore、Cerebras、Ambarella和Hailo令人感受到这一市场的活力。

作为AI芯片GPU领域事实上的标准,英伟达的一举一动备受关注。

NVIDIA于 2022年3月宣布推出Hopper,一种新的GPU架构,有望为AI工作负载提供显著的性能改进。其6大方向创新,尤其另业界震撼。

Hopper GPU架构,NVIDIA称之为“下一代加速计算”。以美国计算机科学家Grace Hopper的的名字命名,新架构继承了两年前推出的NVIDIA Ampere架构。该公司还宣布了其首款基于Hopper的GPU,即NVIDIA H100。

NVIDIA声称Hopper比其前任带来了数量级的性能飞跃,而这一壮举基于六项突破性创新。

制造工艺。H100 采用800亿个晶体管,采用尖端的台积电4N工艺,专为满足NVIDIA 的加速计算需求而设计,在加速AI、HPC、内存带宽、互连和通信方面取得了重大进展,包括每秒近5 TB的外部连接。

在制造层面,Cerebras或Graphcore等半导体企业新贵也一直在推动可能性的界限。

多实例GPU(MIG)。MIG技术允许将单个GPU分区为七个较小的、完全隔离的实例,以处理不同类型的作业。Hopper架构通过在每个GPU实例的云环境中提供安全的多租户配置,将 MIG 功能比上一代产品扩展多达7倍。

保密计算。NVIDIA声称H100是世界上第一个具有机密计算能力的加速器,可以在处理AI模型和客户数据时保护它们。客户还可以将机密计算应用于医疗保健和金融服务等隐私敏感行业,以及共享云基础架构的联合学习。

第四代NVIDIA NVLink。为了加速最大的AI模型,NVLink与新的外部NVLink交换机相结合,将NVLink扩展为服务器以外的纵向扩展网络,连接多达256个H100 GPU,带宽比使用NVIDIA HDR Quantum InfiniBand的上一代产品高出9倍。

DPX指令加速动态编程。NVIDIA指出,动态编程用于广泛的算法,包括路由优化和基因组学,与CPU相比,它可以将执行速度提高40倍,与上一代GPU相比,它可以将执行速度提高7倍。

新的变形金刚发动机。正如NVIDIA所指出的那样,变形金刚是自然语言处理的标准模型选择,也是有史以来发明的最重要的深度学习模型之一。H100 加速器的 Transformer Engine 旨在将这些网络的速度提高到上一代产品的 6 倍,而不会降低准确性。

创新企业Graphcore新新芯片,也带来非凡的创新。

总部位于英国的人工智能芯片企业Graphcore也推出了一种名为“Bow”的新芯片,利用两个半导体芯片堆叠在另一个之上,将使深度学习训练等应用加速40%,同时减少能源使用。

该公司还宣布了其多处理器的更新型号,称为“IPU-POD”,运行Bow芯片,声称其速度是Nvidia同类DGX机器的五倍,价格只有一半。

公司正在开发一种名为The Good Computer的计算机设计,能够处理使用500万亿参数的神经网络模型,使其成为所谓的超人类“超智能”成为可能。

Bow处理器是Graphcore所称的“IPU”的最新版本,代表智能处理单元。该公司此前已经发布了IPU的两个迭代,最后一次是在2020年底。

3.国内巨头和创新企业,AI芯片另辟蹊径

在国内AI芯片市场,科技巨头与创新企业展开了激烈的竞争,出现了不同类型的赛道,也出现了AI四小龙、CV四小龙等不同类型的企业。

国内的科技巨头阿里巴巴和华为都推出了自己的AI芯片,突显出中国打造本土AI产业的雄心壮志。

阿里巴巴平头哥推出的第一款为AI提供动力的芯片,名为汉光800,基于12nm工艺, 集成170亿晶体管,性能峰值算力达820 TOPS。在业界标准的ResNet-50测试中,推理性能达到78563 IPS,能效比达500 IPS/W。

阿里巴巴表示,该芯片已经在公司内部的业务运营中使用,特别是在电子商务网站的产品搜索和自动翻译、个性化推荐、广告和"智能客户服务"方面。这些领域需要大量的计算任务,芯片可以帮助加快速度。

2019年华为正式发布AI处理器Ascend 910(昇腾910),同时推出全场景AI计算框架MindSpore。

在算力方面,昇腾910半精度 (FP16)算力达到256 Tera-FLOPS,整数精度 (INT8) 算力达到512 Tera-OPS。重要的是,达到规格算力所需功耗仅310W,明显低于设计规格的350W,华为称其芯片是"世界上最强大的人工智能处理器"。

云知声基于多种专用芯片陆续发布了三代共6款语音芯片解决方案。

边缘侧 AI 芯片的情况与服务端 AI 芯片略有不同。边缘侧 AI 芯片由于最终会被集成到智能单品上,因此设计时更多地是“带着脚镣跳舞”,需要在综合考虑成本、功耗以及模组集成等各种约束的前提下提供尽可能丰富的算力。同时,由于边缘侧 AI 芯片的应用需求往往是比较确定的,算力更多地是面向专门应用而设计,因此其算力和算法的结合会更加紧密。

为了解决边缘侧语音 AI 落地的问题,云知声于 2018 年 5 月份发布了自主研发的面向物联网的语音AI芯片“雨燕”以及软硬一体解决方案。其芯片设计特点在于如何在下游应用场景的约束下,基于其语音算法原厂定位的优势,将算法、应用和芯片更好地结合起来,在功能、性能、成本和功耗之间达到最佳的平衡。

在 2018 年以来云知声基于多种多种专用芯片平台已经陆续发布了三代共6款语音芯片解决方案,并在2021年达到出货近千万的成绩。其车规级语音AI专用芯片“雪豹”今年也即将在客户量产车型上落地出货。

云知声联合创始人/芯片负责人李霄寒介绍说,相比行业其他公司造芯,云知声的优势在于自主设计,尤其是 DSP、深度神经网络处理器都为云知声自主研发,能够真正面向场景,使AI芯片满足真实场景中的需求。

4.需求牵引,AI芯片要“顶天立地”

技术创新能让AI芯片再生,同时再好的AI芯片也要走向应用,因此在AI芯片发展的过程中,通过创新“顶天”,通过应用“立地”显得尤为关键。

从应用场景来看,云端AI芯片主要是GPU的天下,移动端AI芯片则是百花齐放。

用于云端训练和推理,目前大多数的训练工作都在云端完成。移动互联网的视频内容审核、个性化推荐等都是典型的云端推理应用。

根据IDC的研究数据,2019年中国智能服务器市场规模约为19.5亿美元,2018年至2023年的年均复合增长率达到27.09%,预计到2021年市场规模将达到31.8亿美元,市场规模快速增长。

云端高性能芯片主要面向人工智能计算中的数据中心集中计算需求,主要用在智能服务器产品和云端人工智能计算场景中。

在云端,Nvidia GPU在训练方面一家独大,在推理方面也保持领军位置。FPGA和ASIC因为低功耗、低成本的优势,也在持续抢夺GPU的市场的份额。

在移动端,AI芯片主要用于推理,解决云端推理因网络延迟带来的用户体验等问题。典型应用如视频特效、语音助手等。通过在手机系统芯片(SoC)中加入增加协处理器或专用加速单元来实现。受制于电量,手机对芯片的功耗有严格的限制。

手机正常运行离不开SoC芯片,SoC只有指甲盖大小,却“五脏俱全”,其集成的各个模块共同支撑手机功能实现,如CPU负责手机应用流畅切换、GPU支持游戏画面快速加载,而NPU(神经网络处理器)就专门负责实现AI运算和AI应用的实现。

适用于更多垂直行业的终端应用芯片如自动驾驶、智能安防等专用芯片发展较快。

AI芯片作为无人车的大脑,需要对汽车上大量传感器产生的数据做实时处理,对算力、功耗、可靠性都有非常高的要求。同时芯片需要满足车规标准,因此设计的难度较大。

在自动驾驶应用场景下,AI芯片的核心价值就是实时处理行驶道路上的人、车、物等复杂环境的感知和决策。要处理来自不同传感器(激光雷达、摄像头、毫米波雷达等)所采集的多样化信息,AI芯片必须具有超高的算力和极致效能。

百度CEO李彦宏告诉投资者,公司的未来在于人工智能和自动驾驶等相关领域。百度推出了其第二代AI芯片Kunlun 2,旨在帮助设备处理大量数据并提高计算能力。该芯片可用于自动驾驶等领域,并且已经进入批量生产。

百度第一代昆仑1芯片于2018年推出。百度为其芯片部门筹集资金,估值为20亿美元。

在自动驾驶汽车领域,NVIDIA一直处于领先地位的领域。在CES 2022上,Nvidia宣布了DRIVE Hyperion 8,带来了许多新功能,如冗余NVIDIA DRIVE Orin片上系统,12个环绕摄像头,9个雷达,12个超声波,一个前向激光雷达和三个内部摄像头。该系统被设计为功能安全,就好像一台计算机或传感器发生故障一样,有可用的备份。

英伟达的合作伙伴包括沃尔沃支持的Polestar和中国的电动汽车公司如蔚来、小鹏汽车等。。

安防是AI芯片的应用场景,主要任务是视频信息的处理。摄像头终端加入AI芯片,可以实现实时响应、降低带宽压力,也可以将推理功能集成在边缘的服务器级产品中。AI芯片要有视频处理和解码能力,主要考虑的是可处理的视频路数以及单路视频结构化的成本。

因图像识别技术以及大数据技术发展较为成熟,智能安防的发展和普及相对较快。iiMedia Research(艾媒咨询)数据显示,2019年中国安防行业市场规模达到8260亿元,并且在过去五年保持不低于10%的增长速度。

爱芯科技自主研发了一款高性能、低功耗人工智能视觉处理器芯片——AX630A,可以广泛适用于智慧城市、智慧零售、智能社区、智能家居、物联网设备等多个领域。

人工智能和云将成为未来10年最大的增长动力。而AI领域,的AI芯片者的天下。AI芯片领域的竞争,未来绝对是技术的竞争。而芯片产业链领域的困扰,则会随着全球化大市场的发展而逐渐缓解。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:Soft6软件网
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...