城市级导航辅助驾驶争夺战,地图和感知哪个更靠谱?

相约车见 2023-07-07
3012 字丨阅读本文需 7 分钟

6月27日,理想汽车在北京望京地区开展城区通勤NOA功能测试。此次驾驶路线以望京地区为起点,途径京密路、罗马环岛、天北路,随后到达理想汽车顺义研发总部,涵盖城区道路、国道等路段,主要测试其城区点对点通勤辅助驾驶表现。

NOA全称Navigate on Autopilot,即“导航辅助驾驶”,部分厂商称之为“高阶辅助驾驶”。根据使用场景不同,NOA包含高速NOA和城市NOA,此次理想汽车的通勤NOA属于城区场景。

据了解,城市NOA支持车辆在复杂的城市场景中实现点到点的导航辅助驾驶功能。在此次测试中,理想汽车提前设置好路线起点和终点,通过车辆自行“驾驶”实现全程辅助驾驶,并对路途中的交通信号灯、行人、车辆、障碍物以及多种行驶状态作出判断,然后自主抵达目标地点。

以前各路制造商在宣传产品时,总爱标榜驾驶辅助技术属于L几,比如L2、L3等。但如小鹏、理想、特斯拉这种头部企业更愿意直接叫自己技术的名称。那么无论是XNGP、NOA还是FSD,这些辅助驾驶技术,究竟是个什么水平?

1、辅助驾驶水平如何

据了解,城市NOA支持车辆在复杂的城市场景中实现点到点的导航辅助驾驶功能。在此次测试中,理想汽车提前设置好路线起点和终点,通过车辆自行“驾驶”实现全程辅助驾驶,并对路途中的交通信号灯、行人、车辆、障碍物以及多种行驶状态作出判断,然后自主抵达目标地点。

提到自动驾驶,首先就要把SAE搬出来,SAE全称是国际自动机工程师学会,会员均是航空航天、汽车和商用车辆行业的工程师和相关技术专家。对我们来说,SAE最主要的作用就是开发一致性标准。其中大名鼎鼎的自动驾驶分级,L1到L5,就是他们提出的。在2021年又经过一次更新,细化了L1\L2属于驾驶辅助,L3以上为自动驾驶,两部分的核心差异是人在驾驶还是机器在驾驶。

回过头来再看小鹏理想他们自己的驾驶辅助系统,无论是城市NOA还是XNGP,核心都是在没有高精地图的情况下、通过激光雷达实现接近人类司机的驾驶表现。说人话就是你人怎么开,它就怎么开。这样一来,驾驶辅助就可以在城市复杂路况中使用。举个例子,在以往的L2自动驾驶辅助中,程序往往设定成严格遵守交通法规,未知风险出现时,最终逻辑就是一脚刹车。而在我们日常驾车过程中,由于交通环境的复杂,老司机们往往会做出一些违反交通法规但又不太影响其他交通参与者的驾驶行为。比如压实线绕过逆行快递三轮车、躲避强行掉头、并线的前车这些。

2、到底是信地图还是信感知

国内大多数导航辅助驾驶系统,都依赖高精度地图的覆盖。车辆要基于高精度地图丰富的先验信息进行点到点辅助驾驶,所以高精度地图的覆盖范围就成了导航辅助驾驶覆盖范围的关键因素。

那么辅助驾驶走入城区,表面看起来只要把高精度地图的覆盖范围扩大,事情就变得简单许多?

但是这并不容易,主要挑战有两项。一是法律法规问题,相关单位对于高精地图的审核发放资质审核极其严格;二是我国公路里程长,供应商没有足够的资源对大大小小的公路进行测绘和维护更新。

以高德、百度以及四维图新这类头部地图数据供应商,对外透露高精度地图测绘进展时都自称已完成全国 30 万公里封闭路段的测绘,同时开启了城市道路的测绘工作。

综合来看,依赖高精度地图测绘采集的铺开并非城市导航辅助驾驶的最优解,从场景适应能力来看,轻地图重感知的单车能力更适合城市导航辅助驾驶落地。

当高精度地图鲜度无法满足高阶辅助驾驶的需求时,它的地位就会被弱化。

不止一家车企的高管或研发人员在公开场合表达过「弱高精地图化」的想法,且有些车企和供应商已经在这么做了。

3、长城魏牌摩卡

今年成都车展上,毫末智行 CEO 顾维灏对外分享了他们城市 NOH 进展快的一大原因,那就是「重感知」的策略。

既然是一套重感知的系统,我们首先要了解的是这套系统的感知配置。

魏牌摩卡城市 NOH 所搭载的硬件包括:

2 颗 125 线激光雷达

12 颗摄像头

5 颗毫米波雷达

高通 Snapdragon Ride智驾平台,单板算力 360 TOPS

值得注意的是,高通 Snapdragon Ride 平台下首发的 8540 芯片采用的是 5 nm 制程工艺,9000 采用的是 7 nm 制程工艺。这也是高通骁龙 Ride 自动驾驶算力平台在国内的首次上车。

从硬件上来讲,这完全是一套奔着高阶辅助驾驶,甚至是自动驾驶去的硬件架构。

但是辅助驾驶看的是软件能力。在此前的两届毫末 AI DAY 上,毫末智行 CEO 顾维灏分享了很多毫末自动驾驶的干货。下面我们来回顾一下,也许就能窥见魏牌摩卡城市 NOH 的大致能力。

4、单车智能,毫末是怎么做的?

目前大部分的智驾感知系统都存在「时间上的感知不连续、空间上的感知碎片化」问题。

时间上的感知不连续指的是由于摄像头采集的图像都是以帧为单位,两帧之间的时间间隔为定值。系统能够对每一帧图像进行处理,但是帧与帧之间的几十毫秒对于系统来说就是空白。即便具备单帧目标持续检测处理能力,在时间上进行后处理融合也无法充分利用时序上的有用信息。

空间上的感知碎片化指的是由于每一个传感器都有 FOV 视场角的限制,且安装位置和角度也不同,导致每个传感器都只能感到当前环境的局部信息。系统需要将多个相机的数据融合在一起,才能得到车身周围 360° 的环境信息。

随着数据量的增多,传统的 CNN 算法显得开始有些吃力,于是毫末引入了 Transformer。Transformer 最早由谷歌团队提出,首先被用于自然语言处理领域,用来处理序列文本数据。

后来因为 Tranformer 在大数据处理方面的优势,非常适合汽车自动驾驶海量数据的处理,于是在近些年受到了视觉领域的热捧。在处理多个传感器检测结果与充分利用时序信息的融合要求下,Transformer 的优势就能够体现出来。

特斯拉是首个将 Transformer 神经网络带入到自动驾驶领域的车企。而如今国内车企与供应商也纷纷跟进,长城毫末是动作进展最快的一家。

Transformer 在空间前融合的主要作用是坐标系的转换,而空间融合模块在时序上的持续输出则是时间前融合。

引入 Transformer 神经网络后,我们再通过空间与时间两个维度来聊毫末城市 NOH。

5、空间前融合

Transformer 在空间前融合的主要作用是进行坐标系的转化,毫末将多个角度的图像数据进行拼接,画面转换到具备 Z 轴的三维空间坐标系,从而输出鸟瞰视觉 BEV。

使用 Transformer 的注意力机制,系统可以非常稳定地识别车道线这类目标物体,否则不同传感器的标定误差会非常影响感知的连贯性。

同时,在输出 BEV 后,系统还需要对应目标位置 ,也就是找到三维坐标系中每个点与 2D 图像中的对应关系。

城市 NOH 的特征提取仍然是在 2D 图像上完成的,但是多了一步 BEV Mapping,即采用 ResNet 和 FPN 进行特征提取,然后使用 Transformer 将特征图变换到统一的 BEV 坐标。

不同于特斯拉的纯视觉 BEV,毫末城市 NOH 还融合了激光雷达点云数据。但是由于激光雷达产生的点云数据本身就具备 3D 信息,所以与图像 BEV 前融合的难度并不算大,同时两种属性的信息也能互作校验。

6、时间前融合

在时间融合上,简单地说,我们人类开车做预测是基于短暂的记忆来做预测和判断的。例如我一秒前看到有一个锥桶飞到我的车道前,那么我识别到之后,下意识减速、观察环境然后变道躲避。要让系统具备预测能力,就要加上时序,即让它具备记忆。

而这也是 Transformer 的优势所在,BEV 不仅要对齐不同视角的信息和特征,同时还要把各个视角素材的时间轴做好匹配,并在车辆行驶中将「过去时」里已经构建好的环境与「现在时」构建的环境做连续拼接。

这样,系统就具备了「短时记忆」。

人类驾驶员只需要学会驾驶,就能够在大部分道路上开车,不需要把全国道路都开一遍。这是因为人类不需要高精度地图这类先验信息。眼睛(传感器)+大脑(神经网络)就足以解决驾驶这项任务。

但是系统想要实现自动驾驶,则需要尽可能多的进行路测,这样才能解决更多 corner case。打个比方:人类就像家长,智驾系统则像是呢喃学语的孩子,家长要让他多「看」外面的世界,并且亲口告诉他这是什么,那么再次遇到时,他才能认识。

所以大量的数据就变得非常重要,去年底,毫末智行发布了自动驾驶数据智能体系MANA。简单地说 MANA 就是关于数据的一切,包含了数据标注、算法模型、测试验证系统、仿真模拟工具以及计算硬件。

在真实路测方面,毫末NOH 用户真实行驶里程达到了 1,500 万公里,用户总使用时长 171,884 小时。

写在最后

也许是车企普遍认为在短期内,寄希望于图商对全国大大小小的城市道路进行高精度测绘和维护是一件难于登天的事情。所以单车智能,依赖车辆的传感器进行自动驾驶逐渐成为车企共同努力的方向。

这就造就了今天这幅行业景象,排头兵奋力摸索,企图打通高速与城市,在功能上也「卷」出了新高度。

文章来源: 时代财经,搜狐汽车,42号车库

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:相约车见
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...