旷视刷榜自动驾驶比赛?AI视觉让自动驾驶汽车开“天眼”

黑科技看看 2023-07-07
2297 字丨阅读本文需 6 分钟

智能车赛道,藏着一个最隐秘的AI视觉玩家。

这个玩家尚未官宣任何智能车相关的业务进展,但又在最核心、最前沿、最被渴求的自动驾驶系统能力上屡屡展现竞争力——全球AI顶会冠军级的统治力。

不仅具体技术上突出,在目标检测、语义分割、视觉推理等方面有诸多顶会级研究;还拿下多个自动驾驶相关比赛的冠军,甚至还用7个摄像头的纯视觉方案,完成了高速、城区和泊车环境的自动驾驶。

这个玩家不是特斯拉的AI团队,这个玩家是旷视科技。

在最近的AI顶会CVPR中,大模型加持下的视觉研究,正在驱动自动驾驶方向的新研究,而旷视研究院,在一众自动驾驶和智能车玩家参与的竞赛中,获得了考察自动驾驶环境感知能力的冠军。

旷视刷榜了什么自动驾驶比赛?

旷视研究院参加的这个比赛,是CVPR 2023专门面向自动驾驶感知决策系统设立的挑战赛。其中OpenLane拓扑关系挑战赛冠军,被旷视收入囊中。

挑战赛一共四个赛道,除了旷视参加的OpenLane拓扑关系挑战赛(OpenLane Topology),还有在线高精地图构建挑战赛(Online HD Map Construction)、三维占据栅格预测挑战赛(3D Occupancy Prediction)和nuPlan规划挑战赛(nuPlan Planning)。

其中,OpenLane拓扑关系赛道主要考察自动驾驶技术理解场景的能力。

赛道要求基于OpenLane-V2(OpenLane-Huawei)数据集,输入给定环视相机照片,参赛者需要输出车道中心线和交通元素的感知结果,以及这些元素之间的拓扑关系预测。

也就是说,这个比赛不是考察以往自动驾驶感知中,对车道边缘线或者交通标志单一的识别能力,而是要求自动驾驶技术可以感知车道中心线,还要能理解车道中心线和交通元素的逻辑关系,比如绿灯亮了,这意味着哪条车道可以通行。

那么如何判定冠军?OpenLane-V2数据集提供了判定标准:OLS分数(OpenLane-V2 Score),通过计算感知结果和拓扑预测mAP的平均值判定得分。

在34个参赛队伍中,来自旷视研究院的队伍得分唯一超过55分,达到55.19分,具有明显优势。

那么,旷视用了什么样的方法?

旷视的自动驾驶纯视觉方案

首先感知阶段,对于交通元素检测和车道中心线检测两个感知任务,旷视分别采用了两个不同的模型。

对于交通元素检测,旷视使用主流2D检测模型YOLO系列中最新一代YOLOv8作为baseline,相较于其他2D检测方法YOLO速度更快,性能更准确。

再加上比赛使用的数据集OpenLane-V2标注了交通标识和车道的对应关系,旷视在YOLOv8训练过程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5个trick,通过和前视角图像交互生成对应交通元素的特征。

对于车道中心线检测,旷视使用自研PETRv2模型作为baseline。PETRv2提供了一个统一的纯视觉3D感知框架,可以用于3D目标检测和BEV分割。

而在这次比赛中,旷视利用PETRv2从多视角图像中提取2D特征,以及利用摄像头截锥空间中生成3D坐标,把2D特征和3D坐标输入3D位置编码器。

随后使用3D位置编码器给Transformer解码器生成key和value组件,lane queries再通过全局注意力机制和图像特征进行交互,生成3D车道中心线检测成果和对应的车道中心线特征。

而在拓扑关系预测阶段,旷视基于YOLOv8和PETRv2搭建了一个多阶段的网络框架,并利用两个感知任务生成的成果拼接对应特征,再使用两层MLP预测对应的拓扑关系矩阵。

最后从OLS得分来看,旷视团队的这套方法在交通元素感知(DETt)、车道线之间拓扑关系预测(TOPll)和车道线与交通元素拓扑关系预测(TOPlt)方面均领先于其他参赛者。

计算机视觉加速发展,市场规模超千亿

AI产业链可分为基础层、技术层、应用层。

- 基础层:主要包括芯片、软件框架、传感器、服务器、数据(集)等软硬件及服务,为技术层提供算力、数据等底层支撑。

- 技术层:主要通过基础层的算力、数据支持,进行海量模拟训练和机器学习建模,为人工智能提供核心的算法与应用技术,主要包括以深度学习为代表的算法模型,以及计算机视觉、智能语音、机器学习、生物特征识别、知识图谱等关键技术。技术层是人工智能发展的核心,对应用层的智能化发展起到决定性作用。

- 应用层:面向特定应用场景需求而形成的软硬件产品或解决方案。人工智能应用广泛,可有效赋能下游领域实现人工智能应用,为其转型与发展注入强劲新动能,如智能机器人、AI+医疗、AI+金融、AI+交通等。

计算机视觉产业链也可分为基础层、技术层、应用层。基础层包括硬件支持、算法支持和数据集;技术层包括视觉技术平台、视频识别、图片识别和模式匹配;应用层包括计算机视觉技术在智慧城市、智慧安防、智慧物流、智慧金融、手机终端和智慧商业等领域的应用。随着机器学习的不断推进,图像及视频识别准确率持续提升,计算机视觉算法向着高效求解复杂问题、进行全局优化的方向发展。

计算机视觉的技术应用领域从最初的静态人脸识别和光学字符识别,逐渐扩展到了人脸识别分析、活体检测、人体识别分析、物体检测识别、行为识别分析、人体重识别、医疗影像诊断技术等诸多种方向,在泛安防、金融、互联网、医疗、工业、政务等领域得到广泛应用,市场规模仍处于高速增长阶段。据统计,我国高达42%的企业有应用计算机视觉相关技术,2021 年,我国计算机视觉核心产业规模和带动相关产业规模分别为989.6 亿元和 3079 亿元,占人工智能核心产业和带动相关产业规模的比重分别达到49.5%和 40.0%。

深度绑定AI技术,智能驾驶技术驶入加速发展快车道

复盘自动驾驶的发展历程,自动驾驶进程与AI技术发展深度绑定。上世纪后期高校开始自动驾驶实验,并初步应用AI技术。2004年起DAPRA开启无人驾驶挑战赛,激起自动驾驶研究浪潮,机器学习得到更广泛应用。2009年科技巨头谷歌入局,2012年以卷积神经网络(CNN)在图像识别中的应用为节点,自动驾驶深度绑定AI技术,开启快速发展。传统OEM、初创公司、科技企业纷纷投入自动驾驶研发,国内百度、小马智行、文远知行也深化布局,共同推动自动驾驶商业化进程加速。

AI技术发展推动自动驾驶两次产业浪潮:1)2018年以前,受益于深度学习在图像识别等感知领域的应用,自动驾驶迈向产业化,直接面向L4的初创公司受到市场热捧,但商业化落地受到成本瓶颈、长尾问题和法规等限制。根据Gartner的新兴技术成熟度曲线,2019年高级自动驾驶已处于泡沫化低谷期。

2)后经过3-4年的技术积累,感知和决策算法等核心技术的突破提高了AI模型鲁棒性、系统冗余性、测试完善性,助力自动驾驶加快商业落地节奏。近两年具备L2/L2+功能的车型如小鹏P7、Model3等成功上市并扩大量产,特定场景的L3/L4级功能开始落地。

根据Gartner 2020年7月的AI技术成熟度曲线,高级自动驾驶开始爬出泡沫化低谷期。我们认为,随着AI技术与驾驶场景的深度融合,智能车将逐步实现从低速到高速、载物到载人、商用到民用的落地。

文章来源: 智能车参考,挖掘龙头逻辑,中金研究

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:黑科技看看
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...