RSS 2020 | 在目标、动力学和意图不确定下的隐含信念空间运动规划

将门创投 2020-07-10

动力学置信度

3326 字丨阅读本文需 11 分钟

关于作者:

Dicong Qiu (邱迪聪),是该论文的第一作者, 在iSee.ai 主要从事自动驾驶中行为决策与动作规划和认知科学结合的相关工作,此前就读于 CMU 的机器人专业,从事人工智能、轨迹优化及星球探测车等研究,期间在美国宇航局喷气动力实验室(NASA Jet Propulsion Laboratory)实习,为Mars 2020 及其他星球探测器提供智能视觉认知功能。另外两位作者Yibiao Zhao (赵一彪) 和Chris L. Baker 此前均在Josh Tenenbaum 带领的MIT 计算认知科学实验室从事相关研究,现在分别是iSee.ai 的CEO和首席科学家。


Q & A该工作的研究团队将在下周举行的RSS 2020 主会上进行在线答疑,欢迎各位莅临参与讨论。以下是其论文的在线答疑时间安排。



该论文考虑的是如下图所示的POMDP 问题:系统处于连续的状态-动作-观测空间中,而系统的状态转移除了受到上一时刻的状态和动作影响,还由一个离散的隐变量z 决定,而每一时刻的观测量则由当前时刻的系统状态以及隐变量共同决定。其中隐变量z 可用于表示系统中不确定性的不同模态,如旁侧车辆驾驶者的性格、不同行进路线的路况、路面的物理状况等。

由于问题假设并未对状态转移模型以及损失函数的形式进行约束,所以Q 的形式一般而言是非线性非凸的。为了沿用凸优化的流程,我们需要对Q 进行如下所示的二次近似操作。

Probability Weighted DDP (PWDDP):其根据当前时刻的置信度直接对所有可能性进行加权平均操作,而不考虑由于不同的未来观测值而产生的轨迹分支;

Maximum Likelihood DDP (MLDDP):其只考虑当前时刻下置信度最高的隐变量,而忽略其他的可能性。这两种baseline 算法都是常见的POMDP 应对策略。


论文提出了三类不确定性,并为每一类不确定性都设置了一个实验场景:

目标函数不确定 (T-Maze 场景):我们的车辆位于一个T 字型的道路入口处,希望走到一个不确定的目标地点。该目标地点可能是道路的左侧,也可能是道路的右侧,而车辆必须沿侧道路行驶至靠近分叉口的地方才能够得到更好的观测,以确定目标所处的位置。

本体系统运动学规律不确定(Muddy Track 场景):我们的车辆在一条泥泞的道路上朝一个目标地点行驶,但右侧的道路有一定的可能性会更加平滑。而我们的车辆必须在行驶中探索右侧道路是否真的更平滑,从而规划出一条最优的行进路线。

其他个体意图不确定 (Lane Change 场景):我们的车辆希望并线到左侧车道,可是那里已经有另一辆车了。我们需要时刻评估对方是比较合作礼让的,还是比较冲动激进的,进而确定应该超车并线,还是等待对方先向前走远再并线到它后方。


下图展示了在三种不同的场景下各个算法的量化表现。在三种场景下,论文提出的 PODDP 算法的累计实际损失函数值均显著优于另外两种baseline 算法。


关于我“



将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。



免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:将门创投
0

参与评论

登录后参与讨论 0/1000

为你推荐

没有更多了