接上一期。Karpathy在ScaledML2020会议上的主题演讲专题>>
我们谈了很多关于BEV俯视图信息的获取和转化方法,也谈了BEV在Smart Summon应用中的实际落地。Karpathy后续还谈到了BEV的视觉信息处理方法,实际还可以在动态目标检测中使用。很明显,这是一个更难的领域,因为相对于对道路拓扑的学习,动态目标的运动速度快,在视觉识别和视场角度转化上,明显需要更强的计算能力。目前我们还不知道类似的动目标检测上,对于BEV(Bird-eyes View)算法的依赖性有多大。平时我们观测到的Tesla或者其它供货商的视觉动目标识别算法,基本都是摄像头的原有视角,有的情况下不同视角需要缝合获取全局数据,但是投射到BEV的情况之前没有看到过。
上图中的第一行是视觉摄像头输入,第二行是对于视觉信息的深度信息处理。关于这个技术我们在之前的相关专题曾经涉及过,基本上是一张自我监督的强化学习方法(也只能是自监督),图面上看可以达到相当的水准。Karpathy把这个技术归类到pseudo-Lidar技术范畴,也是合理的。最下面则是依据视觉信息和深度信息进行的BEV俯视图的构造,其中中下方的那个红色框应该是本车。
和对于道路拓扑的学习不太一样,对于动目标的视觉识别,远距离可以依赖长焦距的视觉镜头和算法,也可以依赖毫米波雷达;中近距离的对于Tesla来说,则必须依赖视觉摄像头和相关算法。因此,不管最终是否通过BEV转到俯视图,图幅中出现的每一个像素的深度信息都是必要的。
上图中即是Per-pixel depths fromvision的实现效果。从画幅上看是没有真正的Lidar覆盖半径那么远的,但是考虑到这是从视觉信号计算所得到的深度信息,所以性价比还是非常吸引人的。按照我们之前的解释,这种基于自学习的深度信息获取方法,是逐个视觉pixel来计算的,按照第一轮直接针对视觉Frame的计算评估,将得到一个基础的pixel级别的深度信息。以此为准,将每一个像素都按照相应的深度信息投射到一个3d的立体空间内,然后再启动对于下一个时刻的frame的深度信息预估…..
按照一致性原则,如果第一轮估算的深度信息没错,则后续的frame以前次估算的深度信息进行推演也不会产生错误(深度信息的前后冲突,违背自然规律),如果错了,就需要重新计算和修正。基于这个基本原理,从视觉信号中依赖不需要人员干预(主要是标注)的自学习体系,就可以做出准确度很高的深度信息的预测,并提供给各个自动驾驶的模块使用。
按照Karpathy的说法,这种Pseudo-Lidar的方法,和真实的Lidar方法其实非常像,而且除了前端提供的是视觉信号以外,后端的各种基于纯粹Lidar的目标识别方法,都可以拿来就用,便利而且成本低廉。
到此为止,这是我们看到的Tesla autopilot负责人在美国疫情爆发之前的最后一次公开演讲,能看到基于视觉的目标识别技术越来越具体化。随着Autopilot新版本的不断推出,我们也真切感受到Tesla在自动驾驶上的扎实进步,Karpathy以前在演讲中谈到的一些方法和技术也在逐步落地,我们希望自动驾驶技术尽快成熟,也希望国内的厂商能够及时跟上。
一家之言,欢迎讨论。
车右智能
info@co-driver.ai
备注:
1 题图1/2来自于Karpathy在ScaledML会议上的演讲“AI for Auto-Driving”,https://www.youtube.com/watch?v=hx7BXih7zx8&t=1240s;
2 题图来自互联网。
相关专题:
特斯拉Autopilot机制的最新介绍 ——Karpathy在ScaledML2020会议上的主题演讲 (1)
特斯拉Autopilot机制的最新介绍 ——Karpathy在ScaledML2020会议上的主题演讲 (2)
特斯拉Autopilot机制的最新介绍 ——Karpathy在ScaledML2020会议上的主题演讲 (3)
特斯拉Autopilot机制的最新介绍 ——Karpathy在ScaledML2020会议上的主题演讲 (4)
特斯拉Autopilot机制的最新介绍 ——Karpathy在ScaledML2020会议上的主题演讲 (5)
特斯拉Autopilot机制的最新介绍 ——Karpathy在ScaledML2020会议上的主题演讲 (6)