特斯拉的纯视觉技术(即不需要毫米波雷达的方案)已经在部分新出货的商用版本的autopilot系统中存在(Model3和ModelY)。
从发展和技术演进的眼光看,纯视觉中的视觉识别技术相比传统的与毫米波雷达进行融合的视觉识别技术,进步了不少;而且正是因为去掉了不稳定的毫米波雷达输入,从而摆脱了异构传感器数据融合过程中所无法避免的优先级选择和权衡的牵绊。
在特斯拉AI负责人Karpathy看来,只要视觉足够强大,不需要异构传感器做补充是很自然的一件事情,把最好的研发力量投入到单一传感器的数据处理和模型训练上才是最应该得到关注的工作内容,而不是设定太多人为定义的“融合策略”,意味着无法对接大数据所带来的所有可能,反而陷入东施效颦的境地,拉低整个系统的可靠性。
从2019年Tesla的AI Day开始,Andrej Karpathy作为Tesla的AI项目总监头一次亮相并登堂入室,介绍了Tesla在Autopilot系统上所取得进展和所依赖的基本方法。从那之后,Karpathy在很多行业大会的主题演讲都成了热门技术专题而受到广泛的关注。
这不仅仅是因为Karpathy自身炫目的技术背景和良好的表达能力,更是因为Tesla Autopilot所仰仗的AI系统的建立和训练方法,包含但不限于:合格的超级数据集的建立方法、长尾稀有数据的搜集技术、异构传感器互为标注的方法、后台“假日模式”的关键数据标注和自动扩容……以及最近越来越浮出水面的Dojo超级计算机平台等等内容。
Karpathy被视为业内最炙手可热的技术明星,带着Tesla所独有的海量数据拥有者的光环(敢在自己的speech上经常使用Scalable字样的,估计只有他一人),在最近两年真是频频露面风光无限。虽然去年受疫情影响曝光次数不算太多,但每一次Karpathy的技术演讲都会给公众带来很多Autopilot独有后台的关键技术进展,令人耳目一新。
6月20日,本年度的CVPR2021收官,除了最终的各种奖项的发布,组委会在线上例行搞了关于自动驾驶专题的Key session分享,Karpathy的主题演讲位列其中。
学习之后,小编感觉在大面上听听不算有太多新意,但确实给出了Tesla在Autopilot系统中为什么选择移除毫米波雷达的原因和典型的测试数据,解释了在完全Vision能力的前提下,如何借助神经网络准确估计物体的深度、速度和加速度的方法,值得各位看看。
另外2021 Tesla AI Day指日可待了,也许Karpathy在Tesla最近一年多的创新内容上留了一手也不一定。这里做个预告:

如果没有Musk式的跳票,大概一个月之后,Tesla将举办AI Day和公众同步Tesla AI平台在硬件Dojo/FSD3.0和软件Autopilot/FSD所取得的进展,同时Tesla重点关注AI相关的人员招募。
我们在本篇主要是谈一下Karpathy对于Tesla Vision合理性所做出的技术论证,关于session的其他内容,以后再找篇幅。

上图右侧上方为Tesla车载传感器系统对于目标车辆的位置识别和距离(也可以理解为深度信息)预测;中间为传感器对于CIPV速度的定性识别和定量预测;下方为对于CIPV加速度的定性识别和定量预测。其中,CIPV=Closest In Path Vehicle即路径前方最近车辆实体。
这里读者需要注意的地方是,需要有一个明确的观念,上中下提供的深度信息、速度信息和加速度信息,都是后车(Tesla车辆)对于前车(急刹车执行者)的预测结果,即这些预测参数的主体是前车,预测的主体是后车。
我们在这里可以推测一下测试实际发生的后车配置,为了能够得到在毫米波雷达+视觉和纯视觉配置之间有完全的拉平对比和参考意义;测试时,后车应当是同一辆Tesla车辆上,配置了毫米波雷达+视觉和纯视觉两种传感器模式,可以通过Autopilot系统来调整其工作状态,或者工作在毫米波雷达+视觉的传统Legacy状态,或者工作在纯视觉的Tesla Vision状态,这样可以规避不同参试车辆载传感器参数和刹车系统性能上的不一致所导致的误判。
但这样的传感器状态切换方式,实际上造成每个场景的测试都需要至少两次。我们都知道多次测试的实际状态对齐同样很难,比如两次测试你要求前车同样做深度急刹,还要求急刹的减速度一致,这就很难。控制不好同样会影响到测试的对比结果。
因此还有一种执行对比测试的可能,通过设定测试车辆(后车)上的Autopilot系统,让其工作在所谓的“混合状态”,即Camera的感知输出被输入Legacy的识别模块同毫米波雷达一起做前车参数(深度、速度和加速度)的预测处理,同时Camera相同的感知输出也被输入给pure Vision的识别模块单独进行pure Vision的预测处理(基于新训练的Tesla Vision Neuron Module)。
这种方式理论上可以保证两种测量的测试环境客观对齐,但是针对这种测试方法,客观上需要解决的是,到底哪个预测模块的输出会驱动后车的刹车动作呢?
因为只有一路的预测模块输出可以真正去驱动后车的油门、刹车和方向(本文案例中皆不涉及方向),因此另外一路的预测模块输出则无法构成完整控制回路,而只能是“开路”形式存在,因为反馈不是自己这一路而是另一路的预测所造成的。
但因为这样的情形不会造成感知模块部分的对比误差,我们就不进一步区分讨论了。
我们继续看上图,从右上方的曲线对于目标车辆的位置识别来看,黄色线条所代表的是传统毫米波雷达+视觉识别融合算法的输出;而对应的蓝色线条所代表的是Tesla Vision(完全视觉),两条线在多数情况下是重合的,所以需要仔细分辨。【读者这里可以思考一下,如果是高度重合的,则意味着采用了同一辆车一次测试得到两个结果的方案。】
Position深度信息图显示,黄色所代表的Legacy识别模块,在集中融合处理毫米波雷达信息和视觉摄像头信息之后,拉出黄色线条,可以看到随着时间坐标一共有六个断点存在(图中数字标识)。Karpathy给出的技术解释是,在前车急刹的场景下,后车的毫米波雷达处于不可控的“Drop the track”即跟丢目标的异常状态,而且不是一次——在不到5秒的时间内(文中资料图不清晰,只能根据场景推测),连续丢失前车已经锁定的目标车辆6次!
【所谓的雷达锁定,技术流程上应该是Autopilot识别模块读取雷达的API接口,雷达可以提供目标的个数和每个目标的标识号码,能提供这两个信息,意味着此目标已经处于被雷达track的状态。】

【测试数据局部放大图】
如此频繁的雷达锁定目标失效频率,必然会给后续的雷达数据和视觉数据融合带来问题。首先需要面对的就是数据置信度的问题。
小编不确定Autopilot所谓的融合算法当中,毫米波雷达和视觉信息的优先级谁更高的问题,但在五秒钟内6次失效的极端场景必然会让后端融合算法陷入两难境地:
1 如果视觉识别算法结果的优先级更高,则此刻一秒钟内需要做出对于毫米波雷达数据的六次舍弃判定,并且对应每一次舍弃判定之后的极短时间内,还必须要处理毫米波雷达所重新给出的目标锁定/track的API信号,包括位置信息和目标物标识信息;
2 如果毫米波雷达数据识别算法结果的优先级更高,则此时整个Autopilot系统的识别算法需要递补视觉识别算法的优先级,再重复1中的操作,并在每次雷达API信号重复回复目标识别信息时,矫正优先级次序,反复6次!
Karpathy在本次会议上主要论证的就是Tesla取消毫米波雷达的原委。我们可以这么理解:如果毫米波雷达在其最擅长的自适应巡航和前向碰撞场景中,价值都不大的话,那么纯视觉方案Tesla Vision登场也就顺理成章了——毫米波雷达在其他自动驾驶场景中的作用本来就不明显。
小编印象,大约五年前在佛罗里达那两次致命的Model S在激活Autopilot撞击横向跨越马路的白色集卡车厢的事故后,不仅引发了Tesla和Mobileye的口水战和最终的分道扬镳,事后Tesla更是重写了关于前向碰撞告警和自动巡航驾驶部分的算法。当时的口径是,以毫米波雷达的识别输出为更优先;不够,后来又改成了“以视觉输出为优先”。
在CIPV(路径前方最近车辆实体)的速度识别中,我们也可以清晰地看出,蓝色线条所代表的纯视觉识别算法在时间轴上率先1秒多(估计)给出前方目标物的减速度信号(即速度为负值),而且一贯一致。相比较而言,融合毫米波雷达和视觉的传统识别算法(橙色线条)还是出现高达6次的目标物跟踪失败。仔细看那六个脉冲信号,意味着在那六个瞬间,传统融合识别算法处于归零状态,是没有输出的。
在这个对比下,Tesla Vision纯视觉识别的优势就很明显,因为这种紧急环境下的1秒意味着太多安全增益了。读者可以设想此处的测试场景为前车急刹,此时对后车的响应要求极高了,而后车响应的前提就是识别要快速和准确,秒级别提前响应的价值可能就是“救命”的。
在CIPV Velocity图中,读者可能注意到了这里的标注为“super narrow”所提供的前车速度识别效果完美。这里的super narrow指的是前向长距摄像头。
在CIPV Acceleration图中,也是蓝色的Tesla Vision识别算法率先测量到目标车辆的减速度,随着后车跟着踩刹车,前车的相对减速度缩小直至归零,后续有可能会有正向加速度的测量数据,我们不做深究了。
但对比着看,橙色的Legacy混合识别算法输出很诡异,不仅响应时间慢,而且直接上来就测出来断续的前车正向加速度……这很奇怪,因为后车此时同步深刹车,前车不应当体现出正向加速的测量结果。小编只能理解为Legacy此时的整个堆栈输出都是有问题的,不足以采信。
【不清楚这里混合识别算法的表现是不是就是当前Autopilot在前向所能给他百万计消费者的测量能力呢?】
这里针对这个场景做个小结,混合的Legacy算法堆栈输出,在对比下是表现不佳的,如果此时是Legacy主导Autopilot,驾驶员的体验是顿挫的多次刹车感,但每次刹车都很轻,无法提供足够的减加速度;相比之下,Tesla Vision则可以提供完美的、光滑的减速滑行,令乘客和驾驶员更有信心。
【注:此处小结信息的主旨是Karpathy所提供的】

上图中的场景——跨越公路的桥梁
特意选择跨越公路的桥梁作为典型场景的原因,相信大家都很清楚。目前普遍商用的毫米波雷达天然在垂直分辨率上表现非常有限,会造成对障碍物高度(包括障碍物净高尺寸和距地面高度)信息测量的不足。
当然现在毫米波雷达的技术也在发展,所谓的4D雷达就针对垂直分辨率做了特殊处理。比较典型的是华为的4D成像雷达,没看到过实际产品,但上次上海车展前华为发布的一些列传感器当中,就包含有4D成像雷达。
但就仅针对Tesla所使用的大陆ARS4-B来说,水平分辨率在250米的距离上有0.2m的精度,但在垂直方向上压根没提具体指标(就是不值一提)。所以造成明明是横跨公路的高架桥梁,但在雷达成像API接口上,主机就只能看到一个巨大的物体横梗在前方公路上……早期大部分的“鬼刹车”(即障碍物假阳性测量结果)和这种场景有密切关系。

【测试数据局部放大图】
在这个毫米波雷达的测量水平之上,我们可以观察上图中的黄色线条。在Position预测中,Legacy(雷达+视觉融合识别结果)在位置1处才发现确定的桥梁实体,并给出距离的测量和识别返回值,而与此同时,蓝色线条所代表的Tesla Vision纯视觉识别结果,是提前2秒及已经发现了桥梁实体的存在,并保持稳定跟踪识别。
在1点之后,持续大约200ms多的时间内,混合融合算法的输出还算稳定,并且可以在2的位置上测量出桥梁实体逐渐接近(可以看到一个斜率表示距离在靠近主车),但也就是200ms时长的稳定,之后再次丢失目标的Track;在位置3,毫米波雷达再次捕捉到桥梁实体,但随即再次瞬断。
如果仔细看这次瞬断的原因应该不是毫米波雷达的问题,对比蓝色的纯视觉线条,此时距离纯视觉不再跟踪桥梁实体,也只有大概500-800ms了,这意味着主车车辆已经行驶到桥梁下方或者非常接近的地方了。此时位于车辆头部低位的毫米波雷达,因为其狭窄的垂直和水平波瓣角度,应该是大概率脱离了桥梁实体结构,也就无法捕捉到雷达回波信号了。因此Legacy融合算法在这个位置的再次丢失信号,属于正常现象。
但总体看,Position和Velocity来看,融合算法的对于桥梁的捕捉,既不确定,也不持续,还很突兀。
Karpathy说,如果是Legacy传统autopilot控制方式,此时主车车辆驾驶员会感觉到敦促的减速感,而不是Tesla Vision下,车辆在接近桥梁过程中,主车观察桥梁的运动状态是横贯始终的、持续的微微减速,而不会出现减加速的测量结果。显然后者给驾驶员的信息和体验都更好。

从上图曲线中我们可以观察到,橙色线条所代表的Legacy融合识别算法的输出,比蓝色的纯视觉算法的输出,又足足晚了5秒钟!
对应的距离,Tesla Vision是在180米就发现并确定了目标,并开始执行减速度操作;而对比之下,Legacy是在110m才决定性看到白色车厢,并开始提供Track信息,开始刹车。这之间有巨大的5秒时间差距。
当然我们也注意到,即便是Tesla Vision的识别距离在180m,但是视觉识别也出现了不稳定,至少有两次反复确认的抖动之后,大约是不到2秒钟以后,才开始提供稳定的目标物识别和持续刹车减速度。这个也符合我们的实际经验,随着车距靠近,视觉摄像头可以逐步获取更多更细节的白色矩形信息,比如阴影的变化、比如倒车镜的逐步显现,甚至车头驾驶室的轮廓浮现…….
这些因素最终帮助纯视觉背后的神经网络一步一步更新输出,最终利用训练好的模型确定这是一辆车的尾部,定性定量。
以上即为Karpathy在CVPR2021 workshop for autonomous driving上为Tesla Vision所做出的论述内容。
从发展和技术演进的眼光看,纯视觉中的视觉识别技术相比传统的与毫米波雷达进行融合的视觉识别技术,进步了不少;而且正是因为去掉了不稳定的毫米波雷达输入,从而摆脱了异构传感器数据融合过程中所无法避免的优先级选择和权衡的牵绊。
在Karpathy看来,只要视觉足够强大,不需要异构传感器做补充是很自然的一件事情,把最好的研发力量投入到单一传感器的数据处理和模型训练上才是最应该得到关注的工作内容,而不是设定太多人为定义的“融合策略”,意味着无法对接大数据所带来的所有可能,反而陷入东施效颦的境地,拉低整个系统的可靠性。
当然所有的这一切的基础,都是Tesla足够自信的视觉识别能力的逐步提升,否则就是无本之木了。
如果毫米波雷达演进到更好的4D成像雷达,又如果Lidar的成本足够低、足够到达车规安装和运行标准,是否依旧意味着异构传感器数据“融合”策略不可取呢?Mobileye的Sashua教授也在不久前的CES2021上讲到,Mobileye也不会把Lidar和Camera数据做融合,而是各自独立工作且互为备份。
因此“融合”的未来是否会逐渐黯淡?需要实践和时间的验证。
车右智能
一个一直用心仿真的自动驾驶技术信徒
info@co-driver.ai
1.《九章智驾》长期招聘优秀的内容人才。我们希望您是这样的人:热爱自动驾驶/智能座舱、有极强的好奇心、有极强的进取心和自律能力(能习惯在家办公)、对新东西学习能力强、文笔佳、情商高,有自动驾驶/智能座舱公司、车企或Tier 1工作经历的优先。简历请发苏清涛的邮箱397558397@qq.com,或微信18057166517(扫描下方二维码)。
2.《九章智驾》长期面向产业界的朋友们征稿(分“职业转型经历总结”及“知识积累整理”两个方向),如果您要兴趣投稿,请扫描以下二维码加孙利的企业微信。加微信时务必备注您的真实姓名及岗位等信息,谢谢。