这几天浮出水面的FSD Beta的测试视频越来越多,小编找了一部分认真看了,感觉还是有很多地方值得说说的。于是决定延续这个系列“特斯拉FSD Beta版本的初级分析”,特意编了序号,以便以后再有内容我们再增加。所以你看到本期标题的“(3)”标记不要感觉奇怪,因为如果你是我们公众号的文章一路阅读过来,你就没错过什么。
另,我们这些分析的原则还是:第一,尊重美国Tesla爱好者的拍摄实录,而非他们的推测和解说;第二,尽可能写得轻松一点,不搞长篇大论;第三,态度开放,任何技术上的认同和不认同都欢迎在我们的公众号后台留言,小编会及时回复技术问题。
【来自Youtube账号@James Locke截图】
FSD Beta系统的激活前提已经大大放宽了,上图所示的起步条件是在一条完全没有车道线的“住宅道路”上路边起步的。我特意留存了司机双按拨杆激活Autopilot的动作,同时显示蓝色控制曲线状态显示车辆是从零速起步,完成并入车道(偏右侧)的曲线起步动作。怎么说呢?很酷,也很Musk。也许这就是Elon Musk反复强调的,Autopilot的最终目标是不依赖/少依赖外部条件的自动驾驶系统吧。
【来自Youtube账号@James Locke截图】
当车辆抵近路口时,Tesla车身摄像头可以比较完善地勾勒出路口的道路结构和“可行驶区域”。上图的箭头标记的地方可以看到,这是个住宅道路区域内的丁字路口,但丁字路口的的对面有一个内部道路入口(在画面左侧),因为是内部道路结构,所以不是连续沥青路面形成的,它跨越了相对浅色的行人道路面,和右侧的连续道路形成对比。但是FSD Beta还是很好地完成了这个任务,区别显示了十字路口两侧的道路差异。
按照我们的理解,单纯的视觉系统鲁棒性应该是很差的,不同的光照条件、反光状态、雨雪雾,甚至繁忙的车流量状态,都会很大程度上阻止基于单车的纯视觉系统(包括其背后的神经网络)正常和稳定的工作。但是目前看下来,FSD Beta这个版本确实将视觉系统的识别率,包括对于道路的各种动静态目标、道路标识、道路结构,以及最最关键的“可行驶区域”,提升到了一个前所未有的高度。没有借助先验信息——高精地图级别的先验信息,没有借助厘米级别的高精度定位系统——比如RTK后的GPS位置信息,更没有十分流行和十分时髦的Lidar点云数据特征对比库,FSD Beta确实已经把Autopilot的自主能力提升到一个新的高度。仅就从这一点上看,Tesla强过Waymo。
注意看上图的Google车载导航地图中的黄色箭头,其实在这个精度级别的导航地图上,其实我们提到的这个丁字路口和左侧的内部道路入口都是可以看到的。也许……我个人猜测,也许FSD Beta也会用到导航地图中的道路级别精度信息(比如道路的几何形状和对接位置)作为“可行驶区域”绘制的参考源之一,这样会提供给Camera+NN以矫正/参考信息。
小编大致在Karpathy介绍的Autopilot识别神经网络的结构上增加了这个猜想,在十分关键的识别系统(perceptionsystem)当中,Tesla坚持使用成熟的Video视觉技术是正确的,但如果要解决识别系统的鲁棒性问题和准确率的问题,应该还是需要“借助”至少导航级别地图的道路结构信息的。我个人也感觉Google在美国的道路结构地图绘制上(卫星成像后批次绘制)还是十分清晰且细节丰富的。
那么进一步的问题就是如何在一个以处理视觉信号为核心的神经网络的工程设计里,是如何实现视觉信号的处理和Google导航地图提供的道路结构信息(也可能是一种视觉信号,也可能是一种描绘道路结构的矢量图形文件)互相融合,或者互相校准和补足的?这个问题小编回答不了。
再进一步描述这个Road Layout/道路结构可行驶区域的绘制过程,在之前对于Karpathy的演讲中我们曾经分析过,具体应该是这样的:
1 经过3D-Labelling的视觉系统,将通过基本的卷积结构,搜集车身全部8个摄像头的视觉数据并作数字化处理;
2 这种基于神经网络的数字化处理的过程,遵循业内流行的“多任务结构”,及一个视觉信号数据来源被用作多种任务时(动目标识别、静目标识别、车道线和其它道路标识识别、交通信号灯系统的识别,共四大块)数字化处理时,遵循了先共性——再分头处理细致任务的原则;这是大家在上图中看到8个摄像头数据对应的8个大块神经网络处理阵列(共性)和基于其基础之上小块神经网络处理阵列的结构(示意,其实应该更多);
3 根据最终的任务的需求不同,所产生的数字化内容的组合即不同。举个例子:如果要是别车辆行驶前方的道路结构,并且推算事关生死的“可行驶区域”,那么至少需要前向三个摄像头,和侧向两个摄像头的大块神经网络处理阵列的主干输入,和静目标——道路标识牌、车道线和其他道路标识牌、交通灯系统,三个细分任务的小块神经网络处理阵列的输入;
4 在这个基础之上,Road Layout可以执行绘制过程,绘制的结果将会被与“道路级别的导航地图”信息做校准,校准结果将会被用于训练执行“绘制”过程的神经网络结构,直到最终达到一个合理的正确率。
在这次陆续披露的FSD Beta的视觉系统感知能力上,感受最深的就是这部分,FSD Beta基本上具备连续绘制可行驶区域的能力,而且正确率相当高。这里读者可能要区分两个概念:
第一:根据视觉系统的输入和专用神经网络绘制出来的道路结构和可行驶区域,极可能依然对车辆主体有速度上的限制,或者其它先决自然条件的限制(比如自然光照条件)。这个限制是天然存在,且完全依赖自身能力的增长是很难克服的。所有的输入都是“即时验证”的属性,而非先验,而本车的计算力始终是有天花板的,所以会有这个矛盾。但是客观上,车辆在需要高速、高精度识别道路可行驶区域的时候,往往是在路口和道路标志残缺的地区,而在这些区域,主车速度低一些又往往是可以接受的,所以矛盾并不突出;
第二:视觉识别(包括神经网络的能力)在FSD Beta的设计中,是对比参照人脑能力,应该努力具备对于看到的信息进行准确的绘制能力,和对于看不到的信息(但是对于驾驶决策至关重要)进行尽可能准确地推测能力。这一点我们在FSD Beta的测试视频内已经反复验证了,他确实可以“看到/推算出”物理上看不到的道路结构;
第三:道路结构信息和可行驶区域信息必须拥有足够高的精度才能被用于驾驶决策的输入,但是导航级别的地图(Google提供的)是不能提供这个精度级别的,所以不必要怀疑Tesla的FSD Beta对于导航地图的过分依赖,理论上就不可能。只有即时绘制的可行驶区域才能作为下一个控制环节的输入。这是可以肯定的。
以下两幅图连续标识出了FSD Beta纯视觉系统对于道路结构的解读能力,大约前后间隔20米的距离:
【来自Youtube账号@James Locke截图】
【来自Youtube账号@James Locke截图】
在大约时速35Kmph,且道路空旷无遮挡的前提下,车辆对于前方100m左右的道路结构绘制非常准确,足以保证主车行驶在道路中间偏右的位置,并安全通过路口。另,在上图中,即便垂向车道上一辆车辆被树叶遮挡,FSD Beta也可以在100m的距离上进行捕捉、绘制和识别。
写到这里,小编突然想起一个比喻。我们都知道DF-17和26是弹道反航母导弹,但是航母的目标标识依赖于高速无人机、低轨光学卫星的雷达或者视觉信息做弹道反舰导弹的初始数据装订,然后发射,飞过中段(再入后),往往需要导弹自己的雷达系统或者视觉系统作为真正的火控引导,高频次高速引导弹头撞击航母,这就属于“火控级别的导航”了。Tesla车辆的FSD Beta就是车辆运动控制系统的火控系统,而导航地图仅仅是个校准,或者说是参考。而Tesla完全拒绝高精度地图,是真牛啊!
今天先到这里,后续我们再看再解读再补充。敬请期待。
车右智能
一个一直用心仿真的自动驾驶技术信徒
info@co-driver.ai
备注:
1 题图来自互联网搜索;
2 文中插图1/2/4/5,来自Youtube账号@James Locke的评测视频截图;
3 文中插图3来自于Karpathy的大规模ML演讲截图。
相关文章链接: