接上期文章。
《关于特斯拉模仿学习方法的理论》——暨使用神经网络复制驾驶员的行为。
本文发表于2019年9月17日,作者是一个长期研究Tesla及其自动驾驶算法Autopilot演进的技术专栏作者,Yarrow Eady。文末给出文章链接,对英文原文有兴趣的读者可以直接访问。
A Theory about Tesla’s Approach to Imitation Learning
特斯拉的车队每天行驶约2000万英里(3200万公里)。【这篇文章写于2019年中,而现在的Tesla车辆总发货数量至少超出50%,因此我们可以将这个数字修改为5000万公里/每天/Tesla Fleet的这个规模。】“阴影模式”和“自动驾驶干预”是自动管理车队数据并仅上传最有用示例数据的两种工程方法。【小编:注意这两个概念的差别,“阴影模式”是指不论Autopilot系统是否启动,阴影模式都会在Tesla车辆的后台工作,并将任何人类司机操控动作和Autopilot的预测动作上报给云端,如果他们之间有明显的差异;而“自动驾驶干预”则是特指在Autopilot系统工作状态下,人类司机手动干预时的传感器场景数据和对应的驾驶员动作,将会被上报给云端。这两种差异性的数据上报方式,都会对云端的Autopilot算法产生积极影响,因为这些上报数据是模仿学习的最佳输入。】如果用于模仿学习的状态-动作对,是视觉网络的输出(状态)和驾驶员确定的汽车行驶路线(动作),那么数据也会被自动标记。【需要注意,在模仿学习当中,State-action pair是一个非常核心的概念。在模仿学习的训练当中,如果可以不断喂养合格的、有效的State-action pair,那么模仿学习所产生的网络,最终就会有收敛的可能。从这个角度看,模仿学习也可以是监督学习的一种。但是这个本质是监督学习的模仿学习,其Label好的数据是自动产生的,不需要后台人工加工标准,因此成本上更有竞争力。】因此,从数据收集到神经网络训练,机器学习管道可以一直实现自动化。自动化使特斯拉能够利用的数据量是其所有竞争对手总和的250倍,而无需使用相当多的人工。【竞争对手的250倍应该还是从里程数推算出来的,小编相信Tesla在这方面的强项,必然会随着越来越多的Tesla车辆上路而变得越来越强化。虽然说从里程数到合格的标签数据之间还会有损耗,但是基数庞大,无论如何都是一个天然的优势。】
【小编认为,如果其它竞争对手无法提供结构上更合理的自动驾驶模型,那么按照当下自动驾驶的普遍实现方法来看(不考虑不稳定的端到端End-to-End系统),应该是没有人能在数据来源上和Tesla竞争的。也就是说,和Tesla的竞争赛道是在驾驶数据的丰富度和深度上(尤其视觉数据),而不是在结构上优于Autopilot。在这种情况下,如果Tesla在迈向Level-4/5的道路上失败了,那么大家就都失败了。】
这种模仿学习方法最明显的瓶颈是需要解决计算机视觉的难题。由安德烈·卡帕蒂(AndrejKarpathy)领导的特斯拉计算机视觉团队正在积极致力于这一工作。Karpathy和他的同事正在开发一个大型多任务网络【即所谓的Multi-TasksNeural Networks】,该网络尚未部署到量产车上(据我所知)。上次我们听到的消息是,特斯拉仅使用5–10%的新计算硬件【指FSD的HW3.0硬件】。此前,Karpathy对部署无法在旧硬件上安装的、新的、更大的神经网络表示兴奋。但我们还没有看到他们。【截至目前,仍然未看到Tesla推出全新的多任务视觉识别神经网络,虽然FSD的HW3.0硬件已经开始随着新车发售接近一年了,但实质性的是软件部分,涉及到Autopilot系统重写,在Tesla内部,重写的项目叫做3D Label,目前尚未看到何时部署的计划。但是一个非常可能的推测是,3D Label化的Autopilot的系统,将会在识别准确度、即时度和可靠性上,有质的提升。】
【另一个值得指出的是,在当前的自动驾驶体系中,只要不是端到端系统,对于视觉识别的实现,都是走了机器学习/神经网络的技术路线。由于是分离架构,因此对于视觉识别系统输出的可靠性和准确性、即时性,就有非常严格的需求。这也是为什么作者把它称作是Bottleneck的原因。】
【在大规模机器学习领域鼎鼎大名的Karpathy】
完成模仿学习的研发和部署过程,有可能会在多个时间点上放慢:例如Karpathy和团队的神经网络开发工作,Tesla的人工注释者的数据标记工作,数据标记自动化软件的开发,神经网络的训练运行(这是一个在金钱和时间之间进行权衡),并最终在现场测试或者部署新的视觉网络等等。Elon Musk的时间表暗示我们将在今年年底之前在量产车中看到新的视觉网络【2019年末】,但是这个过程由于涉及过多的技术环节而变得很难预测,因此即便是Elon Musk自己也常常会跳票。【作者很实在,如果一定要说Elon Musk的缺点,那就是跳票了,太频繁了。】但最重要的一点是,还是是否可以按时部署规模更大,计算量更大的视觉网络。
一旦完成改写和部署,模仿学习就可以顺利启动。以模仿学习为基础的既可以是“本车的驾驶行为学习”,也可以是“针对他车的行为预测”。行为预测遵循与模仿学习相同的自动化机器学习流程。行为预测和行为生成属于一个硬币的两个侧面,行为预测可以预测其他驾驶员的行为,而行为生成可以预测特斯拉驾驶员的行为。
【在我们长期观察Tesla Autopilot系统演进的各种技术资料时,我们很少听到Tesla会说我们在做有关“模仿学习/Imitation Learning”的说法。包括Karpathy自己,也只谈Autopilot系统中每个环节(每个环节都有自己对应的神经网络)的性能和表现,而不会提及是否属于模仿学习或者模仿学习在Tesla的架构内是如何定义的。但是影子模式是个例外,通过这个重要的feature宣传,Tesla一直在试图安慰Tesla的消费者,潜台词是即便我们现在还处于Level-2,但是实际上你们的每一次驾驶/换道/或者对于潜在风险的规避,都是促进未来Autopilot迈向Level-5的重要数据基石。】
【模仿学习的具体理论,我们在本系列中不做过多的讨论了,但实际上模仿学习对于自动驾驶的贡献,是我们所希望表达出来的。在自动驾驶的实现道路上,具体的方法和理论的先进性,是决定因素,但也只是决定因素之一。在构造超越人类平均水平甚至更佳水准,大幅度降低事故率同时大幅度提升交通效率是我们的现实目标。从这个角度看,驾驶理论也好,因此而派生的驾驶数据获取方法、训练方法、收敛速度和性能迭代速度,也都是我们关心的目标。这绝对不是比谁的传感器更多、更复杂,算法更先进的简单问题。我们同样不希望我们的读者限于和陷于这种对比和竞争中。】
未完待续。
车右智能
一个一直用心仿真的自动驾驶技术信徒
info@co-driver.ai
备注:
1 题图来自互联网搜索https://www.wheelsjoint.com/continental-nvidia-develops-supercomputers-for-autonomous-driving-ai/;
2 文中插图1来自https://www.technologyreview.com/innovator/andrej-karpathy/;
3文中插图2来自2019年Tesla的自动驾驶开放日演讲截图;
4 本文英文原文链接:https://medium.com/@strangecosmos/a-theory-about-teslas-approach-to-imitation-learning-33b9e2c6d4d7,作者Yarrow Eady;
关联专题文章: