接上期文章。
《关于特斯拉模仿学习方法的理论》——暨使用神经网络复制驾驶员的行为。
本文发表于2019年9月17日,作者是一个长期研究Tesla及其自动驾驶算法Autopilot演进的技术专栏作者,Yarrow Eady。文末给出文章链接,对英文原文有兴趣的读者可以直接访问。
A Theory about Tesla’s Approach to Imitation Learning
【我们继续上一期的文章分析以模仿学习为基础的行为生成和行为预测两个网络中,Tesla有可能采用的方式方法。】模仿学习的神经网络的开发,不是一蹴而就的,依然会受到各种各样的限制,比如:神经网络的开发、训练和现场测试等等环节,毫无疑问会减慢模仿学习和行为预测网络的部署速度,但通常来说标记不会拉慢整体速度。【小编理解作者要表达的是,Labeling标记动作是客观存在的,不管你是否部署模仿学习为基础的行为生成或者预测网络,感知系统客观上就是需要Labeling的,合格的人工或者自动标注,以加快Perception的准确度和可靠度,在任何情况下都是必须的。】
除此之外,Tesla应该还必须编写一些非深度学习派系的人工软件代码,例如将高级行为转换为执行机构的最终命令(即刹车的力度,油门加速的开度和方向盘转向的角度)的控制软件。【小编理解,不论是端到端系统,还是非端到端系统(目前的技术主流趋势),最终的深度学习的输出在理论上还是车辆的驱动轨迹,而轨迹在深度学习网络的输出表达,是一种驾驶行为的高级定义。将这种高级的行为定义转换为车辆执行机构可以读懂的指标,确实是需要不属于深度学习范围的“明码”转化方式的。这部分人工代码也是必须的。当然,小编不认为这是一个主要的工作量,只要深度学习网络的输出是规范的、有迹可循的,那么这部分人工代码的复杂度就不高,但通用性却可以很高。】所有的这些因素,使我们很难预测何时特斯拉会进行最大程度的、真正的模仿学习。如果特斯拉最终火力全开,在全球范围内征聘深度学习研究人员和工程师,那么当模仿学习为代表的深度学习开始在Autopilot内部全面发挥作用时,我们相信特斯拉Autopilot系统的性能将仅受深度学习的基本原理限制。【作者在这里要表达的是一种对于模仿学习和其它深度学习方法在Autopilot内部的成功的机遇非常大,如果Tesla可以充分利用其手里掌握的超级数据,则性能限制将会仅仅体现在模仿学习的理论上,而非实践上。】从这个意义上讲特斯拉在模仿学习方面的工作将是对深度学习基本原理的科学检验。这将是任何学术机构或公司实验室都无法获得的经验结果。像其他实验一样,结果也无法确定。
【小编在这里贴出若干年前,Mobileye的CEO Sasha在一次演讲中所提到的端到端系统和非端到端系统,在应用和部署深度神经网络上的差异。上图的左侧是端到端系统,右侧是非端到端系统。其中最大的差异是,端到端/End-to-End系统不做功能域上的区分,即不再建立各自独立的功能/网络,去对应自动驾驶过程中不同的子任务,也就无需为每一个子功能网络构造训练和测试数据了。其次,端到端/End-to-End系统不需要对传感器输入数据做标注工作,成本上大为简化。因为端到端系统的视觉输入基本处于整体生效的需求下,输入整体内容即可直接对接驾驶行为输出。因此整体网络的训练相对简化一些,但对于有效数据量的需求,并不会太小,为了稳定的性能和输出,甚至有可能更多。】
如果2021年目前正在进行的所有工作都已完成并且模仿学习已全面展开,那么我们就可以开始从大量的驾驶现场生产的Tesla的性能是否进步得出关于深度学习(今天已经存在)的基本结论【Work or Not】。在完成这项工作之前,我们将不知道特斯拉的方法从根本上是行不通的,还是尚未经过认真的尝试。
模仿学习可能会失败,或者可能导致我们最终面临深度监督学习(我们现在所最擅长的深度学习方法)不足以解决驾驶所需的3D计算机视觉任务。也许我们需要根本上创新的神经网络架构,或者如YannLeCun【深度学习应用方法鼻祖Hinton的学生,在深度学习领域中属于旗帜性人物。】所建议的那样,我们需要过渡到自我监督学习。【在围棋领域独一无二的Alphago应该就是属于自我监督学习的神经网络。】也许端到端学习是答案,因为我们已知它在游戏Quake中,是有效的!
【小编今天和同事讨论目前自动驾驶领域的种种,必须首先要承认的是,深度学习不论是以哪一种方式出现,都已经是一个无需再讨论和争议的事实。从非常普遍的监督学习被用于Perception感知任务,到模仿学习or自我监督学习被用于端到端的驾驶网络,再到各种各样科学家在不断尝试的,希望大大降低人工参与准备数据成本的非监督学习……但似乎另一个尴尬的事实是我们看不到一个已经达标的深度网络技术,甚至哪怕具备潜力的深度学习方法。似乎不痛不痒的存在才是主流。这也许也是作者的担心,
如果Tesla的深度学习方法在未来被证明依然是效果有限,而无法提供坚固可靠的自动驾驶系统增益,那么也许我们更应该期待的就是深度学习理论上的进一步突破。】
模仿学习在自动驾驶系统中部署,可能会由于多种原因而失败。基于我们目前的理解,即便经过千百次的努力训练,也许依然有大量完全新颖的情况不断涌现【Corner cases】,所以会导致模仿学习的方式无法穷尽所有的极限情况,而导致面对新情况自动驾驶系统的手足无措。即便在已经学习/训练的场景范围内,模仿学习网络也许并不能反映出驾驶行为的全部多样性和复杂性,而是会回归到所有学到的驾驶行为的均值,并且只对他们已经接受的示范行为进行平均。【而这种平均,我们认为是并不高明的,甚至可能是一种危险的甚至错误的驾驶行为。小编这里可以给出一个实际的案例,在我们之前对于Autopilot实测反应的报告中,我们观察到在北美大陆,由于多数公路并未设计足够的路边临时泊车道,所以当路边临时停车时,往往会有部分车体的三分之一到四分之一侵入到机动车道内。在这种情况下,经典的控制理论应该是测量-选择规避空间-执行规避-测量-反馈,这样一个闭环动作。但如果使用神经网络去模仿学习驾驶员的实际驾驶行为,就有可能因为有大量有实际通行经验的司机,将会用实际的危险车距——擦边通过,来训练这种场景下的车辆轨迹选择。长期在这种方式下的Autopilot,就会一样执行“擦边而过”的驾驶行为,而忽略必须要有所收敛的车速限定和车间距限定。这是我们所担心的模仿学习的弊端之一,平均主义。】最终导致,模仿学习可能无法使其错误率低于安全驾驶可接受的阈值。
当然,也许结果会是,随着特斯拉车队的数量增长到100万辆及以上【2020年四月份已经达到100万辆】,将各种有效的训练数据放大1000倍变为现实,从而使现有的最先进技术起作用—也许还有特斯拉研究人员和工程师的一些不断创新。要知道,巧妇难为无米之炊,1/1000的训练数据不可能获得很多深度学习上的成功。利用稀缺数据解决实际问题的方法是AGI的范畴,【AGI=ArtificialGeneral Intelligence指一些综合性、灵活性要求更高的智能问题。一般情况下,我们认为当前的自动驾驶对于深度学习的利用方法,不属于AGI问题。】而深度学习解决问题的最佳方法,就是依赖和仰仗海量数据。
人为失事案例(即撞车事故)大约每500,000英里(800,000公里)发生。凭借2000万英里(3200万公里)的人工驾驶,将有大约40起撞车事件。如果拥有200亿英里,则将拥有约40,000个示例。这听起来更接近深度学习所需要的规模。如果人为事故率表明了极少数情况的发生率以及捕获驾驶的全部多样性和复杂性所需的总体规模,那么数十亿英里(而非数百万英里)是正确的规模。特斯拉目前的车队以每天2000万英里的速度以每年70到80亿英里的速度行驶。(这还未考虑将添加到车队的任何新车所带来的新的里程和时间。)【小编对于笔者在这里对于里程和时间对于深度学习算法的贡献,基本上很难达成一致。从情感上讲,虽然年车祸事故和致死事故的数字冷冰冰地摆在那里是个客观事实,但是罗列在庞大的车队下,把他们算作是深度学习中最有价值的数据贡献还是没办法从感情上接收。另外,小编也不认为每一次极端事故的数据车厂都能拿得到,这是个偶然性很大的事情,不能这么拉个公式就这么累计计算。
但从另外一个角度说,有价值的不仅仅是碰撞事故,还有车主/自动驾驶系统成功避险的数据,也会随着总里程的累加而累加。这个始终是很重要的一部分。】
如果特斯拉的方法成功,我们将不仅拥有自动驾驶汽车。我们还将知道,规模使现有技术适用于机器人。【这里的这句话代表作者的核心观点,如果Tesla真的可以证明现有的深度学习理论和在自动驾驶系统里的应用和部署,真的解决问题了,那么显然就是数据的正向推力发挥了决定性的作用,而这种数据上的优势,只有Tesla才拥有。】要使人类操作数百万小时的汽车以外的机器人可能并不容易,但是一旦技术路线被证明,也许经济就会奏效。以每小时15美元的价格计算,一亿小时的示威活动需要花费15亿美元,这比Cruise 两年来的花费还少。也许工厂,矿山,农场,建筑工地,仓库,商店和餐馆可以使用使这种研发支出非常划算的机器人。
如果特斯拉的方法失败了,那就有计划B。特斯拉正在开发一种称为Dojo的神经网络训练计算机。【小编,Dojo的存在是可以肯定的,但是Dojo的具体规模和目标/算法,都是模糊的】它的预期用途尚不清楚,但可能打算用于自我监督学习或端到端学习。【只有自我监督学习或者弱监督学习,才可以真正可以让Tesla完全挖掘巨大的数据。】这些是比特斯拉当前的计算机视觉监督学习方法更先进的方法。自我监督学习可以通过利用更多数量级的视频数据而无需人工标记,从而胜过监督学习。端到端学习将消除人为的抽象概念,例如当前位于计算机视觉和模仿学习之间的边界框。【小编,这里的边界框,是指流行的目标识别系统对于识别物体分类/细节识别之后,所给被识别物体套的矩形框。】它可以采取端到端模仿学习,端到端强化学习或两者的形式。
退回计划B可能会使特斯拉的机器人运动时间表推迟数年,并且不能保证计划B会奏效。但这意味着失败不是终点。
【全文完!】
车右智能
一个一直用心仿真的自动驾驶技术信徒
info@co-driver.ai
备注:
1 题图来自互联网搜索;
2 文中插图1来自https://www.youtube.com/watch?v=GCMXXXmxG-IMobileyeCEO Sasha的技术演讲截图;
3 本文英文原文链接:https://medium.com/@strangecosmos/a-theory-about-teslas-approach-to-imitation-learning-33b9e2c6d4d7,作者Yarrow Eady;
相关文章链接: