汽车行业的许多人谈论全自动驾驶汽车即将问世的时间点,到今天为止,都被无情的推倒。
2013年,还是雷诺-日产联盟董事长的卡洛斯•戈恩曾表示,自动驾驶将在7年内实现。2016年,特斯拉CEO埃隆•马斯克曾暗示,他的汽车基本上已经可以做到了。Waymo是迄今为止代表自动驾驶技术进展的公司,与一两年前相比,措辞也变得更加谨慎。
这一切都让位于美国加州的丰田研究院(Toyota Research Institute)首席执行官普拉特(Gill Pratt)看起来颇有先见之明。2015年,作为资深机器人专家,普拉特加入丰田并主导自动驾驶研发。
然而,从一开始,普拉特就强调这是一件多么困难的任务。随后,丰田发布了一款名为司机助手(Guardian)的系统,基于一系列主动安全功能来辅助司机,在最糟糕的情况下,帮助司机避免自己犯下的错误。此外,在一个受限的运营环境中,还会涉及到对汽车行驶距离和速度的限制。
本周早些时候,在TRI位于加州的办公室里,普拉特向外界展示了最新版的P4自动驾驶测试车,基于雷克萨斯改装,搭载两个Luminar的激光雷达(丰田参与了投资)以及用于周边监测的Velodyne激光雷达,一套立体摄像头,一个单反相机(识别交通标志)和一套毫米波雷达。
显然,从硬件配置来看,这套系统与其他公司并没有什么太多的差异。
一、自动驾驶的“非理性繁荣”
关于自动驾驶技术的承诺和陷阱,普拉特表示,“没有任何事情告诉我们不能这样做,也并不意味着我们做不到。”
尽管如此,他指出早期的成功(大量使用深度神经网络处理大量数据)使研究人员变得乐观。
在描述这种乐观主义时,他并不反对“非理性繁荣”这一说法。
“非理性繁荣来自于深度学习给我们带来的看似不可思议的性能提升,”普拉特表示,“每个人都很惊讶,如果你投入足够的数据和足够的算力,性能会变得更好。”
但很快,人们慢慢意识到,人工智能不仅要感知世界——即使是现在,也不是一个微不足道的问题——而且还要做出预测,尤其是关于人类行为的预测。这个问题很重要,现在来看这几乎是难以解决的瓶颈。
当然,很多创业者提出,总是可以使用深度学习来做它最擅长的事情,然后使用专家系统来处理其余的事情。这样的系统使用由实际专家输入的逻辑规则来处理任何出现的问题,比如Mobileye提出的RSS(责任敏感安全)决策模型。这种方法也使工程师能够不断调整系统参数——这是深度学习的“黑盒子”所不允许的。
把深度学习和专家系统放在一起确实有帮助,普拉特说,“但还远远不够。”
丰田汽车负责自动驾驶技术的副总裁沃尔夫拉姆•伯加德(Wolfram Burgard)表示,无论人工智能研究人员有什么新工具可用,日常改进都将继续进行。
“我们现在处在深度学习的时代,”他说,“我们不知道之后会发生什么——它可能是一种旧技术的重生,它的性能突然超过了我们之前看到的。我们仍然处在一个用现有技术取得进展的阶段,但是这个梯度已经不像几年前那么陡峭了。越往后面,你会发现越来越难。”
如果,自动驾驶汽车要大规模上路,显然必须要回答一个关键性的问题:在接下来的5秒,周围的汽车、行人和骑自行车的人会做什么?这个问题被称为行为预测。近年来,不少参与自动驾驶研发的工程师都相信,行为预测的重要性。
“没有人能达到这种功能水平的原因是,今天的软件还不足以预测未来。它离人类司机的本能还差得远,而人类司机的本能是道路安全中最重要的因素。”在一些工程师看来,自动驾驶的“预测缺陷”是限制它们实现L4及更高级别自动驾驶的关键。
在长城汽车自动驾驶负责人甄龙豹看来,“预测部分,如果在测试路况里边还基于传统的规则性的做法来做整个的车辆的路径规划,或者车辆采取什么动作的话,有可能面临车辆能被逼停的情况。”
对于Corner Case,要在后续不断地测试、优化,用算法来覆盖或者涵盖。通过学习车的运动路径,其他交通参与物的运动形式,来不断地弥补这些错误,或者不断地更新所不能处理的工况。
比如,经常遇到的工况是,人在过一个红绿灯的时候,当你发现旁边人走了,有的人也会跟着走两步然后停下来,有的人会跟着一直走下去。人与人之间的相互行为交叉,是有一定的影响的,人与人之间是有相互的一个干扰性在里边的。
这些问题某种意义上就是软件故障。换句话说,现在的关键问题不是更好的激光雷达,问题是预测能力。换句话说,激光雷达是感知的必需品(如果要考虑到感知的Corner Cace),但预测是体现各家系统的差异化。
二、感知预测,将是核心竞争力
克里斯·厄姆森(Chris Urmson),2013年至2016年期间曾领导Waymo自动驾驶的研发,现在是自动驾驶汽车初创公司Aurora的联合创始人之一。“如果我可以挥舞一根魔棒,加速系统的某种能力提升,这就是感知预测能力。”
一些公司正试图用深度学习来解决行为预测问题。神经网络通过更多的数据来实现更高的准确性,某种意义上收集的数据越多,其车辆在行为预测方面的表现就越好。这方面,过去大部分企业采用外包或自建团队来手动给图像或视频贴上标签, 这变成了一个劳动密集型工作,因此成本高昂。
一些公司在早期甚至每年需要花费数百万元来外包解决问题,但后来一些公司开始使用自监督学习进行对象检测。比如,特斯拉的影子模式,通过行为预测,输入的数据可能是另一辆车在过去五秒内的行为。输出数据是关于本车将做什么的预测。
“如果行为预测真的是自动驾驶中最困难、最重要的问题,而且特斯拉在行为预测方面确实比Waymo和Cruise有重大优势,那么特斯拉的股价可能会在长期内上涨20倍以上。”一位行业人士表示,此前包括大众、丰田等传统汽车制造商也已经开始尝试类似的模式。
这一点,可以从特斯拉最新发布的FSD芯片看到了一些端倪。
埃隆·马斯克曾表示,目前的神经网络和其他与自动驾驶相关的软件只使用了定制设计的全自动驾驶芯片5-10%的计算能力,剩余算力则分配给更多的计算密集型神经网络,比如行为预测。
特斯拉的FSD芯片将支持更大的神经网络,已经毋庸置疑。马斯克此前也曾在推特上表示,装有FSD芯片的汽车功能将开始与上一代汽车有所不同。
按照此前披露的一些信息,特斯拉全新一代神经网络不仅会更大,而且在架构上也会有所改进,比如在人工神经元的类型及其相互连接方面。
有行业人士表示,特斯拉未来的估值很大一部分将取决于这些多少现在看起来还有些模糊的技术问题。此外,未来自动辅助驾驶或者自动驾驶的竞争,也将从简单的功能实现,转向功能体验。
在格物科技创始人杜光辉看来,现有的ADAS量产系统需要基于当地的道路场景和驾驶员行为、驾驶习惯,需要重新做一些开发。
苏州格物科技是目前国内为数不多从事驾驶员行为模型开发用于ADAS及自动驾驶的初创公司,通过预测驾驶员的行驶意图,再结合有效的应对措施做到安全、有效的通行。
比如,在系统专家行为的模型基础上,根据不同的行车习惯和方式开发定制化的驾驶员行车模型,这些模型组可以精准表达真实道路上各种车辆行为,并集成在仿真平台里面。
更安全、更高效的驾驶行为的新规则可能是根据现有车辆的数据制定的,这些数据不仅基于道路法规,还基于人类在特定环境下驾驶车辆的方式。
此外,改善行为预测同样可以改善现有的模拟仿真。用于模拟的输入数据此前局限于计算机视觉网络生成的内容,而行为预测可以作为额外的输入数据。比如,Waymo的仿真网络ChauffeurNet就是这样的原理。
事实上,学习环境状态和驾驶员行为之间是有密切的关联,人类开车不仅基于我们所看到的,还基于我们预测路上其他人会做什么的能力。理论上,所有这些预测信息都隐藏在计算机视觉网络所看到的东西中,但目前,机器学习工程师更多倾向于将问题分解成视觉、预测和模仿等离散部分。
因此,如果预测被用作模拟仿真的输入,预测能力的提高同样可以转化为模拟仿真能力的提高。反过来,预测和模拟也会因为视觉的改善而得到改善,而视觉是两者的主要输入。而这一点,也恰恰是目前模拟仿真平台工具最大的缺陷。
然而,总有一天,我们都能坐上一辆车,去我们想去的地方,而不需要我们做任何事。我们不需要去碰方向盘,不需要去踩刹车,也不需要以任何方式去控制。
不管是否下雨,交通是否拥挤,路上有什么障碍物,或者车在世界上任何地方。但不是今天,不是明天,也可能不是未来几年。
正如普拉特所言,如果你限制得足够严格,我们现在就可以做到。我们今天就可以部署它。“所以真正的问题是,你在多大程度上限制它,以及它是否提供了真正的商业价值。”