“寻根溯源。”
在通往L4/L5的征途中,对特斯拉(视觉为主)与Waymo(LiDAR first)两种路线的讨论已经很多了。最近两者都取得了令人惊喜的进步,特斯拉的Autopilot更新到了强大的V9;而Waymo在亚利桑那的落地也还算顺利(已开始收费模式了),也在加州率先拿到了无安全员测试的许可。
但人们基本都一致认为两者似乎都离完全自动驾驶还有一段距离……
V9的Navigate on Autopilot功能
Waymo车队在Arizona
两种路线孰好孰坏只能留给时间来验证,但他们的历史成因与两种路线的底层逻辑或许该成为我们看待这个问题的一个重要参考(以下难免会有一些主观看法,如果有让读者感到不舒服的部分请自行过滤下哈)。
底层逻辑
NN(神经网络)是设计计算机程序的一种方式。在传统的编程方法中,开发人员编写一系列指令来告诉计算机该做什么。而ML(机器学习),特别是使用NN进行ML,不是去告诉计算机如何做某事,你只需要喂给它大量数据并设计一个可以学习指令的系统。
举个?。拿出一张喵星人或汪星人的照片,照片可以是任何分辨率,可以是黑白或彩色,可以在远近或任何角度;喵和汪可以是任何年龄段、任何品种、任何毛色;它们可以是跑跳坐卧任何姿势……
喵~~
汪~汪~
所以,你会发现如果采用传统的编程方式,必须使用“if,then,else,end”逻辑语句,识别他们几乎是不可能完成的任务。或着你雇佣了庞大的编程队伍,经过多年努力开发,最后还没一个小孩儿认得准。原因很简单,因为小孩儿认东西是通过视觉实例,而传统编程的规则更像是小孩儿学写字的过程。
我们从小学习语言和学写字的方法非常不同。我们更像是用NN学习语言(以及如何识别喵和汪),学习写字则像是传统的计算机程序,你必须要记住所有拼写规则和语法等。
一切从2012年开始……
每年都会有许多大型开发团队去参加ImageNet挑战赛。在2012年的比赛中发生了一件震惊业界的事,也“改变了一切”。那年有三名研究生用他们经过半年开发的基于NN的模型获得了胜利。
NN(想想上面喵和汪的例子)在图像识别方面一直优于传统的编程,但问题是如果你需要100年的算力来训练模型也没啥用。这些学生的创新是,他们使用了高端游戏卡的图形处理器(GPU)来训练他们的模型,而不是通用的CPU。当然,通用CPU非常擅长运行各种workload,可向后兼容30年前的旧软件。但这次GPU的惊艳表现让他看起来似乎无所不能,非常擅长计算和其他一些事。当然,这也带来了一个副作用,Nvidia开挂了。
这一突破也让整个行业在许多棘手问题上看到了希望,包括谷歌翻译和语音识别等。从此AI迎来了它的高光时刻 ……
特斯拉向左
那么,为什么只有特斯拉沿这条路走了下去呢?原因可能如下:
那时特斯拉还是一家小型创业公司,资金不是很充裕,采用廉价的传感器也是自然选择。业内其他主要玩家都拥有雄厚的资金,可以负担得起昂贵的LiDAR。
特斯拉在2012年之后开始(或重启)了它的努力,意识到了那次比赛的突破将带来巨大改变。
最重要的是,Elon Musk意识到,开发一台像人类一样驾驶的车比尝试改变客观世界更快更便宜。你或许看过很多文章都在说,直到我们有了新的道路基础设施、全方位覆盖和实时更新的高精地图、5G网络或廉价的LiDAR…… 否则完全自动驾驶不会实现。但特斯拉已确定如果我们能解决图像识别问题,车辆就可以像人类一样驾驶而无需绝望地等待那些条件都具备。
在上一小节中我们已对NN有了一点了解,目前特斯拉又在开发强大的硬件来运行它们。我们再来回顾下Jimmy_d(TMC里的ML专家,拥有34年软件开发经验)在这次更新的V9中所发现的信息(可参考:):
V9采用了一个具有一组权重的NN来处理所有8个摄像头,这可能更难训练,因为每个摄像头所看到的画面角度都不同。但Jimmy_d希望这种更通用的抽象意味着NN以这种方式被训练时会对所有视图中的物体外观有更深刻的理解。
另一个改进是所有摄像头都有3个颜色通道和2个帧。他推测这两个帧来自不同的时点,可用于检测物体运动,这有助于分辨背景中的内容和图片的前景。记录物体的相对速度有助于识别目标检测物是汽车、自行车还是行人。
V9眼中的世界
V9所处理的庞大数据量可能已是V2和V2.5硬件的极限了,难怪特斯拉迫不及待地要自研新的超强算力芯片(计划明年春天推出)。
Waymo向右
Waymo选择LiDAR路线也有其历史原因,那些年正是LiDAR这个神器在DARPA的比赛中出尽了风头,也捧红了Velodyne这家小公司。一晃十年过去了,本质上我们似乎仍和那时的人们在同一时间尺度上憧憬着完全自动驾驶的到来。
Sebastian Thrun和团队的参赛车辆
在城市工况中遵守交规是某种最基本的、新手上路级别的驾驶水平,真正难的是像老司机一样驾驶,要不你在路上就是给别人添堵。即便你没有故意制造任何事故,也会被动造成很多麻烦,因为你开车的方式很让人来气(刚拿本儿的举下手,是否有高速路口没下来的经历?后边司机是否嘀过你?甚至对你爆粗口?)。我想大家都看到过不少亚利桑那和加州群众对Waymo和Cruise的自动驾驶汽车吐槽的新闻,而这会在很大程度上影响到民众与政府对这项技术的接受程度。但考虑到Waymo背靠母公司的雄厚财力,他的系统或许在某种程度上有成功的机会。然而真正使其受限的是他严重依赖的以下三个因素:
车辆只能在高精地图覆盖到的区域内行驶。
多线束LiDAR成本一直居高不下,还没有成熟的车规级产品(Waymo自研的LiDAR具体如何还不清楚)。
系统需要大量的手写软件,才能“在某种程度上”让行驶状态看起来正常些。
不过Waymo确实很努力,他们靠着Carcraft(仿真软件)、Castle(模拟测试场)和实际路测三位一体的方法,不断地完善着自己的代码。这种大手笔业内无人能及,谁都玩不起。
Carcraft
Castle
Waymo的资金实力确保了前两条,庞大的开发团队保证了第三条,Waymo是LiDAR这条路线上的佼佼者。目前Waymo是以“地推”模式来落地的,Geo-fence仍是一个极大的壁垒,是否能将现有模式迅速拓展仍是个问号。
另外,在对建筑区和道路结构的适应问题上,高精地图的更新可以及时应对环境的变化吗?相比之下摄像头对实时环境的应对要灵活得多。这里面有个规律就是,计算的历史正在用增加的算力来取代专用设备,想想你的智能手机能帮你做多少件事,从前都是要借助许多工具的。
总结
可以肯定的是,特斯拉会继续升级自己的NN和硬件,Waymo或许会继续攻克更多的城池。更重要的是,他们都要进入中国了……
两者要做的功课还很多。特斯拉会卖出更多的平价车型,用更多奔跑的车辆来让自己的NN变得更像一个老司机,只是这位老司机仍旧神秘莫测,就像人性不可捉摸,人们能够完全信任他吗?Waymo的系统也会越来越完善,可是他最终可以像老司机那样平顺地驾驶吗?这套测试方法可以经济又便捷地复制到更多地方吗?
from A to B
原文始发于微信公众号( Astroys ):