12 月 8 日,百度在 2020 Apollo 生态大会上对外公布了「纯视觉 L4 城市自动驾驶闭环解决方案 Apollo Lite」。
这是一个基于 10 路摄像头构建 360° 视觉感知的自动驾驶方案,在激光雷达逐步改善成本桎梏,即将量产装车的背景下,这样的路线耐人寻味。
在 Apollo Lite 之外,业内比较知名的纯视觉感知方案还有北美代表特斯拉的 FSD 和以色列代表 Mobileye 的 SuperVision。
如何看待纯视觉路线与涵盖摄像头、毫米波雷达、激光雷达在内的多传感器融合路线呢?
特斯拉、Mobileye 和百度
先从最先量产的特斯拉说起。
2016 年 10 月 19 日,特斯拉宣布 Autopilot 2.0 硬件(Hardware 2.0)已标配在全系车型实现量产。

Autopilot HW 2.0 搭载了 8 颗摄像头,包括前置三目摄像头(分别是长距窄视角、中距中视角和短距鱼眼)、车辆的左右两侧各有 2 颗面向侧前和侧后的摄像头,再加上 1 颗后置摄像头,8 颗摄像头完成了 360° 纯视觉感知的无死角覆盖。
以 2021 年量产 360° 纯视觉感知方案的第二个品牌领克做对比,特斯拉这一方案领先了行业 5 年。
如今回过头看,为了达成这 5 年的领先,特斯拉多做了不少探索性的工作。比如,拓行业之先,探索了前置三目摄像头方案的量产。

更有说服力的一点是:以 2016 年前后智能驾驶芯片行业的成熟度,特斯拉根本找不到性能足够高的芯片来支撑这 8 颗摄像头带来的高算力需求。
为了解决这个问题,特斯拉做了两件事。首先,Autopilot HW 2.0 的芯片平台改为可插拔设计,便于后期高性能芯片的更换迭代;其次,正式组建芯片团队,启动了 FSD 芯片的研发。

有了 2016 年的提前布局,才会有 2019 年 4 月起特斯拉 FSD 芯片的全面量产装车。在 FSD 高算力芯片的支撑下,我们在 2020 年 Q4 见到了北美 FSD 自动驾驶 Beta 版的推送。
而对于 Mobileye 来说,前瞻技术的量产与否不完全取决于自身技术的成熟度,车企客户的需求是更重要的影响因素。
Mobileye 的 360° 纯视觉方案首次推到台前是在 2020 年 9 月 24 日。领克汽车在北京车展前夕发布了旗下首款纯电动车型 Zero concent,搭载了来自 Mobileye 的 SuperVision 系统。

SuperVision 系统是 Mobileye 打造的综合性能最强的智能驾驶系统,没有之一。

传感器方面,SuperVision 与特斯拉 Autopilot HW 2.0 唯一的区别在于特斯拉的前置三目方案在这里变成了前置双摄像头(非传统的「双目」摄像头原理),分别扮演窄视野远距离和宽视野短距离的角色,简单来说,去掉一颗摄像头,也能实现既看得宽,又看得远的需求。
所以,Mobileye 算是以 7 颗摄像头完成了 360° 的覆盖。
除此之外,Mobileye 在左右后视镜和正前正后配备了 4 颗环视摄像头,用于 360 影像和自动泊车的感知。

这 11 颗摄像头由两块 Mobileye EyeQ5H 芯片驱动。EyeQ5 芯片基于台积电的 7nm FinFET 工艺打造,单芯片算力达到了 24 Tops,接近 EyeQ4 的十倍。
SuperVision 可以支持高速及城市快速路工况下融合导航的自动变道、驶入驶出匝道和城市道路下的脱手驾驶。
除此之外,SuperVision 还支持预防性自动转向和制动,以避免潜在的高风险场景。
最后我们来看百度今天纯视觉感知方案 Apollo Lite。
很遗憾,百度今天只提及 Apollo Lite 会搭载 10 颗摄像头,但对具体的架构布置没做更多介绍。
不过,早在 2019 年 6 月16 日的全球计算机视觉及模式识别学术会议(CVPR 2019)上,百度就已经对外发布了 Apollo Lite。

从当时 PPT 上的 wide、narrow、fisheye-right 等字眼去看,我们可以得出 Apollo Lite 的视觉感知架构。
在前置三目和后置摄像头上,Apollo Lite 与特斯拉 Autopilot 没有区别,但在侧面感知上,Apollo Lite 在特斯拉左右各 2 颗侧面感知摄像头的基础上增加了 2 颗环视摄像头做感知补充。
这是一种比较少见的感知架构设计——在绝大多数时候,位于后视镜下方的环视摄像头只用于 360 影像和自动泊车的感知工作,但 Apollo Lite 这里由于只有 2 颗环视摄像头,意味着其有且仅有一个作用,就是用作高速自动驾驶的侧向感知补充。

在算力层面,百度宣称 Apollo Lite 所需算力不到 30 Tops,一个单卡 GPU 即可驱动。
总结来看,目前三家的纯视觉感知架构并不完全一致,而感知架构的差异直接导致了决策环节所需的算力也各不相同。这在某种程度上是纯视觉路线尚处于早期的一个佐证。

但有一点是肯定的:纯视觉作为自动驾驶多个技术路线之一,在当下的商业可行性正在被广泛接受。
为什么是「纯视觉」?
百度一路以来一直坚持以激光雷达为主的多传感器融合路线,为什么又推出了纯视觉方案 Apollo Lite ?
11 月 20 日,视觉感知领域的领头羊 Mobileye 与美国激光雷达创业公司 Luminar 签订协议,由 Luminar 为 Mobileye 的自动驾驶车队提供激光雷达。

之所以插入这条旧闻,是因为上述两个问题,可以放在一块儿回答。
有了 Apollo Lite,百度也并未放弃多传感器融合的感知路线;与 Luminar 的合作,并不意味着 Mobileye 的纯视觉方案 SuperVision 失利。
为什么要基于多传感器(涵盖摄像头)融合路线和纯视觉两种技术路线做研发?
我们来看看百度是怎么说的。
在小白的认知里,纯视觉感知=单一传感器=高风险性,而多传感器融合=互补冗余=高安全性。
但在 CVPR 2019 上,百度少见的谈起了传统多传感器融合带来的挑战:
许多传感器融合的方案设计较为复杂,技术人员往往从快速解决问题的角度出发设计算法,这个过程中难免避重就轻地利用异构数据各自的优势去缺陷互补从而绕过困难的问题。
基于这种思路设计的多传感器融合方案虽然能够在短期规避单传感器方案难以解决的问题,长远看,数据和策略间深度耦合的设计不利于为环境感知系统提供真正意义上的冗余。
百度 Apollo 技术委员会主席王亮表示,在激光雷达为主,视觉为辅的传统策略中,视觉感知自身的问题和缺陷在雷达感知的掩盖下暴露不够充分。因此,视觉感知问题需要独立出来才能更好的解决。
与此同时,王亮也表达了对摄像头的看法:摄像头的图像信息密度大、蕴含的环境信息最为丰富。但对人才、算法、数据、规模化机器学习的能力提出了很高的要求,需要强大的算法、大量数据的积累和长期的研发投入。
这与小鹏汽车副总裁吴新宙在接受「新车一讲」采访时的观点几乎完全一致:视觉的潜力是没有止境的,它真的是一个宝藏,长期来看,视觉是无所不能的,但是这个能力的增长是有一个过程的,也是有代价的。
一句话来总结:由于多传感器融合无法充分暴露视觉感知的问题,纯视觉路线成了那个尽管无比困难但正确的选择。
你可以像 Waymo、Cruise、小马智行、文远知行那样基于以激光雷达为主的多传感器融合路线研发,也可以像特斯拉、Mobileye、百度那样,基于纯视觉路线研发,但每一个自动驾驶企业都绕不开解决视觉感知问题。
所以,纯视觉不是「复兴」,是通往完全自动驾驶道路上的关键一步。


