编者按:「新变量」是汽车之心推出的分享智能汽车一线从业者洞察的专栏。以亲历者的视角,带你预见智能汽车发展的关键变量。
本文作者:周彦武,业内资深专家,汽车之心特约作者。
自动驾驶系统前装量产的开发周期大约2 到3年,因此计算平台厂家都是提前2 到 3年提供芯片样片。
整个系统开发完成后,芯片才开始量产。
这样一来,实际上2023年后的自动驾驶芯片格局,今天就已经基本确定了。
自动驾驶芯片开发成本高昂,且出于对高性能、低功耗的要求,其制造至少需要7纳米和5纳米的制程工艺。
这个级别的工艺对出货量要求比较高:
一方面因为台积电几乎垄断7纳米以下的高性能芯片代工,产能紧缺。
订单量太低的话,芯片厂商将在台积电的序列中等待排期。
这个排期长达1年半到3年。
在这个时间内,芯片厂商肯定会失去客户。
另一方面,7纳米以下芯片的开发成本高昂,动辄10亿美元起。
如果没有足够多的出货量摊销,芯片单价会很高,反过来也会影响销售。
在现在市场的主要玩家中,特斯拉和苹果的系统封闭软硬一体化,不对外单独出售芯片。
华为提供MDC计算平台,但其芯片也不对外单独出售。
当前,能够提供高性能自动驾驶芯片,并在市场中拥有一席之地的全球独立芯片厂商主要还有:Mobileye、英伟达、瑞萨、高通。
其对应的芯片产品如下:

因为这些芯片涉及到多个版本,这里对比的都是顶配产品。
Mobileye EyeQ6
拥抱英特尔,追逐高性能
2019 年底,Mobileye EyeQ芯片全球累计出货超过5400万片。
2020 年9月,Mobileye透露,EyeQ芯片全球出货量超过6000万片。
这6000万片是EyeQ2、EyeQ3 和 EyeQ4 之和,其中 2020 年新增的部分主要是EyeQ4。
目前EyeQ5还未批量出货。

EyeQ5提供的算力水平是最高24 TOPS,跟其他几家相比,这个算力水平要逊色不少。
EyeQ6才是Mobileye真正发力高性能的高端。
EyeQ6预计于2024/2025年量产,分为高中低三个版本。
Mobileye在2016年开始设计EyeQ5,选定了MIPS的I6500做架构。
MIPS在I6500架构之上,推出了特别针对车规的I6500-F,而后续的I7200是针对无线市场的。
因此,Mobileye 在之后的一代芯片上,放弃了MIPS架构,而决定采用英特尔的Atom内核[1]。
Atom是英特尔处理器系列的常青树,典型车载平台是Apollo Lake。
2016年6月,英特尔从Apolllo Lake切换到Goldmont架构,并先后在特斯拉、宝马、卡迪拉克、红旗、现代、沃尔沃、奇瑞的车机上大量使用。
其中宝马采用的最多,几乎全系列都是。
特斯拉Model 3也是用的Apolllo Lake。
最新的Atom系列,是2020年9月推出的Elkhart Lake系列即x6000E,使用Tremont架构。

相比上代架构,Tremont架构主要增加了L2 cache,工艺从14纳米提升到10纳米,运行频率略微提高约200MHz,最高睿频可达3.0GHz。
和上一代一样,Tremont架构最多也是4核。
整体上,Mobileye的芯片更新速度较慢。
加上最近英特尔的CPU核心业务受到来自苹果、微软和AMD的打击,公司市值下滑明显。
EyeQ6要到2024年才量产,在各家的竞争中也显得有些落后了。
瑞萨 R-CAR V3U
强势日系厂商,灵活高性价比
瑞萨是全球第二大汽车半导体厂家,全球第一大汽车MCU厂家,也是日本除索尼(索尼的主营业务主要是图像传感器)外最大的半导体厂家。
在高性能车载计算方面,瑞萨目前最顶级的产品是R-CAR H3,主要用在座舱领域。
最初R-CAR H3也考虑了自动驾驶应用,但R-CAR H3设计时间是2013年。
很难预料到今天客户对AI算力和CPU算力的需求这么强。
R-CAR H3没有内置AI加速器,CPU算力也只有40K,显然达不到自动驾驶系统开发的要求。
目前主要被用在座舱量产中,比如2021款长城H6。还有R-CAR M3被用于大众中国车型的座舱上。
瑞萨在2017年开始加强高算力芯片的设计。
2019年推出第一个视觉SoC,即R-CAR V3H。
这颗芯片的 AI算力有4 TOPS,博世的下一代视觉系统内嵌V3H,也包括一些日系的全自动泊车系统。
2018年,瑞萨开始设计V3H的加强版V3U,到2020 年基本完成设计。
目前外部已经可以申请V3U的样片,这个速度比其他三家都要快一些。
V3U的量产预计在2023年初,丰田和本田也参与了这款芯片的设计工作。
日本车企和供应商之间的抱团非常紧密,我认为丰田和本田自动驾驶系统大概率会采用V3U。

V3U内部框架如上图:采用8核A76设计。
瑞萨没有像特斯拉一样,堆了12个A72,而是使用了ARM的Corelink CCI-500,即Cache一致性互联。

V3U的视频处理管线如上图,可以看到V3U有很多硬核的计算机视觉模块,包括立体双目视差,稠密光流、CNN、DOF、STV、ACF等。
在计算机视觉功能方面,支持包括图像格式化、目标追踪、车道检测、自由空间深度、场景标注、语义分割、检测分类等模块。
为了节约成本,降低功耗,同时也聚焦于车载应用需求,瑞萨没有使用太昂贵的GPU,只是增加了一个低功耗GPU,即:
Imagination Technologies的PowerVR GE7400,1个着色器集群+ 32个ALU核心,算力只有38.4 GFLOPS@600MHz。

考虑到成本因素,瑞萨没有使用时髦的7纳米,而是12纳米工艺,并且是从原瑞萨R-CAR H3的16纳米FinFET工艺升级到12纳米FFC工艺,一次性支出很少。
但是论到AI性能,丝毫不次于那些5纳米芯片,瑞萨声称V3U达到了惊人的13.8 TOPS/W的能效比,是顶配EyeQ6的6倍之多[2]。
V3U也是一个系列产品,针对不同层级自动驾驶的需求可以提供多个版本,这样做是为了进一步提高出货量,降低成本。
V3U的产品系列采用的是模块化设计,A76可以是2、4、8核。
GPU也可以不要,外设也可以轻松增减,灵活性很强。
在Mobileye、瑞萨、英伟达、高通四大自动驾驶芯片厂家中,只有瑞萨的主业是汽车半导体,因此对车规安全重视程度最高,V3U的规划目标是ASIL-D。
英伟达Orin:极致性能,新造车青睐
英伟达于2019年底发布了Orin芯片:
预计在2022年或2023年量产,2021年初有样片提供。
关于Orin的公开资料一直还停留在2019年底发布时。
据说围绕Orin的软件工作异常复杂,硬件已经完全就绪,可能要到2023年底才能量产。
Orin性能一流,但价格可能非常昂贵。
L4级自动驾驶,自然也是非常昂贵的。主芯片上降低几百美元,对上万美元的系统来说也是杯水车薪。
大部分厂家在L4的投入上,都是为了树立旗帜,制造高科技形象。
大规模量产难度很高,配套的V2X、高精度地图和高精度定位都很不成熟,法规也需要修改。
因此,开发初期厂商对成本不敏感。换句话说,车厂没指望在主芯片上降低成本。

与R-CAR V3U一样,英伟达Orin也是一个系列产品。
后者的低端产品可能只有2 到 4个A78内核,20 到 40 TOPS的AI算力,可能没有Ampere GPU或少数核心。
高通 Snapdragon Ride
进击的移动芯片霸主

关于高通 Snapdragon Ride的公开信息很少。
高通的核心业务还是在移动端,因此高通的策略是最大程度地利用手机领域的研发成果。

按照这个策略,高通最新的Snapdragon 888(即SM 8350)芯片会最接近Snapdragon Ride SoC。
高通的Ride平台和英伟达类似,也是基于SoC+AI加速器的分离方式。
高通声称888 芯片会采用三星5纳米5LPE工艺制造,并且是两年半前就决定的。
但目前三星的5纳米还没有一个厂家使用,而台积电的5纳米已经经过苹果A14验证过。
论关键指标晶体管密度,三星的8纳米与台积电的12纳米差不多。
三星的5纳米跟台积电的10纳米差不多,明显低于台积电的加强版7纳米。
但台积电5纳米产能被苹果包了,高通只能找三星。
在888芯片上:
Arm的Cortex-A78和Cortex-X1都是基于上一代Cortex-A77。
但这两款Arm处理器的设计目标不同:
Cortex-A78侧重于提供更高的每瓦性能,同时体积更小,而Cortex-X1则是追求最大性能。
Cortex-X1是Arm「CXC项目」的第一款商用产品。
性能方面,Cortex-X1 将比Cortex-A77提高30%。
与Cortex-A78相比,Cortex-X1的整数运算性能提升了23%。
Cortex-X1还拥有两倍于Cortex-A78的机器学习能力。
Cortex-X1就相当于「超大核」,它在架构设计上与Cortex-A78如出一辙,但几乎在每个地方都进行了扩展。
ARM 对Cortex-X1的定义是「可定制」移动平台,芯片商可以根据预算和需求向ARM提出要求。
然后ARM再根据不同的应用场景,调整Cortex-X1各个模块的规格设计。
即便S888非常强大,但因为三星的5纳米工艺,晶体管密度远不如台积电5纳米,也不如台积电7纳米。
因此,S888的单核性能仍然落后苹果上一代的A13,跟台积电5纳米的A14比差距更是非常明显,A14比S888单核跑分高41%。
GPU方面更能凸显三星工艺的落后。
根据GFXBench Aztec测试:
-
A14峰值达到每秒102.24帧
-
A13达到91.62帧
-
S888只有86.00帧
-
华为的麒麟9000是82.74帧。
AI性能方面,S888得分很高,用UL Procyon测试AI推理为32228。
华为的麒麟9000是12596,S888几乎是麒麟的三倍。
S888理论值26 TOPS,也比苹果A14的21 TOPS高。
Ride平台应用于自动驾驶领域,因此高通可以砍掉S888上的X60 5G Modem,留出更多地方放NPU,AI算力估计可以达到30-40 TOPS。
考虑到成本和车规,高通不会增加太多AI算力,因为高通还留了加速器,也就是类似英伟达A100。
华为MDC
国货之光,封锁之下何去何从
华为的自动驾驶计算平台由车BU下的MDC产品部负责。
MDC上采用的AI协处理器是昇腾系列芯片,而CPU来自华为的泰山服务器事业部,即鲲鹏系列芯片。

MDC全称是Mobile Data Center,移动数据中心。
MDC的成员部分来自华为的中央硬件部,后者以开发ARM服务器为主要业务,之后转到自动驾驶领域。
MDC的芯片部分仍由海思提供。
MDC目前主打两款产品:
-
一款是用在L2+上的MDC 210
-
另一款MDC 610,主要用在L4上
MDC 210的CPU部分未知,AI处理器是昇腾310。
MDC 610的CPU很可能是鲲鹏 916,AI处理器是昇腾610。

鲲鹏916,在海思内部代号是Hi1616,是2017年的产品。
其采用32核ARM A72并联设计,最低功耗75瓦,标准TDP功耗85瓦,对标英特尔至强系列服务器CPU。

华为鲲鹏916参数与内部框架图如上:
采用了16纳米工艺,也就是说中芯国际能够代工。

鲲鹏系列更高级的产品是920,海思内部代号Hi1620,采用了16 - 96核设计,华为自研的架构,ARM v8.2指令集,7纳米工艺。
鲲鹏 930计划采用5纳米工艺。
上面说到,华为MDC的AI处理器主要是昇腾 310和610。

按照华为的路线图,官方原计划在2020年推出昇腾320、610和920,但一直到目前都没有消息。
昇腾310是采用台积电12纳米FFC工艺制造,于2018年推出,因此性能一般,只有16TOPS算力。
从华为的官方介绍看,昇腾 920和610都是定位于服务器深度学习训练用的,不是用于车载应用。
这两款处理器有明显的Cowos多存储芯片封装设计,这种封装成本也很高,不适用于成本敏感的领域。

整体回顾:五大厂商中,瑞萨主打超高性价比,并且设计之初就有整车厂支持。
在日系车企中,除了国际化程度比较高的日产,其他厂商毫无疑问都会倾向于瑞萨的V3U。
瑞萨在车规安全方面积累较多,这也是德系厂商非常关心的。
因此出身车载半导体领域的瑞萨比较受日系和德系厂商青睐。
Mobileye有超过6000万片出货,有庞大用户基础,美系、韩系还有国内自主品牌都倾向于Mobileye,但目前EyeQ系列产品推出速度太慢。
这也是理想、蔚来等多家新晋厂商放弃EyeQ平台的原因。
英伟达性能一流,至于价格,用黄教主的话说,「买得越多,省得越多」。
新兴造车企业追求高性能,蔚来、理想、小鹏几家手上也有几百亿元的现金储备,英伟达在其中颇受青睐。
高通Snapdragon Ride平台与瑞萨类似,主打性价比,并且高通的原厂支持力度比较大。
目前,长城以及一家众所周知的造车新势力头部公司已经选择了Ride平台。
华为最大的掣肘因素在于芯片的产能。
目前中芯国际的 14 纳米工艺不算成熟,从财务数据看,中芯 14 纳米业务仅占其收入的 1%。
眼下中芯国际也被美国制裁,工艺和产能提升都十分困难。
即便解除封锁,华为也不会对外单独销售芯片。
无论车企选择使用哪个平台,都需要芯片原厂提供充足的支持。
在这方面,瑞萨高阶的原厂工程师都在日本,支持力度较差。
英伟达人力资源有限,据说其支持力度也不太友好。
高通在经历移动端的多年磨砺,非常适应于为几十个厂家做支持。
结合Mobileye的推新节奏,我认为,最终高通和瑞萨有希望胜出。
参考信息:
[1]https://www.eenewsautomotive.com/news/we-need-standardized-criteria-autonomous-driving/page/0/4。
[2]https://eetimes.jp/ee/articles/2012/21/news067.html,CNN-IPも自社で開発したものだ。理論上の最高性能は60TOPSで、1W当たりの性能は最高で13.8TOPS。
「新变量」往期文章:


新势力能否扛起自动驾驶本土化大旗

黑芝麻FAD:要做高性能自动驾驶平台国产替代者
爆款车型背后的中国芯