文丨之一 来自于AI智能体,enjoy!
英伟达在自动驾驶领域再放大招。
刚刚,在加利福尼亚州圣克拉拉市举办的GTC大会上,英伟达宣布随着NVIDIA Ampere架构的推出,NVIDIA DRIVE平台得到了进一步的扩展,实现了从入门级ADAS解决方案到L5级自动驾驶出租车(Robotaxi)系统的全方位性能提升。
在本次GTC大会主题演讲中,NVIDIA创始人兼首席执行官黄仁勋宣布,通过即将推出的Orin系统级芯片(SoC)系列和全新NVIDIA Ampere GPU,对DRIVE AGX平台进行扩展。制造商能够通过单一架构部署高性能AI系统,使其产品阵容中的所有汽车都成为软件定义。
此次扩展的范围从NCAP 五星ADAS系统到DRIVE AGX Pegasus Robotaxi平台。
后者配备两个Orin SoC和两块NVIDIA Ampere GPU,可实现前所未有的每秒2000万亿次运算,超过上一代平台性能的6倍。
目前,DRIVE AGX通过Xavier SoC和基于Turing架构GPU的各种组合,提供L2级以上自动驾驶至L5级全自动驾驶功能。
DRIVE AGX Xavier具有30万亿次运算( TOPS)性能,NVIDIA DRIVE AGX Pegasus平台的最大性能达到320 TOPS,可运行多个用于实时感知、规划与控制的冗余和不同深度神经网络。
此次推出的NVIDIA Ampere GPU以及即将问世的自带强大计算引擎的Orin处理器系列,将为一切移动物体提供计算性能,在进一步提升DRIVE平台性能的同时,还增加了一款入门级ADAS产品。
根据客户的要求,全新DRIVE AGX系列首先推出了一款新型Orin SoC,它的功率仅为5瓦,但性能却可达到10 TOPS。
汽车制造商一般会为ADAS系统开发一种计算机系统,同时为更高级别的自动驾驶开发另一种系统,但多个系统的开发成本高昂。
在单一平台上,开发者仅用一种架构便能更轻松地为其所有细分市场开发自动驾驶技术。由于DRIVE平台是软件定义且基于大型CUDA开发者社区,因此能够轻松且持续不断地获得无线更新。
在DRIVE AGX产品系列向入门级自动驾驶平台拓展的同时,NVIDIA Ampere架构也在进一步提升DRIVE平台的计算性能,赋力下一代DRIVE Pegasus Robotaxi自动驾驶平台。
该平台凭借两个Orin SoC和两块NVIDIA Ampere GPU,可实现2000 TOPS的性能,因此能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。
该架构为NVIDIA第八代GPU提供了迄今为止最大的性能飞跃,将DRIVE系统的性能提高了6倍。
Orin SoC系列将于明年开始提供样品,在2022年下半年投入生产并向汽车制造商供应,为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。
除此之外,首款基于NVIDIA® Ampere架构的GPU —— NVIDIA A100已全面投产并已向全球客户交付。
A100采用了NVIDIA Ampere架构的突破性设计,该设计为NVIDIA第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。
作为一款通用型工作负载加速器,A100还被设计用于数据分析、科学计算和云图形。
NVIDIA创始人兼首席执行官黄仁勋表示:“云计算和AI的强大趋势正在推动数据中心设计的结构性转变,过去的纯CPU服务器正在被高效的加速计算基础架构所取代。NVIDIA A100 GPU作为一个端到端的机器学习加速器,其实现了从数据分析到训练再到推理20倍的AI性能飞跃。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。NVIDIA A100将在提高吞吐量的同时,降低数据中心的成本。”
A100所采用的全新弹性计算技术能够为每项工作分配适量的计算能力。多实例GPU技术可将每个A100 GPU分割为多达七个独立实例来执行推理任务,而第三代NVIDIA NVLink®互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。
众多全球领先的云服务供应商和系统构建商计划将A100 GPU集成到其产品中,其中包括:阿里云、AWS、Atos、百度智能云、思科、Dell Technologies、富士通、技嘉科技、Google Cloud、新华三、HPE、浪潮、联想、Microsoft Azure、甲骨文、Quanta/QCT、Supermicro和腾讯云。
Microsoft是首批采用NVIDIA A100 GPU的用户之一,计划充分利用其性能和可扩展性。
Microsoft公司副总裁Mikhail Parakhin表示:“Microsoft大规模应用前代NVIDIA GPU训练了全球最大的语言模型——Turing Natural Language Generation。Azure将使用NVIDIA 新一代A100 GPU训练更大型的AI模型,以推动语言、语音、视觉和多模态技术领域的最新发展。”
DoorDash是一个按需提供的食品平台,在大流行期间作为餐馆的生命线,它指出了拥有灵活的人工智能基础设施的重要性。
DoorDash的机器学习工程师Gary Ren表示:“现代复杂AI训练和推理工作负载需要处理大量的数据,像NVIDIA A100 GPU这样最先进的技术,可以帮助缩短模型训练时间,加快机器学习开发进程。此外,采用基于云的GPU集群还能够为我们提供更高的灵活性,可以根据需要扩容或缩容,将有助于提高效率、简化操作并节约成本。”
这一次A100完成五大突破。
第一:NVIDIA Ampere架构 - A100的核心是NVIDIA Ampere GPU架构,该架构包含超过540亿个晶体管,这使其成为全球最大的7纳米处理器。
第二:具有TF32的第三代Tensor Core核心 - NVIDIA广泛采用的Tensor Core核心现在已变得更加灵活、快速且易于使用。其功能经过扩展后加入了专为AI开发的全新TF32,它能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,Tensor Core核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。
第三:多实例GPU - MIG,一种全新技术功能,可将单个A100 GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。
第四:第三代NVIDIA NVLink - 使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。
第五:结构化稀疏 - 这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。
凭借这些新功能,NVIDIA A100成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。
今日同时发布的还有NVIDIA DGX™ A100 系统,其内置8个由NVIDIA NVLink互联的NVIDIA A100 GPU。
NVIDIA和官方合作伙伴现已开始供应该系统。
阿里云、AWS、百度智能云、Google Cloud、Microsoft Azure 、甲骨文和腾讯云正在计划提供基于A100的服务。
此外,众多全球领先的系统制造商也将提供各种基于A100的服务器,包括Atos、思科、Dell Technologies、富士通、技嘉科技、新华三、HPE、浪潮、联想、Quanta/QCT和Supermicro。
为帮助合作伙伴加快服务器的开发,NVIDIA开发了HGX A100服务器构建模块,该模块采用了多GPU配置的集成基板形式。
HGX A100 4-GPU通过NVLink实现GPU之间的完整互联, 8-GPU配置的HGX A100通过NVIDIA NVSwitch™实现GPU之间的全带宽通信。采用全新MIG 技术的HGX A100能够被分割为56个小型GPU,每个GPU的速度都比NVIDIA T4更快;或者也可以将其用作一台拥有10petaflops AI性能的巨型8-GPU服务器。
NVIDIA还发布了多个软件堆栈更新,使应用程序开发者能够充分发挥A100 GPU创新技术的性能。
这些更新包括了50多个新版本CUDA-X™ 库,可用于加速图形、模拟和AI;CUDA 11;多模态对话式AI服务框架NVIDIA Jarvis;深度推荐应用框架 NVIDIA Merlin;以及NVIDIA HPC SDK,其中包括能够帮助HPC开发者调试和优化A100代码的编译器、库和工具。