NVIDIA A100 GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力全球高性能弹性数据中心。NVIDIA A100 由 NVIDIA Ampere 架构提供支持,性能比上一代产品提升高达 20 倍。
强大的端到端 AI 和 HPC 数据中心平台
深度学习训练
NVIDIA A100 的 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比上一代 NVIDIA Volta 高 20 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍。与 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCI 4.0、NVIDIA® Mellanox® InfiniBand® 和 NVIDIA Magnum IO™ SDK 结合使用时,可扩展到数千个 A100 GPU。
2048 个 A100 GPU 可在一分钟内大规模处理 BERT 之类的训练工作负载,这是训练时间的世界纪录。
深度学习推理
A100 引入了突破性的功能来优化推理工作负载。它能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允许多个网络同时基于单个 A100 运行,从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上,仅结构化稀疏支持一项就能带来高达两倍的性能提升。
在 BERT 等先进的对话式 AI 模型上,A100 可将推理吞吐量提升到高达 CPU 的 249 倍。
高性能计算
A100 的双精度 Tensor Core 为 HPC 领域带来了自 GPU 中的双精度计算技术推出以来极其重要的里程碑。借助 HBM2e 每秒超过 2 TB 的带宽和大容量内存,科研人员可以在 A100 上将原本要花费 10 小时的双精度模拟过程缩短到 4 小时之内。HPC 应用程序还可以利用 TF32 将单精度、密集矩阵乘法运算的吞吐量提高高达 10 倍。
高性能数据分析
数据科学家需要能够分析和可视化庞大的数据集,并将其转化为宝贵见解。但是,由于数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。
搭载 A100 的加速服务器可以提供必要的计算能力,并能利用大容量内存以及通过 NVIDIA® NVLink® and NVSwitch™ 实现的超快速内存带宽(超过每秒 2 TB)和可扩展性妥善处理工作负载。通过结合 InfiniBand, NVIDIA Magnum IO™ 和 RAPIDS™ 开源库套件(包括用于执行 GPU 加速的数据分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 数据中心平台能够加速这些大型工作负载,并实现超高的性能和效率水平。
规格
FP32 CUDA 核心 | 6912 |
FP64 峰值性能 | 9.7 TF |
FP64 Tensor Core 峰值性能 | 19.5 TF |
FP32 峰值性能 | 19.5 TF |
FP32 Tensor Core 峰值性能 | 156 TF | 312 TF* |
BFLOAT16 Tensor Core 峰值性能 | 312 TF | 624 TF* |
FP16 Tensor Core 峰值性能 | 312 TF | 624 TF* |
INT8 Tensor Core 峰值性能 | 624 TOPS | 1,248 TOPS* |
INT4 Tensor Core 峰值性能 | 1,248 TOPS | 2,496 TOPS* |
GPU 内存 | 40GB |
GPU 内存带宽 | 1,555 GB/s |
boost 频率 | 1.41GHZ |
显存频率 | 2.4Gbps HBM2 |
显存位宽 | 5120 |
互联 | NVIDIA NVLink 600 GB/s** |
最大 TDP 功耗 | 400 W |
* 采用稀疏技术;
** 通过 NVLink 桥互联;