产品中心
Product
首页 > 产品中心 > NVIDIA产品
返回

NVIDIA A100(PCIe)

NVIDIA A100 GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力全球高性能弹性数据中心。NVIDIA A100 由 NVIDIA Ampere 架构提供支持,性能比上一代产品提升高达 20 倍。

 

1-210H6141514920.png 

 

强大的端到端 AI 和 HPC 数据中心平台


深度学习训练

NVIDIA A100 的 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比上一代 NVIDIA Volta 高 20 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍。与 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCI 4.0、NVIDIA® Mellanox® InfiniBand® 和 NVIDIA Magnum IO™ SDK 结合使用时,可扩展到数千个 A100 GPU。

2048 个 A100 GPU 可在一分钟内大规模处理 BERT 之类的训练工作负载,这是训练时间的世界纪录。

 

深度学习推理

A100 引入了突破性的功能来优化推理工作负载。它能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允许多个网络同时基于单个 A100 运行,从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上,仅结构化稀疏支持一项就能带来高达两倍的性能提升。

在 BERT 等先进的对话式 AI 模型上,A100 可将推理吞吐量提升到高达 CPU 的 249 倍。

 

高性能计算

A100 的双精度 Tensor Core 为 HPC 领域带来了自 GPU 中的双精度计算技术推出以来极其重要的里程碑。借助 HBM2e 每秒超过 2 TB 的带宽和大容量内存,科研人员可以在 A100 上将原本要花费 10 小时的双精度模拟过程缩短到 4 小时之内。HPC 应用程序还可以利用 TF32 将单精度、密集矩阵乘法运算的吞吐量提高高达 10 倍。

 

高性能数据分析

数据科学家需要能够分析和可视化庞大的数据集,并将其转化为宝贵见解。但是,由于数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

搭载 A100 的加速服务器可以提供必要的计算能力,并能利用大容量内存以及通过 NVIDIA® NVLink® and NVSwitch™ 实现的超快速内存带宽(超过每秒 2 TB)和可扩展性妥善处理工作负载。通过结合 InfiniBand, NVIDIA Magnum IO™ 和 RAPIDS™ 开源库套件(包括用于执行 GPU 加速的数据分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 数据中心平台能够加速这些大型工作负载,并实现超高的性能和效率水平。

 

规格

FP32 CUDA 核心

6912

FP64 峰值性能

9.7 TF

FP64 Tensor Core 峰值性能

19.5 TF

FP32 峰值性能

19.5 TF

FP32 Tensor Core 峰值性能

156 TF | 312 TF*

BFLOAT16 Tensor Core 峰值性能

312 TF | 624 TF*

FP16 Tensor Core 峰值性能

312 TF | 624 TF*

INT8 Tensor Core 峰值性能

624 TOPS | 1,248 TOPS*

INT4 Tensor Core 峰值性能

1,248 TOPS | 2,496 TOPS*

GPU 内存

40GB

GPU 内存带宽

1,555 GB/s

boost 频率

1.41GHZ

显存频率

2.4Gbps HBM2

显存位宽

5120

互联

NVIDIA NVLink 600 GB/s**

最大 TDP 功耗

400 W

 

* 采用稀疏技术;

** 通过 NVLink 桥互联;


上一篇:NVIDIA A30