NVIDIA 首款深度学习超级计算机：可媲美 250 台服务器！

2016-4-8

GTC 2016 首日，NVIDIA 推出了基于全新 Tesla P100 GPU 加速器的 DGX-1 超级计算机，用于满足人工智能研究的无限计算需求。

NVIDIA DGX-1 是首款专为深度学习量身定制的系统，它具备充分集成的硬件、深度学习软件以及开发工具，让开发者能够快速而轻松地进行开发，其吞吐量相当于 250 台 x86 服务器！

NVIDIA DGX-1 深度学习系统让研究人员和数据科学家能够轻松利用 GPU 加速计算的强大性能来打造全新级别的智能机器，使得这些机器能够像人类一样学习、观察和感知这个世界。DGX-1 可提供史无前例的强大计算性能来驱动下一代人工智能应用，让研究人员能够在更大更复杂的深度神经网络上大幅缩短训练耗时。

NVIDIA 联合创始人兼首席执行官黄仁勋先生表示：“人工智能是目前为止意义最为深远的技术进步，它改变了每一个行业、每一家公司，甚至每一件事，并惠及每一个人。数据科学家及人工智能研究人员在以往的高性能解决方案平台上往往要花费太多的时间，DGX-1 不但易于部署，而且专为一个目的而生，就是释放超人般的无穷威力，并将这种威力应用到之前未被解决的难题上来。”

成就DGX-1，源于五大突破

NVIDIA DGX-1 基于全新 Tesla P100 GPU 打造，其吞吐量相当于 250 台基于 CPU 的服务器，这次，我们把如此庞大的吞吐量囊括到了单个机箱之内。

另外四项突破性的技术包括可最大限度提升应用程序扩展能力的 NVIDIA NVLink，可带来空前节能特性的 16nm FinFET 制造工艺，可承担繁重数据负荷的 HBM2 内存以及可为深度学习提供高达 21 Teraflops 以上的峰值性能的指令集。

这些突破性的技术结合到一起，让配备 Tesla P100 GPU 的 DGX-1 系统能够比一年前问世的 NVIDIA Maxwell 架构四路解决方案快 12 倍以上！

在人工智能生态系统中广受追捧

Facebook 人工智能研究总监 Yann LeCun 指出，NVIDIA GPU 正在加速人工智能的发展进程。随着神经网络变得越来越大，我们不仅需要更快的 GPU，更高容量、更快速度的内存，而且需要大幅提升的 GPU 间通信速度以及能够利用低精度算术的硬件。这些正是 Pascal 所具备的特点。

百度首席科学家吴恩达表示，人工智能计算机就像航天火箭一样，越快越好。Pascal 架构的吞吐量和互联技术将造就出我们所见过的最快的火箭。

微软研究院首席语音科学家黄学东表示，微软正在开发具有 1000 多层的超级深度神经网络。NVIDIA Tesla P100 的惊人性能将让微软 CNTK 能够加速实现人工智能的巨大突破。

全面的深度学习软件

NVIDIA DGX-1 包含一整套优化的深度学习软件，这些软件让研究人员和数据科学家能够快速而轻松地训练深度神经网络。它包括 NVIDIA 深度学习 GPU 训练系统（DIGITS），这是一款完整的，可交互的系统，可用于设计深度神经网络（DNN）。它还包括新发布的 NVIDIA CUDA 8 以及深度神经网络库（cuDNN）第 5 版。

DGX-1 还包括多个使用广泛的深度学习框架的优化版本，如 Caffe、Theano 以及 Torch。此外，DGX-1 还可以访问云管理工具、软件更新以及用于容器化应用程序的资源库。

全新 Tesla P100 GPU 加速器的 DGX-1 超级计算机，用于满足人工智能研究的无限计算需求。

NVIDIA DGX-1规格如下：

半精度（FP16）峰值性能最高可达 170 Teraflops

8 个 Tesla P100 GPU 加速器，每颗 GPU 配备 16GB 内存，支持 ECC

NVLink Hybrid Mesh Cube

7TB 固态硬盘，用于深度学习高速缓存

双万兆以太网，四路InfiniBand 100Gb网络连接

3U，配备 3200W 电源

DevTop：全球最快的桌边型深度学习机器

由容天工程开发团队为深度学习研发工作开发的 Rt. DevTop 是一个全功能的、可用于加速深度学习研究的平台。从内存到 I/O 到电源的每个 Rt. DevTop 组件都进行了优化配置，可为最严苛的深度学习研究提供最出色的性能。它预装了数据科学家和研究人员开发深度神经网络所需的所有软件。其中包括 DIGITS 软件包以及最流行的深度学习框架：Caffe、Theano 和 Torch 以及 CUDNN（NVIDIA 加强版 GPU 加速深度学习库）。

所有这些都集结在这个高能效、静默、运行流畅且外形优美的软件包中，只需要普通的电源插座，低调安置在您的桌下即可。

对比早期的多 GPU 训练成果显示，在关键深度学习测试中，使用 Rt. DevTop 训练 AlexNet 模型只需 13 个小时，而最好的单 GPU PC 也需要超过 2 天，单 CPU 系统更是需要超过 1 个月的时间才能完成。

上一篇：NVIDIA 发布全球首款深度学习超级计算机下一篇：材料科学领域最受欢迎应用！GPU 为 VASP 带来 8 倍