CNode-X ：全场景实现 GPU 加速

CNode-X

全场景实现 GPU 加速

前言/ INTRODUCTION

VAST Data 与英伟达在 CNode-X 服务器上的合作，为 VAST Data 平台注入更强动力，为下一代关键应用与工作负载提供无与伦比的计算速度。

CPU 领域的摩尔定律已走到尽头，GPU 顺理成章成为支撑各类关键应用性能加速的主流架构。其中，大语言模型与智能体等属于原生 AI 应用；在线推荐系统等正用 AI 模型替代传统算法；而传统 SQL 分析等场景则与 AI 基本无关。

这些应用的共同点是高度依赖数据处理，而数据处理本质上属于一种计算密集型工作负载。无论是简单的 SQL 查询、数据库内商品之间的相似度检索，还是大语言模型提示，基于数据的交互都要求底层系统准确获取数据并执行指令。

数据集（或算法、模型）规模越大、复杂度越高，就需要越多算力才能在合理时间内完成处理。

这并非什么伟大的新发现。早在 2012 年，远早于本轮 AI 热潮时，GPU 式并行处理对 AI 工作负载的重要性就已成为共识。自英伟达在 2007 年发布 CUDA 以来，研究人员与创业者就一直在尝试用 GPU 加速 SQL 数据库。

而如今，技术进步、数据集（结构化与非结构化）的规模及复杂度，以及对性能要求更高的新一代应用，这三大要素终于汇聚一堂。这正是 VAST Data 兴奋地宣布推出 CNode-X 的原因—— 这是一款搭载本地 GPU 加速的新一代 VAST AI OS 服务器。

以硬件形态呈现的软件合作

CNode-X 是 VAST Data 与英伟达深化合作的延续，尽管形态是硬件（服务器），但其核心是软件开发。

随着英伟达的应用场景从图形处理、AI 计算等核心 GPU 领域向外扩展，我们获得更多为共同客户提升应用性能的机会。在 CNode-X 实例中，我们已将英伟达的关键库深度集成到 VAST 软件栈中，首先包括向量检索、表格分析以及英伟达 NIM 微服务（AI 模型容器化实例）管理相关库。

VAST Data 上的 RAG 流程一直很快，但如今速度得到了进一步提升，因为所有组件都本地运行，包括嵌入模型、大语言模型、向量数据库，以及执行流程的编排层与无服务器函数。

当然，即便在非大语言模型环境中，向量数据库在执行相似度检索、聚类等传统任务时，仍能从 GPU 加速中受益。

了解一下 VAST CNode

如果你是初次了解 VAST Data，一些背景信息有助于理解我们为何对推出 CNode-X 服务器如此兴奋。

在传统 VAST 部署中，所有计算任务都通过我们称为 CNode 的组件进行数据访问 ——CNode 既指物理 x86 服务器，也指其上运行的无状态实例 —— 负责处理存储协议、查询处理、资源编排等。

CNode 通过 NVMe 连接到 VAST 数据层（DNode），得益于我们独有的分解式全共享架构（DASE 构架），CNode 可直接并行访问数据，无需依赖分片、东西向流量或资源协调。任意 CNode 均可访问任意数据，通过计算靠近数据的方式提升性能。

除简化运维外，该架构还能带来极致性能。例如：

高性能计算服务商 DUG Technology 借助 VAST 部署，帮助科研客户在数小时内处理完数年积压的数据——其性能是他们能在公共云基础设施上实现的性能的 125 倍。
皮克斯使用 VAST Data 作为数据平台，支撑 16 万 CPU 渲染核心制作《疯狂元素城》，数据规模最高达 2PB，此后已将 VAST 集群作为其 AI 项目的数据底座。
VAST 原生事件服务基于 DASE 架构，事件吞吐量比 Apache Kafka 高出 600% 以上，比优化版商业 Kafka 发行版高出 150% 以上。

在常见场景中，VAST Data 会连接 GPU 资源以支撑需要 GPU 计算的 AI 或高性能计算工作负载（包括部分超大规模前沿模型训练），GPU 集群与 CNode 集群通过英伟达 GPUDirect Storage 连接，以最大化网络性能。

举一个日益流行的实际案例：某 VAST Data 用户在 Kubernetes 环境中运行实时 RAG 流程，并使用 VAST DataEngine 与 DataBase 服务。用户可定义一组无服务器函数，在特定事件，例如“对象存储中新增文件”触发时自动执行。

CNode 通过如下方式实时管理该流程：

☑ 启动一个打包为“NVIDIA NIM” 的英伟达 Nemotron Embed 实例，在 GPU 容器中运行（运行在独立硬件上），

当人类用户或 AI 智能体用户通过大语言模型与向量数据库交互时，该模型运行在另一 GPU 容器中，并与 CNode 通信，通过 RAG 增强模型输出。

从高速数据处理迈向 GPU 级数据处理

借助 CNode-X 服务器，我们将基于 CPU 的 CNode 与 GPU 资源集成在同一台设备中。在上述 RAG 流程案例中，这意味着存储、数据库、事件代理、函数与 AI 模型等所有组件，都原生运行在 VAST Data 基础设施上。

在 GPU 加速 SQL 分析场景中，同等硬件成本下，Sirius 基准测试速度约为原生 DuckDB 的 10 倍。与 ClickHouse 等传统、较慢的基于 CPU 的 SQL 引擎相比，差距更为显著。

此外，VAST AI OS 本身已是完整的数据平台，集大规模高性能存储、资源编排与一系列数据服务于一体，可替代并超越复杂的分布式数据架构。

我们与英伟达在 CNode-X 服务器上的合作，为 VAST Data 平台注入更强动力，为下一代关键应用与工作负载提供无与伦比的计算速度。

CNode-X 服务器将于今年春季上市，通过思科、超微等硬件合作伙伴提供。设备可搭载 AI 优化版英特尔或 AMD CPU，以及两颗及以上英伟达 RTX PRO™ 6000 Blackwell 服务器版 GPU，在集群部署下可轻松承载并提供所有公开可用的 AI 模型服务。