GTC 2026 进一步揭示大模型背后的系统架构

VAST Data 所构建的系统，让原本分布在不同层级的功能默认协同工作。这是一个经过重塑的架构，反映了 AI 持续运行的实际需求。

自 GTC 创立之初，我便一直参会，那是大会的目标还是试图说服超算中心，让他们相信可以将部分科学计算任务卸载到游戏显卡上，亲眼见证加速系统从当初的寥寥无几，发展成今天无数的 AI 工厂，这一历程令人震撼。

多年来，大会始终有几个突出主题，往往与用户趋势相吻合（例如早期的应用移植、工业与科学场景等）。但 2026 年 GTC 的不同之处在于，其关注焦点更为精细、深入，至少从当前视角来看是如此。

3 月中在圣何塞举办的 GTC 大会，揭示了一个明显的趋势：AI系统的构建方式正在发生转变。

如今，推理主导着系统行为，上下文必须持久化并需要被复用，重新计算成为一种真实成本，推理流程正在拆分为预填充与解码两个阶段。现在，工作负载会根据数据与上下文所在的位置动态调度，而功耗限制则决定着批处理与复用策略。

2026 年 GTC 的核心结论是什么？技术栈自身正在压缩。因为数据迁移与复制的成本，正迫使各个层级收缩、融合。

整体来看，这是一个持续运行、有状态、可协同的系统，制约它的与其说是原始的算力，不如说是效率。

GTC 的主题与 VAST Data 一直在阐述的理念高度契合。这些主题所指向的，正是 VAST Data 创始人兼 CEO Renen Hallak 与联合创始人 Jeff Denworth 在 VAST FWD 大会上描述的系统架构。

而 GTC2026 大会展现的这套架构，现在在整个行业中都清晰可见。

以下是 2026 年 GTC 最值得关注的几大主题与观察。

推理已成为核心系统难题

当然，推理的重要性并非凭空突然显现，但此次GTC 2026大会明确的一点是：如今所有设计都围绕推理展开，这种压力集中体现在定义全球最大、增长最快 AI 系统的各项约束条件之中。

延迟与每瓦吞吐量决定了系统的扩展上限。随着工作负载不均衡的到来，上下文长度、时序要求与成本配置各不相同，请求调度成为一项持续性工作。交互模式也转向多轮流程，其状态会随时间不断累积。

这一底层转变在于：训练是有限任务，而推理是持续运行的。当然，这一转变并非新趋势，但其重要性持续提升。

这一切意味着，我们不再为可提前调度完成的峰值任务设计系统，而是面向多变的持续性负载设计。每个请求都有不同需求，系统必须实时响应。

调度变为受限条件下的路由决策，内存层级需要动态判断哪些数据必须靠近计算单元，数据布局成为性能的关键部分，而不再是一个实现细节。最重要的是（下文将详细说明），缓存成为了一项必需功能。

KV Cache 成为新的瓶颈层

一个新趋势正在显现：上下文窗口正在不断扩大，重新计算的成本也随之攀升，GPU 正耗费消耗算力去重复生成系统已处理过的状态。这看似是计算问题，实则是无法保留和复用上下文所带来的成本。

随着工作负载转向多轮交互，核心不再是单次请求，而是其背后累积的状态。每增加一个 token 都会使成本叠加，每一次未能复用都迫使系统再次付出全部算力成本。

在大规模应用场景下，这表现为资源利用率下降，昂贵的资源被占用去重复之前的工作，而非推进当前任务。

这正是系统脱离以大模型为中心视角的关键。正如 VAST CEO Renen Hallak 在 GTC 前一个月的 VAST FWD 大会上所说的那样：上下文是工作负载的一部分，必须像对待任何其他关键数据结构一样，对其进行持久化、索引和检索。若将其视为临时数据，其性能会随上下文长度增加而下降，效率也会因冗余而崩溃。

约束条件也随之转变：核心不再是计算速度有多快，而是能否高效保留并复用已计算结果。这将问题推向至关重要的数据层，一旦这一点明确，系统其余部分便可围绕其重新进行组织。

当整个行业都开始以这种思路思考时，你会觉得 VAST Data 仿佛拥有预知未来的水晶球……

分解式不再是设计偏好，而是必然选择

分解式是系统对无法承载现有负载的应对方案，意味着在大规模场景下，这几乎是唯一选择。这体现在预填充与解码的分离、计算、内存和存储独立扩展，此外，网络也在从被动的层级，转变为调度约束条件。

系统被迫进行职责分离，因为工作负载已不再适合单一、统一的形态。

如前所述，一体式 GPU 集群在这种条件下会崩溃。不均衡的请求大小造成的负载失衡无法通过蛮力优化解决。动态工作负载的变化速度远超静态分配的适配能力，实时推理要求不允许任何低效冗余。

这看起来像是扩展问题，实际上却是协同问题；而可以确定的是，一体式架构不擅长高压下的协调。

因此，自然的解决方案是按功能线拆分系统：计算资源可被隔离，以便精准地部署在所需位置；内存成为独立层级，直接与其依赖的工作负载绑定；存储延伸内存层级而非远置隔离；网络成为任务调度与状态访问的核心。

这样做的目标并非制造更多组件，而是消除所有在持续负载下带来延迟与僵化的耦合关系。

调度编排正成为 AI 的控制平面

这一点再次让人觉得，VAST Data 优秀的工程师团队在几年前就拥有了预知未来的水晶球。他们预见了调度编排的巨大需求，并提前构建了核心能力。

首先，他们意识到限制因素不再是单个 GPU 的速度，而是系统如何决策后续操作。任务需要在不均衡的资源之间进行调度，上下文需要存储在可预测、可访问的位置，计算需在恰当时机被调用，且所有上下文需在不再独立的请求间持久化存在。

在大规模应用场景下，每个请求都对应一次决策：在哪里运行、需要哪些上下文、哪些可以复用、哪些必须重新计算。这些决策在延迟与资源约束下持续进行。

一旦工作负载变为持续、有状态，静态调度便会失效。系统必须实时响应，适配不断变化的需求与状态，调度编排成为管控这一行为的核心机制 —— 它不再作为一个后台层，而是成为系统的核心逻辑。

这不再是由独立组件组成的基础设施，而是决定数据、内存与计算如何交互的操作层。其核心功能不再是高效地运行代码，而是首先决定代码该如何运行、在哪里运行。

每瓦效率就是一切

在 2026 年，这不再是可持续性或空泛的绿色计算口号，而是决定系统能力的硬性限制。

你可以在推理批处理策略中看到这一点，这些策略旨在从相同的能耗中，提取更多工作；在工作负载整合中也能够看到，以避免空闲容量；在激进的内存复用策略中也能看到，以消除重新计算。现在，每一个冗余操作都带有直接的能耗成本。

功耗上限，限制了部署规模，散热条件约束着集群密度，最终推理成本与基础设施运维成本变得密不可分。

这将效率推向架构核心位置。重复计算不再只是浪费，更是带来了高昂的成本；不必要的数据迁移不再是可以容忍的，而是成为了发展瓶颈。

能够复用状态、最小化数据迁移、在严格能耗预算内运行的系统，不仅更快，而且具备实际可行性。

技术栈正向更少层级收缩

这一转变较为微妙，可能会被更具体的问题掩盖，但趋势十分明确。

曾经相互独立的存储、数据库、缓存、流处理、调度编排等系统，正融合为可同时承担多种角色的平台。概念上的边界依然存在，但正在向内收缩甚至完全消除。

每一层边界都伴随着成本：数据迁移带来延迟，状态复制造成不一致，更多系统需要协同维护导致运维开销上升。在持续推理负载下，这些成本会快速累积，并直接体现在性能上。

应对方案是整合。

系统正在被设计为在一个更紧凑的闭环内，处理数据持久化、访问与执行，数据存储位置与使用位置的距离不断缩小。目标并非为了简化而整合，而是消除不必要分离带来的性能损耗。

最终出现的，是一个更统一的平台，它具备协同性却非传统意义上的一体式架构。VAST Data 所构建的系统，让原本分布在不同层级的功能默认协同工作。

这是一个经过重塑的架构，反映了 AI 持续运行的实际需求。

上一篇：回顾 VAST FWD 2026：听 VAST CEO Re 下一篇：倒计时1天 | 容天汇海将携两款旗舰产品亮相第三届AI算力产