VAST Data 所构建的系统,让原本分布在不同层级的功能默认协同工作。这是一个经过重塑的架构,反映了 AI 持续运行的实际需求。
自 GTC 创立之初,我便一直参会,那是大会的目标还是试图说服超算中心,让他们相信可以将部分科学计算任务卸载到游戏显卡上,亲眼见证加速系统从当初的寥寥无几,发展成今天无数的 AI 工厂,这一历程令人震撼。 多年来,大会始终有几个突出主题,往往与用户趋势相吻合(例如早期的应用移植、工业与科学场景等)。但 2026 年 GTC 的不同之处在于,其关注焦点更为精细、深入,至少从当前视角来看是如此。 3 月中在圣何塞举办的 GTC 大会,揭示了一个明显的趋势:AI系统的构建方式正在发生转变。 如今,推理主导着系统行为,上下文必须持久化并需要被复用,重新计算成为一种真实成本,推理流程正在拆分为预填充与解码两个阶段。现在,工作负载会根据数据与上下文所在的位置动态调度,而功耗限制则决定着批处理与复用策略。 2026 年 GTC 的核心结论是什么?技术栈自身正在压缩。因为数据迁移与复制的成本,正迫使各个层级收缩、融合。 整体来看,这是一个持续运行、有状态、可协同的系统,制约它的与其说是原始的算力,不如说是效率。 GTC 的主题与 VAST Data 一直在阐述的理念高度契合。这些主题所指向的,正是 VAST Data 创始人兼 CEO Renen Hallak 与联合创始人 Jeff Denworth 在 VAST FWD 大会上描述的系统架构。 而 GTC2026 大会展现的这套架构,现在在整个行业中都清晰可见。 以下是 2026 年 GTC 最值得关注的几大主题与观察。 推理已成为核心系统难题 当然,推理的重要性并非凭空突然显现,但此次GTC 2026大会明确的一点是:如今所有设计都围绕推理展开,这种压力集中体现在定义全球最大、增长最快 AI 系统的各项约束条件之中。 延迟与每瓦吞吐量决定了系统的扩展上限。随着工作负载不均衡的到来,上下文长度、时序要求与成本配置各不相同,请求调度成为一项持续性工作。交互模式也转向多轮流程,其状态会随时间不断累积。 这一底层转变在于:训练是有限任务,而推理是持续运行的。当然,这一转变并非新趋势,但其重要性持续提升。 这一切意味着,我们不再为可提前调度完成的峰值任务设计系统,而是面向多变的持续性负载设计。每个请求都有不同需求,系统必须实时响应。 调度变为受限条件下的路由决策,内存层级需要动态判断哪些数据必须靠近计算单元,数据布局成为性能的关键部分,而不再是一个实现细节。最重要的是(下文将详细说明),缓存成为了一项必需功能。 KV Cache 成为新的瓶颈层 一个新趋势正在显现:上下文窗口正在不断扩大,重新计算的成本也随之攀升,GPU 正耗费消耗算力去重复生成系统已处理过的状态。这看似是计算问题,实则是无法保留和复用上下文所带来的成本。 随着工作负载转向多轮交互,核心不再是单次请求,而是其背后累积的状态。每增加一个 token 都会使成本叠加,每一次未能复用都迫使系统再次付出全部算力成本。 在大规模应用场景下,这表现为资源利用率下降,昂贵的资源被占用去重复之前的工作,而非推进当前任务。 这正是系统脱离以大模型为中心视角的关键。正如 VAST CEO Renen Hallak 在 GTC 前一个月的 VAST FWD 大会上所说的那样:上下文是工作负载的一部分,必须像对待任何其他关键数据结构一样,对其进行持久化、索引和检索。若将其视为临时数据,其性能会随上下文长度增加而下降,效率也会因冗余而崩溃。 约束条件也随之转变:核心不再是计算速度有多快,而是能否高效保留并复用已计算结果。这将问题推向至关重要的数据层,一旦这一点明确,系统其余部分便可围绕其重新进行组织。 当整个行业都开始以这种思路思考时,你会觉得 VAST Data 仿佛拥有预知未来的水晶球…… 分解式不再是设计偏好,而是必然选择 分解式是系统对无法承载现有负载的应对方案,意味着在大规模场景下,这几乎是唯一选择。这体现在预填充与解码的分离、计算、内存和存储独立扩展,此外,网络也在从被动的层级,转变为调度约束条件。 系统被迫进行职责分离,因为工作负载已不再适合单一、统一的形态。 如前所述,一体式 GPU 集群在这种条件下会崩溃。不均衡的请求大小造成的负载失衡无法通过蛮力优化解决。动态工作负载的变化速度远超静态分配的适配能力,实时推理要求不允许任何低效冗余。 这看起来像是扩展问题,实际上却是协同问题;而可以确定的是,一体式架构不擅长高压下的协调。 因此,自然的解决方案是按功能线拆分系统:计算资源可被隔离,以便精准地部署在所需位置;内存成为独立层级,直接与其依赖的工作负载绑定;存储延伸内存层级而非远置隔离;网络成为任务调度与状态访问的核心。 这样做的目标并非制造更多组件,而是消除所有在持续负载下带来延迟与僵化的耦合关系。 调度编排正成为 AI 的控制平面 这一点再次让人觉得,VAST Data 优秀的工程师团队在几年前就拥有了预知未来的水晶球。他们预见了调度编排的巨大需求,并提前构建了核心能力。 首先,他们意识到限制因素不再是单个 GPU 的速度,而是系统如何决策后续操作。任务需要在不均衡的资源之间进行调度,上下文需要存储在可预测、可访问的位置,计算需在恰当时机被调用,且所有上下文需在不再独立的请求间持久化存在。 在大规模应用场景下,每个请求都对应一次决策:在哪里运行、需要哪些上下文、哪些可以复用、哪些必须重新计算。这些决策在延迟与资源约束下持续进行。 一旦工作负载变为持续、有状态,静态调度便会失效。系统必须实时响应,适配不断变化的需求与状态,调度编排成为管控这一行为的核心机制 —— 它不再作为一个后台层,而是成为系统的核心逻辑。 这不再是由独立组件组成的基础设施,而是决定数据、内存与计算如何交互的操作层。其核心功能不再是高效地运行代码,而是首先决定代码该如何运行、在哪里运行。 每瓦效率就是一切 在 2026 年,这不再是可持续性或空泛的绿色计算口号,而是决定系统能力的硬性限制。 你可以在推理批处理策略中看到这一点,这些策略旨在从相同的能耗中,提取更多工作;在工作负载整合中也能够看到,以避免空闲容量;在激进的内存复用策略中也能看到,以消除重新计算。现在,每一个冗余操作都带有直接的能耗成本。 功耗上限,限制了部署规模,散热条件约束着集群密度,最终推理成本与基础设施运维成本变得密不可分。 这将效率推向架构核心位置。重复计算不再只是浪费,更是带来了高昂的成本;不必要的数据迁移不再是可以容忍的,而是成为了发展瓶颈。 能够复用状态、最小化数据迁移、在严格能耗预算内运行的系统,不仅更快,而且具备实际可行性。 技术栈正向更少层级收缩 这一转变较为微妙,可能会被更具体的问题掩盖,但趋势十分明确。 曾经相互独立的存储、数据库、缓存、流处理、调度编排等系统,正融合为可同时承担多种角色的平台。概念上的边界依然存在,但正在向内收缩甚至完全消除。 每一层边界都伴随着成本:数据迁移带来延迟,状态复制造成不一致,更多系统需要协同维护导致运维开销上升。在持续推理负载下,这些成本会快速累积,并直接体现在性能上。 应对方案是整合。 系统正在被设计为在一个更紧凑的闭环内,处理数据持久化、访问与执行,数据存储位置与使用位置的距离不断缩小。目标并非为了简化而整合,而是消除不必要分离带来的性能损耗。 最终出现的,是一个更统一的平台,它具备协同性却非传统意义上的一体式架构。VAST Data 所构建的系统,让原本分布在不同层级的功能默认协同工作。 这是一个经过重塑的架构,反映了 AI 持续运行的实际需求。