携手英伟达 VAST Data 构建面向大规模 AI 的全新内存层级

实际上，KV cache 已演变为长效内存，系统性能取决于 KV cache 的管理效率与上下文复用能力。推理上下文离 GPU 越远，推理成本就越高，运行效率也越低。

尽管人们的关注点似乎一直聚焦在算力扩容上，但在实际的大规模 AI 应用场景中不难发现，这种认知正迅速被打破。

当系统需要满足未来核心工作负载 —— 例如持续为线上用户提供服务、在多次交互中留存上下文、运行超长任务流程时，单纯依靠算力扩容的思路便不再适用。

行业关注点正在快速转变：从之前的单纯追求模型运行速度，转变为密切考虑“系统如何能在不触及内存瓶颈的情况下，长时间维持有价值的交互”。

在 VAST Forward 2026 大会上，VAST Data AI 架构总监 Anat Heilper 向参会者表示，性能瓶颈已不再局限于算力，内存管理成为新的挑战。“我们发现行业正在发生转变，对话的上下文（Context）已经变得与模型本身同等重要。”她解释道，这一转变也要求业界采用全新的系统设计方案。

与模型训练不同，生产环境的推理服务（Production inference）需要不间断运行、并行服务大量用户，并完整留存每一次交互记录。这些记录累积形成上下文数据，进而推高内存需求。系统设计的重心不再是运算能力，而是如何高效存储、调取在这些交互过程中产生的信息。

Heilper 表示，这正是“GPU 内存墙（GPU memory wall）”所形成的现实难题的原因。GPU 内存读写速度快，但容量有限，一旦上下文数据超出容量上限，就必须流转至系统其他存储层级。数据每远离 GPU 一层，延迟与使用成本都会随之增加。她强调，此时系统面临的核心考验，是如何在不降低整体运行效率的前提下，保障上下文数据可被快速调用，充分发挥 Token 的处理价值。

Part.1

推理业务催生海量内存需求

英伟达高级研究员 Vikram Sharma Mailthody 同台分享，与 Heilper 深入探讨了一个问题：当推理不再是简单的请求-响应循环，而演变成一个持续过程时，系统会发生什么变化。

Mailthody 称，智能体系统不只是简单回应提示词，还会执行多步骤任务、调用各类工具，循序渐进达成业务目标。而这一切得以实现的前提，是上下文数据持续留存，而非单次响应后便清空。

“推理服务已不再是无状态运行。智能体需要在跨交互、跨会话、跨历史记录乃至跨服务的场景中，留存并复用上下文数据。” 他补充道，这意味着上下文数据已然成为负载中需要长期保存的内容，在跨会话、跨服务流转的同时，还要确保系统处理每一个步骤时都能随时调取。

这就导致系统需要管理的上下文数据量持续上涨，更长的文本序列、工具输出数据以及多用户并发访问，都会进一步推高这一数据规模。

推理上下文已成为全新的瓶颈

存储架构必须重新设计

推理上下文数据量大、动态变化且支持重算
上下文数据必须能在 GPU 与节点间共享
本地内存存在固有限制
传统存储扩容会推高成本与功耗
高效的上下文扩容需要全新的架构设计

Part.2

KV cache 成为系统核心管理对象

随着上下文数据不断增加，KV cache 成为系统的核心管理目标。这并非易事。KV cache 用于存放注意力数据，避免重复运算，而长文本序列与高并发场景会让其容量快速膨胀，如今它已是内存资源的主要消耗项之一。

此时，KV cache 承担起工作内存（Working Memory）的作用，保障多轮交互逻辑连贯。Mailthody 解释道：“实际上，KV cache 已演变为长效内存，系统性能取决于 KV cache 的管理效率与上下文复用能力。推理上下文离 GPU 越远，推理成本就越高，运行效率也越低。”

自此，系统瓶颈不再是运算速度，而是能否让上下文数据就近存储、随时可用，这也让 VAST Data 与英伟达的技术协同优势得以充分发挥。

Part.3

基于 Dynamo 实现推理任务编排

当 KV cache 成为核心后，如何在全系统内对其进行调度管理就成了关键，英伟达 Dynamo 便承担起这一推理编排工作。

它作为推理调度层，负责规划请求处理方式、任务运行节点以及上下文复用策略。该组件将推理流程拆分为多个协同模块：API 层接收请求，路由模块根据 KV cache 分布位置分发任务，规划模块则根据负载变化动态调整资源配额。

在这些组件之下，KV cache 管理器实时追踪上下文数据在各级内存中的分布位置，数据传输层负责在 GPU、内存与存储设备之间流转数据。

计算密集型的预填充阶段与内存密集型的解码阶段可拆分独立运行，并分别完成性能优化，这一设计进一步完善了智能内存管理机制。系统可自主选择最优运行路径，路由调度不再单纯依靠负载均衡，还会结合上下文数据的存储位置综合判断。

最终，推理服务呈现出分布式系统的运行特征，请求、内存与算力资源始终保持协同调度，实现大规模场景下的上下文复用。但新的问题也随之显现：即便具备完善的编排能力，系统性能依旧取决于上下文数据的读写速度。

Part.4

存储成为算力增效引擎

一旦任务编排工作就绪之后，下一道性能瓶颈便是上下文数据的读取与复用速度，而这正是 VAST Data 的技术优势所在。

KV cache 不同于普通数据，具备读密集、大块读取、高频复用的特点。VAST Data 的架构恰好适配这类访问模式，将原本可能出现的 I/O 瓶颈转化为可随网络带宽线性扩容的能力。

Heilper 表示：“我们并非提升 GPU 本身的运算速度，而是提高 GPU 的有效利用率，让存储成为算力的增效引擎。” 依托高速读取 KV cache 来规避重复计算，GPU 能够持续处理全新任务，而非反复重构上下文数据。

优化效果十分显著。她说道：“原本需要 GPU 耗时 65 秒完成计算的任务，如今仅需 3 秒即可读取缓存数据完成处理，这是质的改变。” 该优化大幅减少 GPU 资源浪费，在硬件不变的情况下，有效提升响应速度与整体处理能力。

此时，存储不再只是单纯承载数据，而是直接提升整套系统的算力产出能力。

Heilper 提到，这种改进取决于系统重用上下文而非重建上下文的频率。在实际业务中，缓存命中率普遍可达 40% 至 60%，仅这一项就能显著提升系统整体产能。

VAST 效应：每美元可处理 Token 数提升 60%-130%

Assumptions:（假设条件）

缓存命中率：40%-60%
预填充耗时：无 KV cache 复用为 62 秒，使用 KV cache 复用为 3 秒
测试配置：Llama 3 405B 模型，128K 上下文，8 张 H100 GPU，2×100Gb/s 网络带宽

依托这样的复用效率，系统整体吞吐量大幅提升，单位成本可处理的 Token 数量提升约 60% 至 130%。性能增益的核心，是让算力专注于全新任务，而非重复执行已有运算。

Part.5

上下文数据升级为企业级数据资产

当 KV cache 脱离 GPU 后，它便不再只是影响性能的临时数据，而是正式成为业务数据。其中包含指令、用户输入内容以及模型运算的中间结果，在生产环境中属于敏感数据。

Anat Heilper 解释道：“KV cache 一旦转出 GPU，其中包含的用户敏感数据就有可能遭到篡改或逆向破解。” 这意味着上下文数据不能再被当作临时数据对待，必须像核心业务数据一样做好安全防护与规范管理。

这就要求数据满足企业级管控标准：数据加密、用户数据隔离、精细化权限控制。由于上下文数据会跨会话长期留存，数据留存策略也至关重要。多用户、多服务共享一套基础设施，更需要统一的数据治理体系。

在此场景下，VAST Data 的能力不再局限于性能优化，还可为 KV cache 提供全套企业级数据服务，兼顾运行效率与安全管控。当推理业务落地至合规监管类场景时，这一能力已成为系统设计的核心组成部分。

Part.6

面向大规模 AI 的全新内存层级

即便搭配完善的任务编排与高速存储，KV cache 的数据量仍在持续增长。若将大量数据存入传统存储，会进一步增加延迟与使用成本。为此，英伟达推出专为推理场景打造的全新内存层级 CMX。

CMX 部署在 GPU 内存与存储设备之间，可在同一计算集群（Pod）内的多块 GPU 间共享资源。该层级支持上下文数据复用，无需重复拷贝，既能让更多工作内存靠近 GPU 以保障性能，又能突破 GPU 物理内存的容量限制。

该内存层级依托 BlueField-4 DPU 与高速网络实现能力落地。BlueField-4 将算力与数据服务下沉至推理侧，支持 VAST Data 直接运行在 DPU 之上，精简服务器层级，加速 KV cache 在 GPU 与存储之间的数据流转。

在大规模应用场景中，这套架构价值凸显。承载数千用户的系统，需要数百 TB 空间存放活跃上下文，还需数 PB 空间实现跨会话数据留存。该架构可在扩容容量的同时，保证数据访问速度，让长会话任务与常驻智能体稳定运行。

最终，整套系统以内存为核心进行架构设计，算力、存储、网络协同配合，保障上下文数据随时可用、可复用。而这也成为决定系统整体业务承载力的核心因素。

上一篇：算无遗策智算未来 | 容天汇海闪耀亮相IDCE上海国际数据下一篇：NVIDIA Vera CPU 在竞争中展现强劲性能