VAST FWD 2026：以 CoreWeave 规模，数据决定一切，VAST 保驾护航

工作负载可在数百至数千个节点上运行，但核心关注点并非单纯的规模，而是这些节点间的协调配合。

在较短的时间内，AI 基础设施巨头企业 CoreWeave 依托搭载数千片高端 GPU 的集群，迅猛打造出市场上规模最大的 AI 原生云平台。

相应地，功率密度、散热与纯数据吞吐量成为硬性约束条件。这意味着，基础设施与软件的每一项决策都必须具备面相未来的前瞻性。

CoreWeave 产品与工程执行副总裁 Chen Goldberg，在近期举办的 VAST FWD 大会上，向全场座无虚席的观众表示，这段发展历程已不再是单纯追求规模扩张，而更多地在于巧妙地调整工作负载的预期。她的团队的集群与营收、研发周期、实时线上服务直接挂钩，哪怕最微小的低效问题，也会立刻体现在利用率与成本上。随着规模不断扩大，容错空间不断缩小，而规模却还在持续扩张。

已关注关注重播 观看更多

容天汇海

0/0

00:00/00:39进度条，百分之0播放00:00/00:3900:39倍速全屏

倍速播放中 0.5倍 0.75倍 1.0倍 1.5倍 2.0倍超清流畅

继续观看

VAST FWD 2026：以 CoreWeave 规模，数据决定一切，VAST 保驾护航

转载,VAST FWD 2026：以 CoreWeave 规模，数据决定一切，VAST 保驾护航容天汇海已同步到看一看写下你的评论

视频详情

正如 Goldberg 表描述的，工作负载可在数百至数千个节点上运行，但核心关注点并非单纯的规模，而是这些节点间的协调配合。她解释道，哪怕只是其中一个组件出现故障或延迟，影响都不会局限于局部，而是会从利用率到调度产生连锁反应，最终影响整个系统的整体成本效益。

“当 GPU 处于等待状态，系统实际已崩溃”

谈及首要的扩展问题，许多人会认为瓶颈是算力耗尽，但 Goldberg 表示实际情况恰恰相反。

在实际运行中，即便算力资源仍十分充足，系统性能也会开始下降，原因是 GPU 无法持续获得稳定的数据输入。这意味着瓶颈已经从任务执行的速度，转变为任务交付的可靠性。

“如果你的 GPU 资源处于闲置状态，其代价是极其高昂的，” 她表示，闲置问题与其说是容量不足问题，更多是一种数据协同上的失误。更具体地说，这是一种数据传输失败的问题。

以 CoreWeave 的规模，每一次请求都依赖于数据的及时获取、节点间可预测的数据流转，以及无延迟尖峰的数据复用与缓存能力。一旦这些条件无法满足，系统不会整体均匀减速，而是趋于出现碎片化现象。这意味着部分节点会出现停滞，而其他节点却继续运行，进而导致调度器效率下降，资源利用率也以一种迅速累积的方式断崖下降，这在数千个 GPU 组成的集群中尤为明显。

正如 Goldberg 所描述的，通过 CoreWeave 的发展历程可以看出，核心制约因素在于系统能否保持以足够一致的方式，持续地传输数据，从而为编排层做出可靠决策提供支持。一旦这一环节失效，增加更多 GPU 也无法恢复性能，反而会加剧效率低下问题。

Part.1

系统是循环，而非模型本身

CoreWeave 在运营中面临的转变，与 VAST Data 创始人兼 CEO Renen Hallak 从架构层面阐述的观点一致，他在 VAST FWD 主题演讲中也深入探讨了这一话题。

业界一直专注于模型与训练上，仿佛这就是系统的核心所在。这种做法在工作负载简单且自成一体的时候尚能奏效，但一旦负载持续运行并依赖与不断变化的实时上下文，这套逻辑便不再适用。然而，模型只是数据接入、转换、检索、推理与执行闭环中的一个组成部分，一旦以这种全局视角看待整个系统，Goldberg 提出的那些问题便更易理解。

当每一步都依赖于数据时，数据访问与移动方式的不一致，就会演变为系统性问题。此时性能瓶颈不再是模型速度，而取决于整个系统能否在数据形态调整行为的配合下，实现无间断运行。

CoreWeave 的经验表明，在算力尚未耗尽以前，协调失误往往就已经开始显现——正是这一现实的直接体现。

在 VAST FWD 主题演讲中，VAST Data 联合创始人 Jeff Denworth 指出，持续式系统无法建立在碎片化基础设施之上，在这种架构中，任务根本无法形成长期携带上下文的协同流程。

在碎片化环境中，每一层都会带来自身的不稳定性。存储的表现方式与网络截然不同，编排层基于局部可见的信息进行决策，系统只能通过重试、缓冲与过度配置来加以弥补。在小规模下，这些低效问题尚能够被消化吸收;但在 CoreWeave 这样的大规模下，单个工作负载横跨数千节点，问题会累积成系统性的不稳定。

延迟变得不稳定，数据乱序到达或延迟到达，从而失去实际意义，调度决策质量下降，因为系统无法依赖稳定的性能预期。

因此，若 AI 基础设施要以连续循环的方式运行，底层架构就必须作为统一的系统进行运作。其中数据访问、移动与执行必须高度协同一致，确保系统能够无间断地持续推进。

Part.2

系统不再掩盖自身短板

CoreWeave 在 VAST FWD 上的分享表明，（抛开对大型集群和迅猛增长的表面描述），规模并非一个数字，它是系统在压力下行为方式的一种转变。

Goldberg 向观众表示：“基础设施的创新步伐并未落后于新模型、新开发工具，我们始终紧跟前沿”。她认为基础设施必须同步演进，因为如今整个系统对这一层面的每一处低效都极为敏感。基础设施之所以变得不容忽视，正是因为系统无法继续无代价地掩盖这种不稳定性。

随着 CoreWeave 服务的客户越来越多、工作负载类型日益多样，系统需要管理的远不止算力本身。它必须确保成千上万个动态组件始终稳定地运行，即便每个组件的表现略有差异。此时面临的挑战不再只是规模的扩大与扩展，而是如何保持在大规模增长的同时保持稳定——而这取决于数据层是否具备足够可预测性，让其他组件都能够可靠地依赖它。

Part.3

从分层架构到统一系统：

重构全栈管控能力

Goldberg 表示，当规模暴露出不稳定性才是核心问题时，那么架构优化就不能再是零敲碎打式的。

CoreWeave 的解决方案是，不再将基础设施视为独立分层，而是将其重构为具备统一可观测性与管控能力的协同系统。这也是他们的系统设计，与传统云服务商最显著的区别：传统架构通常将算力、存储与网络进行扁平化的分离，依靠分层抽象应对复杂性。

与其将云视为相互隔离的多个不同层级，Goldberg 表示，不如说是一个系统。在他们构想的这个系统中，调度、部署与恢复决策，都是基于对数据、计算和网络状况实时交互的全面了解而做出的。在这种理念下，编排层并非将任务分发至一个个黑盒，而是真正协调着一个单一的系统。在该系统中，所有组件都表现稳定，可信赖它们能够地协同工作。

这正是两位 VAST Data 创始人所阐述的理念。若系统是一个持续的闭环，控制平面就必须贯穿整个闭环，而非局限于其中的孤立片段。CoreWeave 缩短了分层间的隔阂，使系统能在不稳定性扩散前做出响应。正如 Chen 所述，在其运营规模下这一点至关重要，因为一旦协同失效，故障不会局限于局部，而是蔓延至整个工作负载。

Part.4

以 CoreWeave 规模，为 GPU 供给数据

为单块 GPU 供给数据轻而易举；而为数千片 GPU 供给数据，每片 GPU 运行的工作负载都有不同的上下文大小、访问模式与时序要求，才是真正的考验。

对 Goldberg 及其团队而言，数据必须在正确的时间、正确的位置、以匹配硬件能力的吞吐量到达，且稳定性足以让调度器在任务部署时信赖这一状态。

该链条中的任意环节如果出现不稳定状态，都会直接导致算力闲置、流程停滞、集群整体利用率下降。只有底层数据层表现可预测，CoreWeave 的统一控制平面才能做出有效决策。正是在这一点上，VAST Data 从技术栈中的一个组件，转变为系统正常运行的必要条件。

“如果把 GPU 比作引擎，我们就可以把存储视为高速公路系统…… 一旦出现拥堵，一切都无法运转，”Goldberg 向观众表示。她还补充道，在这种规模下，数据拥堵是决定系统表现的核心因素。

值得注意的是，她并未将 VAST Data 归为普通存储产品。“它不是需要你刻意关注的组件…… 而是 AI 基础设施的一部分，” 她说道。

对 CoreWeave 而言，数据层必须在数千个节点上、针对不同工作负载、持续变化的调度与部署中保持性能稳定。若无此稳定性，编排层将无法做出可靠决策，整个系统会因自身不稳定性而逐渐崩溃。

在此场景下，VAST Data 实现的价值远不止更高吞吐量（尽管这一点也是必需的）。它实现了数据访问与迁移的一致性，使系统其他部分能以更少的不确定性运行。正是这种高度的一致性，让 CoreWeave 能够在扩展时，避免 Jeff Denworth 此前所述的碎片化问题的提前下实现规模化扩展。它确保在增加更多 GPU、工作负载与客户加入时，数据层不会成为系统表现分化的源头。

Part.5

效率源于数据一致性

Goldberg 表示，一旦数据层的行为变得可预测，其效果就会清晰地体现在利用率上。“我们以高利用率为优化目标，功耗、散热、网络、存储，所有因素都关乎效率。”对其团队而言，利用率高意味着系统协同有序；若利用率下降，则说明分层间的协同出现了问题。

对 Goldberg 及其团队而言，对利用率的定义更为宽泛。它不仅指 GPU 的繁忙程度，更反映系统能否无间断持续推进任务。

当数据稳定供给时，系统可保持整体流畅运行，并合理决策任务运行位置。而一旦数据出现异常，各环节便会失去同步：部分节点闲置，其他节点超负荷运行，队列失衡，系统因无法依赖稳定表现而效率下降。

统一控制平面依赖可预测的输入做出有效决策。持续闭环则依赖不间断的数据访问。碎片化带来的不稳定性会同时削弱这两者的能力。

通过稳定数据层，CoreWeave 能够将利用率视为系统的一种可控属性，而非只能事后观测的结果。正是这一转变，让系统在扩展时保持高效，而非随规模增长而性能下降。

Part.6

当系统稳定协同

基础设施对用户而言变得无感

所有这些工作最有说服力的成果，并非体现在基准测试或吞吐量数值上，而是客户的使用体验 —— 在本案例中，这种体验平淡到几乎容易被忽视。

“部分客户…… 他们喜欢使用 VAST Data 产品的原因，就是根本无需刻意关注它，”Goldberg 说道。

只有底层系统足够连贯，其复杂性不会渗透到用户工作流程中时，才能实现这种体验。CoreWeave 与 VAST Data 共同打造的系统避免了这一问题，确保无论在何处、以何种方式访问，数据层表现始终一致。

只有底层组件表现具备可预测性时，统一控制平面才能抽象掉复杂性。只有数据始终按需可用时，持续闭环才能带来无缝体验。只有系统本身消除碎片化，用户视角中的碎片化才会消失。

客户感受到的简洁，正是源于精心设计的系统，该系统被设计为在通常易出现不一致性的场景下，仍能呈现一致性。

随着系统数据移动稳定性的提升，工作负载不再是一次性任务，而是基于先前结果的持续流程。数据始终可用，系统无需每次重新开始，任务能够顺畅地从一个步骤流转到下一个步骤，而不会中断。

这使得挑战发生变化，从运行模型转变为确保数据可靠地流动，因为随着系统规模扩大，一切皆取决于这种流动能否保持一致。

从 Goldberg 在 VAST FWD 分享的见解中可以看出，CoreWeave 团队之所以能成功实现规模化扩展，并非因为增加了更多算力，而是消除了系统内数据流动时的不稳定性。

她强调，数据不稳定时，一切都会崩溃；而一旦数据具备了可预测时，系统便能稳定协同。在这种规模下，性能取决于数千节点间稳定的数据流转，这也是重心转向打造足够稳定、可被系统其他部分依赖的数据层的原因。

上一篇：倒计时1天 | 容天汇海将携两款旗舰产品亮相第三届AI算力产下一篇：完成 F 轮融资 VAST Data 估值达到 300 亿

VAST FWD 2026： 以 CoreWeave 规模，数据决定一切，VAST 保驾护航

VAST FWD 2026：以 CoreWeave 规模，数据决定一切，VAST 保驾护航