新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

VAST FWD 2026: 以 CoreWeave 规模,数据决定一切,VAST 保驾护航

工作负载可在数百至数千个节点上运行,但核心关注点并非单纯的规模,而是这些节点间的协调配合。

图片

在较短的时间内,AI 基础设施巨头企业 CoreWeave 依托搭载数千片高端 GPU 的集群,迅猛打造出市场上规模最大的 AI 原生云平台。

相应地,功率密度、散热与纯数据吞吐量成为硬性约束条件。这意味着,基础设施与软件的每一项决策都必须具备面相未来的前瞻性。

CoreWeave 产品与工程执行副总裁 Chen Goldberg, 在近期举办的 VAST FWD 大会上,向全场座无虚席的观众表示,这段发展历程已不再是单纯追求规模扩张,而更多地在于巧妙地调整工作负载的预期。她的团队的集群与营收、研发周期、实时线上服务直接挂钩,哪怕最微小的低效问题,也会立刻体现在利用率与成本上。随着规模不断扩大,容错空间不断缩小,而规模却还在持续扩张。

                                                                                                                      已关注                                                                            关注                                                               重播                                                                                                                                                            观看更多


    0/0

    00:00/00:39进度条,百分之0播放00:00/00:3900:39倍速全屏


    倍速播放中 0.5倍 0.75倍 1.0倍 1.5倍 2.0倍 超清 流畅

    继续观看

    VAST FWD 2026: 以 CoreWeave 规模,数据决定一切,VAST 保驾护航

    转载,VAST FWD 2026: 以 CoreWeave 规模,数据决定一切,VAST 保驾护航容天汇海已同步到看一看


            视频详情              

    正如 Goldberg 表描述的,工作负载可在数百至数千个节点上运行,但核心关注点并非单纯的规模,而是这些节点间的协调配合。她解释道,哪怕只是其中一个组件出现故障或延迟,影响都不会局限于局部,而是会从利用率到调度产生连锁反应,最终影响整个系统的整体成本效益。

    “当 GPU 处于等待状态,系统实际已崩溃”

    谈及首要的扩展问题,许多人会认为瓶颈是算力耗尽,但 Goldberg 表示实际情况恰恰相反。

    在实际运行中,即便算力资源仍十分充足,系统性能也会开始下降,原因是 GPU 无法持续获得稳定的数据输入。这意味着瓶颈已经从任务执行的速度,转变为任务交付的可靠性。

    “如果你的 GPU 资源处于闲置状态,其代价是极其高昂的,” 她表示,闲置问题与其说是容量不足问题,更多是一种数据协同上的失误。更具体地说,这是一种数据传输失败的问题。

    以 CoreWeave 的规模,每一次请求都依赖于数据的及时获取、节点间可预测的数据流转,以及无延迟尖峰的数据复用与缓存能力。一旦这些条件无法满足,系统不会整体均匀减速,而是趋于出现碎片化现象。这意味着部分节点会出现停滞,而其他节点却继续运行,进而导致调度器效率下降,资源利用率也以一种迅速累积的方式断崖下降,这在数千个 GPU 组成的集群中尤为明显。

    正如 Goldberg 所描述的,通过 CoreWeave 的发展历程可以看出,核心制约因素在于系统能否保持以足够一致的方式,持续地传输数据,从而为编排层做出可靠决策提供支持。一旦这一环节失效,增加更多 GPU 也无法恢复性能,反而会加剧效率低下问题。

    Part.1

    系统是循环,而非模型本身

    CoreWeave 在运营中面临的转变,与 VAST Data 创始人兼 CEO Renen Hallak 从架构层面阐述的观点一致,他在 VAST FWD 主题演讲中也深入探讨了这一话题。

    业界一直专注于模型与训练上,仿佛这就是系统的核心所在。这种做法在工作负载简单且自成一体的时候尚能奏效,但一旦负载持续运行并依赖与不断变化的实时上下文,这套逻辑便不再适用。然而,模型只是数据接入、转换、检索、推理与执行闭环中的一个组成部分,一旦以这种全局视角看待整个系统,Goldberg 提出的那些问题便更易理解。

    当每一步都依赖于数据时,数据访问与移动方式的不一致,就会演变为系统性问题。此时性能瓶颈不再是模型速度,而取决于整个系统能否在数据形态调整行为的配合下,实现无间断运行。

    CoreWeave 的经验表明 ,在算力尚未耗尽以前,协调失误往往就已经开始显现——正是这一现实的直接体现。

    在 VAST FWD 主题演讲中,VAST Data 联合创始人 Jeff Denworth 指出,持续式系统无法建立在碎片化基础设施之上,在这种架构中,任务根本无法形成长期携带上下文的协同流程。

    在碎片化环境中,每一层都会带来自身的不稳定性。存储的表现方式与网络截然不同,编排层基于局部可见的信息进行决策,系统只能通过重试、缓冲与过度配置来加以弥补。在小规模下,这些低效问题尚能够被消化吸收;但在 CoreWeave 这样的大规模下,单个工作负载横跨数千节点,问题会累积成系统性的不稳定。

    延迟变得不稳定,数据乱序到达或延迟到达,从而失去实际意义,调度决策质量下降,因为系统无法依赖稳定的性能预期。

    因此,若 AI 基础设施要以连续循环的方式运行,底层架构就必须作为统一的系统进行运作。其中数据访问、移动与执行必须高度协同一致,确保系统能够无间断地持续推进。

    Part.2

    系统不再掩盖自身短板

    CoreWeave 在 VAST FWD 上的分享表明,(抛开对大型集群和迅猛增长的表面描述),规模并非一个数字,它是系统在压力下行为方式的一种转变。

    Goldberg 向观众表示:“基础设施的创新步伐并未落后于新模型、新开发工具,我们始终紧跟前沿”。她认为基础设施必须同步演进,因为如今整个系统对这一层面的每一处低效都极为敏感。基础设施之所以变得不容忽视,正是因为系统无法继续无代价地掩盖这种不稳定性。

    随着 CoreWeave 服务的客户越来越多、工作负载类型日益多样,系统需要管理的远不止算力本身。它必须确保成千上万个动态组件始终稳定地运行,即便每个组件的表现略有差异。此时面临的挑战不再只是规模的扩大与扩展,而是如何保持在大规模增长的同时保持稳定——而这取决于数据层是否具备足够可预测性,让其他组件都能够可靠地依赖它。

    Part.3

    从分层架构到统一系统:

    重构全栈管控能力

    Goldberg 表示,当规模暴露出不稳定性才是核心问题时,那么架构优化就不能再是零敲碎打式的。

    CoreWeave 的解决方案是,不再将基础设施视为独立分层,而是将其重构为具备统一可观测性与管控能力的协同系统。这也是他们的系统设计,与传统云服务商最显著的区别:传统架构通常将算力、存储与网络进行扁平化的分离,依靠分层抽象应对复杂性。

    与其将云视为相互隔离的多个不同层级,Goldberg 表示,不如说是一个系统。在他们构想的这个系统中,调度、部署与恢复决策,都是基于对数据、计算和网络状况实时交互的全面了解而做出的。在这种理念下,编排层并非将任务分发至一个个黑盒,而是真正协调着一个单一的系统。在该系统中,所有组件都表现稳定,可信赖它们能够地协同工作。

    这正是两位 VAST Data 创始人所阐述的理念。若系统是一个持续的闭环,控制平面就必须贯穿整个闭环,而非局限于其中的孤立片段。CoreWeave 缩短了分层间的隔阂,使系统能在不稳定性扩散前做出响应。正如 Chen 所述,在其运营规模下这一点至关重要,因为一旦协同失效,故障不会局限于局部,而是蔓延至整个工作负载。

    Part.4

    以 CoreWeave 规模,为 GPU 供给数据

    为单块 GPU 供给数据轻而易举;而为数千片 GPU 供给数据,每片 GPU 运行的工作负载都有不同的上下文大小、访问模式与时序要求,才是真正的考验。

    对 Goldberg 及其团队而言,数据必须在正确的时间、正确的位置、以匹配硬件能力的吞吐量到达,且稳定性足以让调度器在任务部署时信赖这一状态。

    该链条中的任意环节如果出现不稳定状态,都会直接导致算力闲置、流程停滞、集群整体利用率下降。只有底层数据层表现可预测,CoreWeave 的统一控制平面才能做出有效决策。正是在这一点上,VAST Data 从技术栈中的一个组件,转变为系统正常运行的必要条件。

    “如果把 GPU 比作引擎,我们就可以把存储视为高速公路系统…… 一旦出现拥堵,一切都无法运转,”Goldberg 向观众表示。她还补充道,在这种规模下,数据拥堵是决定系统表现的核心因素。

    值得注意的是,她并未将 VAST Data 归为普通存储产品。“它不是需要你刻意关注的组件…… 而是 AI 基础设施的一部分,” 她说道。

    对 CoreWeave 而言,数据层必须在数千个节点上、针对不同工作负载、持续变化的调度与部署中保持性能稳定。若无此稳定性,编排层将无法做出可靠决策,整个系统会因自身不稳定性而逐渐崩溃。

    在此场景下,VAST Data 实现的价值远不止更高吞吐量(尽管这一点也是必需的)。它实现了数据访问与迁移的一致性,使系统其他部分能以更少的不确定性运行。正是这种高度的一致性,让 CoreWeave 能够在扩展时,避免 Jeff Denworth 此前所述的碎片化问题的提前下实现规模化扩展。它确保在增加更多 GPU、工作负载与客户加入时,数据层不会成为系统表现分化的源头。

    Part.5

    效率源于数据一致性

    Goldberg 表示,一旦数据层的行为变得可预测,其效果就会清晰地体现在利用率上。“我们以高利用率为优化目标,功耗、散热、网络、存储,所有因素都关乎效率。”对其团队而言,利用率高意味着系统协同有序;若利用率下降,则说明分层间的协同出现了问题。

    对 Goldberg 及其团队而言,对利用率的定义更为宽泛。它不仅指 GPU 的繁忙程度,更反映系统能否无间断持续推进任务。

    当数据稳定供给时,系统可保持整体流畅运行,并合理决策任务运行位置。而一旦数据出现异常,各环节便会失去同步:部分节点闲置,其他节点超负荷运行,队列失衡,系统因无法依赖稳定表现而效率下降。

    统一控制平面依赖可预测的输入做出有效决策。持续闭环则依赖不间断的数据访问。碎片化带来的不稳定性会同时削弱这两者的能力。

    通过稳定数据层,CoreWeave 能够将利用率视为系统的一种可控属性,而非只能事后观测的结果。正是这一转变,让系统在扩展时保持高效,而非随规模增长而性能下降。

    Part.6

    当系统稳定协同

    基础设施对用户而言变得无感

    所有这些工作最有说服力的成果,并非体现在基准测试或吞吐量数值上,而是客户的使用体验 —— 在本案例中,这种体验平淡到几乎容易被忽视。

    “部分客户…… 他们喜欢使用 VAST Data 产品的原因,就是根本无需刻意关注它,”Goldberg 说道。

    只有底层系统足够连贯,其复杂性不会渗透到用户工作流程中时,才能实现这种体验。CoreWeave 与 VAST Data 共同打造的系统避免了这一问题,确保无论在何处、以何种方式访问,数据层表现始终一致。

    只有底层组件表现具备可预测性时,统一控制平面才能抽象掉复杂性。只有数据始终按需可用时,持续闭环才能带来无缝体验。只有系统本身消除碎片化,用户视角中的碎片化才会消失。

    客户感受到的简洁,正是源于精心设计的系统,该系统被设计为在通常易出现不一致性的场景下,仍能呈现一致性。

    随着系统数据移动稳定性的提升,工作负载不再是一次性任务,而是基于先前结果的持续流程。数据始终可用,系统无需每次重新开始,任务能够顺畅地从一个步骤流转到下一个步骤,而不会中断。

    这使得挑战发生变化,从运行模型转变为确保数据可靠地流动,因为随着系统规模扩大,一切皆取决于这种流动能否保持一致。

    从 Goldberg 在 VAST FWD 分享的见解中可以看出,CoreWeave 团队之所以能成功实现规模化扩展,并非因为增加了更多算力,而是消除了系统内数据流动时的不稳定性。

    她强调,数据不稳定时,一切都会崩溃;而一旦数据具备了可预测时,系统便能稳定协同。在这种规模下,性能取决于数千节点间稳定的数据流转,这也是重心转向打造足够稳定、可被系统其他部分依赖的数据层的原因。


    上一篇:倒计时1天 | 容天汇海将携两款旗舰产品亮相第三届AI算力产