VAST AI OS 下一版本前瞻：大规模实时 AI 的新功能

大规模实时 AI 的新功能

VAST AI OS 下一版本前瞻

前言/ INTRODUCTION

超大规模向量检索、原生分析执行、集群内托管 Kubernetes 计算，以及面向现代推理工作负载的高性能数据迁移。

AI 技术栈为何陷入困境，未来往哪里去？

新技术的出现并不意味着一个时代的终结，只有当塑造旧时代的前提假设不再成立时，时代才会落幕。

在过去的十年中，企业将人工智能、分析与事件驱动系统构建为相互独立的技术栈。数据存放在一处，分析运行在另一处，向量数据库另起炉灶，事件流通过其专属基础设施传输，Kubernetes 集群在各团队间分散部署。

虽然每一层都解决了实际问题，但组合在一起所形成的架构却是碎片化的。这种架构不仅成本高昂，而且在大规模应用下日益脆弱。

其核心理念很简单：专用系统能提供最佳性能。

但在实际中，这导致数据流程为维持运行，不断对数据进行复制、索引、重塑与迁移。

某一层的性能提升会在另一层引发瓶颈，治理规则也难以统一。随着系统规模扩大，面向批处理的处理模式和滞后的执行路径，往往会削弱实时性保障。

随着 AI 工作负载的需求愈发严苛、生产化程度不断提升，实时智能不再仅依赖更快的组件，而是需要一个能让数据、向量、事件与执行协同运行的统一平台。

这正是 VAST Data 打造的核心基石。

通过本版本的更新，我们在 VAST AI OS 的四大核心维度拓展了这一基石：超大规模向量检索、原生分析执行、集群内托管 Kubernetes 计算，以及面向现代推理工作负载的高性能数据迁移。

今天，我们将介绍一组平台功能，强化上述四大维度，让 AI 基础设施向统一、可直接投入生产的模式迈进。

VAST Data 超大规模向量索引介绍

VAST Data 推出的超大规模向量索引（VAST Hyperscale Vector Index），是一种全新的索引架构，突破了 VAST Data 向量存储的性能与规模上限。该索引专为万亿向量级别的实时数据摄入与检索设计，直接集成在 VAST DataBase 中，消除了工作负载增长时，现有向量系统面临的内存、分片与运维约束。

向量数据库的应用场景涵盖语义搜索、推荐、多模态检索与大规模推理。

行业普遍认为，向量检索必须在基于内存结构和分片索引的独立系统中运行。这种模式在小规模下尚能奏效，但当向量规模达百亿甚至千亿级别时就会出现问题：

驻留内存的索引成本高到难以承受；
分片增加了运维复杂度，并导致性能不可预测；
混合检索还需整合多个系统的结果，带来延迟和治理漏洞。

这种问题在大规模视频 AI 工作负载中尤为明显：企业持续摄入视频流，为帧和文字记录生成向量嵌入，同时通过相似度匹配和元数据实时检索相关片段。

但向量嵌入很快会超出内存限制，元数据又存储在其他系统中，本应实时的流程变得不稳定。

因此，VAST Hyperscale Vector Index 采用了全新的设计思路，其核心是全新的层次化聚类技术。

VAST Data 没有采用扁平且主要驻留内存的图结构，而是将向量组织成基于距离的多层级聚类体系：

顶层的粗粒度聚类代表向量空间的大范围区域；
每向下一层，就将这些区域细化为粒度更细的邻域，而最近邻向量最可能存在于这些邻域中。

检索遵循这一层次结构：查询在每一层仅评估有限数量的聚类，且只深入最有潜力的候选聚类。

由于遍历过程可控、分支数量受限，单次查询的成本取决于检索工作量，而非总数据量库的大小。随着数据集增长，层次深度会增加，但单次查询探索的聚类数量保持可控。结果就是：查询延迟趋于稳定，而不是随规模线性上升。

在对 10 亿个 128 维向量的基准测试中，该架构实现了约每秒 1000 次查询。

相比之下，在一款主流的、基于磁盘的开源向量数据库中，在同样的条件下，每秒仅能处理约 89 次查询，性能差距超 11 倍。

该基准测试的深度技术分析可在此（https://www.vastdata.com/blog/architecture-behind-our-11x-vector-benchmark）查看。

在相同的 8 节点集群规模下，当向量规模达到 500 亿时，这种架构优势让每 1000 次检索的成本，比同款开源向量数据库配置降低了约 91%。

该实现是深度集成的，而非额外叠加。层次结构直接嵌入 VAST DataBase 的表布局和执行模型中，向量与元数据在统一治理规则下共存。

量化的向量表示实现了高效的内存遍历，且在执行时仅读取特定查询所需的目标聚类片段。最终评分，则是基于高保真数据，在一个精简后的候选集上进行。

向量和索引结构通过 VAST DASE 架构，持久存储在 VAST DataBase 中。计算节点仅拉取必要的片段，实现并行执行返回结果，无需依赖外部向量服务或占用高内存的副本。因此，更大的命名空间也无需按比例增加 DRAM 内存池，就能满足检索需求。

由于向量与结构化、半结构化数据共存，相似度检索可与 SQL 过滤器、连接和元数据谓词实现原生结合。

在视频检索增强生成（RAG）流程中，可在单一执行路径中，既检索语义相关的片段，又同时按时间范围、摄像头 ID、地理位置或策略进行条件过滤。

这使得多模态检索成为一项核心原生能力，而不再是一项复杂的集成工作。

最重要的是，这一过程不会牺牲治理能力：在数据摄入、索引和检索的全流程中，向量继承其底层数据相同的权限与访问控制策略。

至此，向量检索完成了从实验性基础设施，到超大规模实时 AI 生产底座的蜕变。

拓展 VAST Native Query Engine

Vast Native Query Engine 并非新品，今年早些时候 VAST Data 推出向量存储功能时，它就已为平台内的向量检索提供动力。

本次我们宣布的是该引擎演进的下一阶段：提供全面的 SQL 原生聚合与统计支持，将其应用场景从向量执行拓展至更广泛的分析型工作负载。

在此次新版本发布之后，该引擎新增超 50 种聚合函数，涵盖高级统计指标、分位数、相关性及完整的回归分析。

以往需要依赖外部引擎才能处理的分析型查询，现在可直接在 VAST Data 平台内执行。

行业过往的认知是，分析引擎必须部署在存储平台外部才能实现扩展，但实际中，这种分离会导致不必要的数据迁移、更高的延迟，以及架构的碎片化。

VAST Data 选择了一条不同的路径。VAST Native Query Engine 直接在平台内运行，从设计之初就充分利用了 VAST DASE 架构。

它已经作为高性能的向量执行引擎，能在单一执行路径中整合相似度检索与过滤，同时遵守数据层的治理与访问控制策略。

如今，原生 SQL 聚合与统计函数被集成到同一执行框架中，向量检索和分析处理无需将数据导出至外部系统即可运行。

分析逻辑在数据存储所在处执行，向量相似度计算、SQL 聚合与受控访问在统一执行模型内运行，而非依赖松散连接的组件。

这一特性可支撑多种工作负载：运营数据的交互式分析、结合了相似度检索与结构化指标的 AI 辅助调查，以及直接在持续摄入数据上运行的实时仪表盘（无需预聚合流程）。

分析师可在单次查询流程中关联事件、元数据与向量嵌入，无需整合多个系统的结果。

提升大型表的分析性能

高性能分析不仅取决于执行效率，还依赖数据在查询时的组织、筛选与访问效率。

为提升大规模工作负载的分析性能，VAST DataBase 为大型表推出全新分区优化机制，以减少不必要的扫描操作，并提升执行的局部性。

对于有需求的企业，VAST Data 现在支持逻辑化、SQL 原生的分区功能，这是一种声明式性能优化方式，而非分片或数据放置策略。

用户只需表达高层级需求（如按时间或类别分区），平台会在查询执行时自动应用分区筛选、连接优化或者高效删除操作。

这并非传统的数据库分区：客户无需管理分片、重新平衡数据或规划节点归属，也不存在手动数据路由和运维开销，系统会透明处理所有执行细节。

在一项客户主导的案例研究中，VAST Data 的逻辑分区和排序键功能让相关工作负载的查询执行持续提速，相比基于 Iceberg 的表，总运行时间缩短约 20%。

尽管不同工作负载的效果存在差异，但这一结果表明，引擎管理的筛选和局部性优化，可在不增加运维复杂度的前提下，实现显著的分析性能提升。

从数据平台到执行平台

现代 AI 工作流程不仅是存储数据和运行查询，还需要持续执行：数据需经过摄入、分块、嵌入、增强与索引，模型需完成部署、调用、监控与更新，事件需触发实时处理。

在大多数环境中，这需要在数据平台旁额外运行独立的 Kubernetes 集群。这种分离带来了延迟、增加了成本，并造成运维阻碍，数据需在存储、向量系统与外部计算环境间反复迁移，才能维持流程运行。

通过本次更新，我们在 VAST DataEngine 中推出面向 Kubernetes 的 VAST Compute，将容器编排和无服务器执行能力直接集成到 VAST AI OS 中。

管理员可在 VAST Data 集群的指定 CNode 上部署最多 32 个物理 Kubernetes 集群，为容器化工作负载分配专用计算能力。这些集群可分配给单个租户实现严格的物理隔离，也可通过命名空间分段和强制网络策略，在多个租户之间共享以实现逻辑隔离。

这些集群由 VAST Data 全权管理，平台负责配置、扩容、升级和全生命周期运维。Kubernetes 以强化版的 RKE2 发行版形式运行，并启用了 FIPS 模式。

控制平面状态自动备份，对 Kubernetes API 和指标端点的访问均通过双向 TLS 进行保护。此外，严禁将控制平面向外部暴露。

集群支持并自动检测启用 GPU 的节点，允许 AI 工作负载能在数据就近位置运行，直接高性能访问 VAST Data 的文件、对象、数据库和事件服务。

在实际应用中，这让端到端 AI 数据流程可完全在 VAST Data 上运行：向量化任务、文档与视频分块、嵌入生成、推理服务都在数据就近位置执行。

在 RAG 工作流程中，嵌入向量就地生成并建立索引，检索直接作用于实时向量和元数据，推理消费结果时无需将数据导出至外部计算层。

最终形成统一的执行模型，数据、向量、事件与计算在单一系统内协同，而非依赖松耦合的基础设施分层。

未来，这些原生计算集群将成为 VAST AI OS 内更高级别托管服务的基础，包括预制数据流程、推理服务和直接在平台内运行的 AI 智能体。

为S3带来远程直接内存访问（RDMA）性能

规模化性能并非靠单一优化实现，而是源于消除无效工作的架构设计而实现。现代 AI 推理清晰印证了这一点：大语言模型依 KV Cache 保留对话上下文。

当上下文窗口扩展至百万级 token 及以上时，单次会话的 KV Cache 可能超出 GPU 内存容量限制，原本的临时数据成为持久工作集，需要在计算与存储层间高效迁移。

为应对这一变化，英伟达推出了推理上下文管理服务（ICMS），作为其 CMS/CMX 架构的一部分，部署在本地固态硬盘与传统网络存储之间。

ICMS 可将 KV Cache 数据暂存于 GPU 内存外，同时保持高速访问，但该模式要实现规模化，存储层必须成为推理数据平面的一部分。

传统基于 HTTP 的 S3 调用会带来 CPU 开销、延迟波动和尾延迟问题，无法适配高并发服务。我们正在预览基于 RDMA 的 S3 功能，这一即将上线的功能将 VAST Data 原生的 RDMA 架构拓展至对象存储，让兼容 S3 的工作负载可直接通过 RDMA 运行。

VAST Data 始终基于多协议、RDMA 原生的数据平面构建。许多客户已经通过 NFS 在 RDMA 上访问文件数据。借助基于 RDMA 上的 S3，我们将这一相同基础扩展到对象存储，无需引入新的数据路径或孤立的接口。

基于 RDMA 的数据传输被集成在现有 S3 API 中，同时保留标准 S3 语义。控制平面操作仍通过 HTTP 和 TCP 完成，对象负载直接通过 RDMA 传输。

这让英伟达 ICMS 等架构可使用兼容 S3 的存储，同时让 BlueField-4 数据处理单元（DPU）直接将 KV 数据从闪存迁移至 GPU HBM，从而绕过主机 CPU 瓶颈。

由于这是平台的传输层扩展，通过基于 RDMA 的 S3 写入的数据，可立即通过 NFS、SMB、分析引擎、向量工作流和事件驱动管道访问。已使用 RDMA 文件访问的客户，只需简单配置即可启用基于 RDMA 的 S3，立刻获得更高吞吐量和更低延迟的收益。

在事件层面，原生文件触发器将 VAST 的事件驱动自动化能力，从对象存储拓展至基于 NFS 的工作流。文件系统事件可直接触发工作流，让传统以文件为中心的环境无需重构摄入流程，就能参与实时数据处理。

这些能力印证了一个核心原则：当数据、协议与执行共享相同的基础设施时，性能会自然涌现。

实时智能的统一基础

这些新功能体现了 VAST AI OS 在设计与运维上的持续演进，共同强化了其四大核心维度：检索、分析、执行与数据迁移。

超大规模向量索引、原生分析查询执行、托管 Kubernetes 计算与高性能数据迁移协同发力，支撑实时 AI 与分析的同时，不增加额外运维复杂度。

数据始终处于统一治理中；
执行就近数据部署；
性能随工作负载增长而同步扩展。

上述所有能力，都将作为 VAST AI OS 即将于 2026 年 3 月发布的版本功能上线。

届时，企业可利用这些新组件，构建在极致超大规模下仍保持响应快、效率高、易管理的 AI 与分析系统。

上一篇：重磅亮相 | 容天汇海闪耀2026年北京国际人工智能应用与机下一篇：算力领航，赋能千行百业 | 容天汇海邀您共赴2026深圳AI