新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

VAST AI OS 下一版本前瞻:大规模实时 AI 的新功能

大规模实时 AI 的新功能

图片

VAST AI OS 下一版本前瞻

前言/ INTRODUCTION

图片


超大规模向量检索、原生分析执行、集群内托管 Kubernetes 计算,以及面向现代推理工作负载的高性能数据迁移。

图片


AI 技术栈为何陷入困境,未来往哪里去?

新技术的出现并不意味着一个时代的终结,只有当塑造旧时代的前提假设不再成立时,时代才会落幕。

在过去的十年中,企业将人工智能、分析与事件驱动系统构建为相互独立的技术栈。数据存放在一处,分析运行在另一处,向量数据库另起炉灶,事件流通过其专属基础设施传输,Kubernetes 集群在各团队间分散部署。

虽然每一层都解决了实际问题,但组合在一起所形成的架构却是碎片化的。这种架构不仅成本高昂,而且在大规模应用下日益脆弱。

其核心理念很简单:专用系统能提供最佳性能。

但在实际中,这导致数据流程为维持运行,不断对数据进行复制、索引、重塑与迁移。

某一层的性能提升会在另一层引发瓶颈,治理规则也难以统一。随着系统规模扩大,面向批处理的处理模式和滞后的执行路径,往往会削弱实时性保障。

随着 AI 工作负载的需求愈发严苛、生产化程度不断提升,实时智能不再仅依赖更快的组件,而是需要一个能让数据、向量、事件与执行协同运行的统一平台。

这正是 VAST Data 打造的核心基石。

通过本版本的更新,我们在 VAST AI OS 的四大核心维度拓展了这一基石:超大规模向量检索、原生分析执行、集群内托管 Kubernetes 计算,以及面向现代推理工作负载的高性能数据迁移。

今天,我们将介绍一组平台功能,强化上述四大维度,让 AI 基础设施向统一、可直接投入生产的模式迈进。


VAST Data 超大规模向量索引介绍

VAST Data 推出的超大规模向量索引(VAST Hyperscale Vector Index),是一种全新的索引架构,突破了 VAST Data 向量存储的性能与规模上限。该索引专为万亿向量级别的实时数据摄入与检索设计,直接集成在 VAST DataBase 中,消除了工作负载增长时,现有向量系统面临的内存、分片与运维约束。

向量数据库的应用场景涵盖语义搜索、推荐、多模态检索与大规模推理。

行业普遍认为,向量检索必须在基于内存结构和分片索引的独立系统中运行。这种模式在小规模下尚能奏效,但当向量规模达百亿甚至千亿级别时就会出现问题:

  • 驻留内存的索引成本高到难以承受;

  • 分片增加了运维复杂度,并导致性能不可预测;

  • 混合检索还需整合多个系统的结果,带来延迟和治理漏洞。

这种问题在大规模视频 AI 工作负载中尤为明显:企业持续摄入视频流,为帧和文字记录生成向量嵌入,同时通过相似度匹配和元数据实时检索相关片段。

但向量嵌入很快会超出内存限制,元数据又存储在其他系统中,本应实时的流程变得不稳定。

因此,VAST Hyperscale Vector Index 采用了全新的设计思路,其核心是全新的层次化聚类技术。

VAST Data 没有采用扁平且主要驻留内存的图结构,而是将向量组织成基于距离的多层级聚类体系:

  • 顶层的粗粒度聚类代表向量空间的大范围区域;

  • 每向下一层,就将这些区域细化为粒度更细的邻域,而最近邻向量最可能存在于这些邻域中。

图片

检索遵循这一层次结构:查询在每一层仅评估有限数量的聚类,且只深入最有潜力的候选聚类。

由于遍历过程可控、分支数量受限,单次查询的成本取决于检索工作量,而非总数据量库的大小。随着数据集增长,层次深度会增加,但单次查询探索的聚类数量保持可控。结果就是:查询延迟趋于稳定,而不是随规模线性上升。

在对 10 亿个 128 维向量的基准测试中,该架构实现了约每秒 1000 次查询。

相比之下,在一款主流的、基于磁盘的开源向量数据库中,在同样的条件下,每秒仅能处理约 89 次查询,性能差距超 11 倍。

该基准测试的深度技术分析可在此(https://www.vastdata.com/blog/architecture-behind-our-11x-vector-benchmark)查看。

在相同的 8 节点集群规模下,当向量规模达到 500 亿时,这种架构优势让每 1000 次检索的成本,比同款开源向量数据库配置降低了约 91%。

该实现是深度集成的,而非额外叠加。层次结构直接嵌入 VAST DataBase 的表布局和执行模型中,向量与元数据在统一治理规则下共存。

量化的向量表示实现了高效的内存遍历,且在执行时仅读取特定查询所需的目标聚类片段。最终评分,则是基于高保真数据,在一个精简后的候选集上进行。

向量和索引结构通过 VAST DASE 架构,持久存储在 VAST DataBase 中。计算节点仅拉取必要的片段,实现并行执行返回结果,无需依赖外部向量服务或占用高内存的副本。因此,更大的命名空间也无需按比例增加 DRAM 内存池,就能满足检索需求。

由于向量与结构化、半结构化数据共存,相似度检索可与 SQL 过滤器、连接和元数据谓词实现原生结合。

在视频检索增强生成(RAG)流程中,可在单一执行路径中,既检索语义相关的片段,又同时按时间范围、摄像头 ID、地理位置或策略进行条件过滤。

这使得多模态检索成为一项核心原生能力,而不再是一项复杂的集成工作。

图片

最重要的是,这一过程不会牺牲治理能力:在数据摄入、索引和检索的全流程中,向量继承其底层数据相同的权限与访问控制策略。

至此,向量检索完成了从实验性基础设施,到超大规模实时 AI 生产底座的蜕变。


拓展 VAST Native Query Engine

Vast Native Query Engine 并非新品,今年早些时候 VAST Data 推出向量存储功能时,它就已为平台内的向量检索提供动力。

本次我们宣布的是该引擎演进的下一阶段:提供全面的 SQL 原生聚合与统计支持,将其应用场景从向量执行拓展至更广泛的分析型工作负载。

在此次新版本发布之后,该引擎新增超 50 种聚合函数,涵盖高级统计指标、分位数、相关性及完整的回归分析。

以往需要依赖外部引擎才能处理的分析型查询,现在可直接在 VAST Data 平台内执行。

行业过往的认知是,分析引擎必须部署在存储平台外部才能实现扩展,但实际中,这种分离会导致不必要的数据迁移、更高的延迟,以及架构的碎片化。

VAST Data 选择了一条不同的路径。VAST Native Query Engine 直接在平台内运行,从设计之初就充分利用了 VAST DASE 架构。

它已经作为高性能的向量执行引擎,能在单一执行路径中整合相似度检索与过滤,同时遵守数据层的治理与访问控制策略。

如今,原生 SQL 聚合与统计函数被集成到同一执行框架中,向量检索和分析处理无需将数据导出至外部系统即可运行。

分析逻辑在数据存储所在处执行,向量相似度计算、SQL 聚合与受控访问在统一执行模型内运行,而非依赖松散连接的组件。

这一特性可支撑多种工作负载:运营数据的交互式分析、结合了相似度检索与结构化指标的 AI 辅助调查,以及直接在持续摄入数据上运行的实时仪表盘(无需预聚合流程)。

分析师可在单次查询流程中关联事件、元数据与向量嵌入,无需整合多个系统的结果。


提升大型表的分析性能

高性能分析不仅取决于执行效率,还依赖数据在查询时的组织、筛选与访问效率。

为提升大规模工作负载的分析性能,VAST DataBase 为大型表推出全新分区优化机制,以减少不必要的扫描操作,并提升执行的局部性。

对于有需求的企业,VAST Data 现在支持逻辑化、SQL 原生的分区功能,这是一种声明式性能优化方式,而非分片或数据放置策略。

用户只需表达高层级需求(如按时间或类别分区),平台会在查询执行时自动应用分区筛选、连接优化或者高效删除操作。

图片

这并非传统的数据库分区:客户无需管理分片、重新平衡数据或规划节点归属,也不存在手动数据路由和运维开销,系统会透明处理所有执行细节。

在一项客户主导的案例研究中,VAST Data 的逻辑分区和排序键功能让相关工作负载的查询执行持续提速,相比基于 Iceberg 的表,总运行时间缩短约 20%。

尽管不同工作负载的效果存在差异,但这一结果表明,引擎管理的筛选和局部性优化,可在不增加运维复杂度的前提下,实现显著的分析性能提升。


从数据平台到执行平台

现代 AI 工作流程不仅是存储数据和运行查询,还需要持续执行:数据需经过摄入、分块、嵌入、增强与索引,模型需完成部署、调用、监控与更新,事件需触发实时处理。

在大多数环境中,这需要在数据平台旁额外运行独立的 Kubernetes 集群。这种分离带来了延迟、增加了成本,并造成运维阻碍,数据需在存储、向量系统与外部计算环境间反复迁移,才能维持流程运行。

通过本次更新,我们在 VAST DataEngine 中推出面向 Kubernetes 的 VAST Compute,将容器编排和无服务器执行能力直接集成到 VAST AI OS 中。

管理员可在 VAST Data 集群的指定 CNode 上部署最多 32 个物理 Kubernetes 集群,为容器化工作负载分配专用计算能力。这些集群可分配给单个租户实现严格的物理隔离,也可通过命名空间分段和强制网络策略,在多个租户之间共享以实现逻辑隔离。

图片

这些集群由 VAST Data 全权管理,平台负责配置、扩容、升级和全生命周期运维。Kubernetes 以强化版的 RKE2 发行版形式运行,并启用了 FIPS 模式。

控制平面状态自动备份,对 Kubernetes API 和指标端点的访问均通过双向 TLS 进行保护。此外,严禁将控制平面向外部暴露。

集群支持并自动检测启用 GPU 的节点,允许 AI 工作负载能在数据就近位置运行,直接高性能访问 VAST Data 的文件、对象、数据库和事件服务。

图片

在实际应用中,这让端到端 AI 数据流程可完全在 VAST Data 上运行:向量化任务、文档与视频分块、嵌入生成、推理服务都在数据就近位置执行。

在 RAG 工作流程中,嵌入向量就地生成并建立索引,检索直接作用于实时向量和元数据,推理消费结果时无需将数据导出至外部计算层。

最终形成统一的执行模型,数据、向量、事件与计算在单一系统内协同,而非依赖松耦合的基础设施分层。

未来,这些原生计算集群将成为 VAST AI OS 内更高级别托管服务的基础,包括预制数据流程、推理服务和直接在平台内运行的 AI 智能体。


为S3带来远程直接内存访问(RDMA)性能

规模化性能并非靠单一优化实现,而是源于消除无效工作的架构设计而实现。现代 AI 推理清晰印证了这一点:大语言模型依 KV Cache 保留对话上下文。

当上下文窗口扩展至百万级 token 及以上时,单次会话的 KV Cache 可能超出 GPU 内存容量限制,原本的临时数据成为持久工作集,需要在计算与存储层间高效迁移。

为应对这一变化,英伟达推出了推理上下文管理服务(ICMS),作为其 CMS/CMX 架构的一部分,部署在本地固态硬盘与传统网络存储之间。

ICMS 可将 KV Cache 数据暂存于 GPU 内存外,同时保持高速访问,但该模式要实现规模化,存储层必须成为推理数据平面的一部分。

传统基于 HTTP 的 S3 调用会带来 CPU 开销、延迟波动和尾延迟问题,无法适配高并发服务。我们正在预览基于 RDMA 的 S3 功能,这一即将上线的功能将 VAST Data 原生的 RDMA 架构拓展至对象存储,让兼容 S3 的工作负载可直接通过 RDMA 运行。

VAST Data 始终基于多协议、RDMA 原生的数据平面构建。许多客户已经通过 NFS 在 RDMA 上访问文件数据。借助基于 RDMA 上的 S3,我们将这一相同基础扩展到对象存储,无需引入新的数据路径或孤立的接口。

基于 RDMA 的数据传输被集成在现有 S3 API 中,同时保留标准 S3 语义。控制平面操作仍通过 HTTP 和 TCP 完成,对象负载直接通过 RDMA 传输。

这让英伟达 ICMS 等架构可使用兼容 S3 的存储,同时让 BlueField-4 数据处理单元(DPU)直接将 KV 数据从闪存迁移至 GPU HBM,从而绕过主机 CPU 瓶颈。

由于这是平台的传输层扩展,通过基于 RDMA 的 S3 写入的数据,可立即通过 NFS、SMB、分析引擎、向量工作流和事件驱动管道访问。已使用 RDMA 文件访问的客户,只需简单配置即可启用基于 RDMA 的 S3,立刻获得更高吞吐量和更低延迟的收益。

在事件层面,原生文件触发器将 VAST 的事件驱动自动化能力,从对象存储拓展至基于 NFS 的工作流。文件系统事件可直接触发工作流,让传统以文件为中心的环境无需重构摄入流程,就能参与实时数据处理。

这些能力印证了一个核心原则:当数据、协议与执行共享相同的基础设施时,性能会自然涌现。


实时智能的统一基础

这些新功能体现了 VAST AI OS 在设计与运维上的持续演进,共同强化了其四大核心维度:检索、分析、执行与数据迁移。

超大规模向量索引、原生分析查询执行、托管 Kubernetes 计算与高性能数据迁移协同发力,支撑实时 AI 与分析的同时,不增加额外运维复杂度。

  • 数据始终处于统一治理中;

  • 执行就近数据部署;

  • 性能随工作负载增长而同步扩展。

上述所有能力,都将作为 VAST AI OS 即将于 2026 年 3 月发布的版本功能上线。

届时,企业可利用这些新组件,构建在极致超大规模下仍保持响应快、效率高、易管理的 AI 与分析系统。


上一篇:重磅亮相 | 容天汇海闪耀2026年北京国际人工智能应用与机