大规模实时 AI 的新功能
VAST AI OS 下一版本前瞻
前言/ INTRODUCTION
超大规模向量检索、原生分析执行、集群内托管 Kubernetes 计算,以及面向现代推理工作负载的高性能数据迁移。
AI 技术栈为何陷入困境,未来往哪里去? 新技术的出现并不意味着一个时代的终结,只有当塑造旧时代的前提假设不再成立时,时代才会落幕。 在过去的十年中,企业将人工智能、分析与事件驱动系统构建为相互独立的技术栈。数据存放在一处,分析运行在另一处,向量数据库另起炉灶,事件流通过其专属基础设施传输,Kubernetes 集群在各团队间分散部署。 虽然每一层都解决了实际问题,但组合在一起所形成的架构却是碎片化的。这种架构不仅成本高昂,而且在大规模应用下日益脆弱。 其核心理念很简单:专用系统能提供最佳性能。 但在实际中,这导致数据流程为维持运行,不断对数据进行复制、索引、重塑与迁移。 某一层的性能提升会在另一层引发瓶颈,治理规则也难以统一。随着系统规模扩大,面向批处理的处理模式和滞后的执行路径,往往会削弱实时性保障。 随着 AI 工作负载的需求愈发严苛、生产化程度不断提升,实时智能不再仅依赖更快的组件,而是需要一个能让数据、向量、事件与执行协同运行的统一平台。 这正是 VAST Data 打造的核心基石。 通过本版本的更新,我们在 VAST AI OS 的四大核心维度拓展了这一基石:超大规模向量检索、原生分析执行、集群内托管 Kubernetes 计算,以及面向现代推理工作负载的高性能数据迁移。 今天,我们将介绍一组平台功能,强化上述四大维度,让 AI 基础设施向统一、可直接投入生产的模式迈进。 VAST Data 超大规模向量索引介绍 VAST Data 推出的超大规模向量索引(VAST Hyperscale Vector Index),是一种全新的索引架构,突破了 VAST Data 向量存储的性能与规模上限。该索引专为万亿向量级别的实时数据摄入与检索设计,直接集成在 VAST DataBase 中,消除了工作负载增长时,现有向量系统面临的内存、分片与运维约束。 向量数据库的应用场景涵盖语义搜索、推荐、多模态检索与大规模推理。 行业普遍认为,向量检索必须在基于内存结构和分片索引的独立系统中运行。这种模式在小规模下尚能奏效,但当向量规模达百亿甚至千亿级别时就会出现问题: 驻留内存的索引成本高到难以承受; 分片增加了运维复杂度,并导致性能不可预测; 混合检索还需整合多个系统的结果,带来延迟和治理漏洞。 这种问题在大规模视频 AI 工作负载中尤为明显:企业持续摄入视频流,为帧和文字记录生成向量嵌入,同时通过相似度匹配和元数据实时检索相关片段。 但向量嵌入很快会超出内存限制,元数据又存储在其他系统中,本应实时的流程变得不稳定。 因此,VAST Hyperscale Vector Index 采用了全新的设计思路,其核心是全新的层次化聚类技术。 VAST Data 没有采用扁平且主要驻留内存的图结构,而是将向量组织成基于距离的多层级聚类体系: 顶层的粗粒度聚类代表向量空间的大范围区域; 每向下一层,就将这些区域细化为粒度更细的邻域,而最近邻向量最可能存在于这些邻域中。 检索遵循这一层次结构:查询在每一层仅评估有限数量的聚类,且只深入最有潜力的候选聚类。 由于遍历过程可控、分支数量受限,单次查询的成本取决于检索工作量,而非总数据量库的大小。随着数据集增长,层次深度会增加,但单次查询探索的聚类数量保持可控。结果就是:查询延迟趋于稳定,而不是随规模线性上升。 在对 10 亿个 128 维向量的基准测试中,该架构实现了约每秒 1000 次查询。 相比之下,在一款主流的、基于磁盘的开源向量数据库中,在同样的条件下,每秒仅能处理约 89 次查询,性能差距超 11 倍。 该基准测试的深度技术分析可在此(https://www.vastdata.com/blog/architecture-behind-our-11x-vector-benchmark)查看。 在相同的 8 节点集群规模下,当向量规模达到 500 亿时,这种架构优势让每 1000 次检索的成本,比同款开源向量数据库配置降低了约 91%。 该实现是深度集成的,而非额外叠加。层次结构直接嵌入 VAST DataBase 的表布局和执行模型中,向量与元数据在统一治理规则下共存。 量化的向量表示实现了高效的内存遍历,且在执行时仅读取特定查询所需的目标聚类片段。最终评分,则是基于高保真数据,在一个精简后的候选集上进行。 向量和索引结构通过 VAST DASE 架构,持久存储在 VAST DataBase 中。计算节点仅拉取必要的片段,实现并行执行返回结果,无需依赖外部向量服务或占用高内存的副本。因此,更大的命名空间也无需按比例增加 DRAM 内存池,就能满足检索需求。 由于向量与结构化、半结构化数据共存,相似度检索可与 SQL 过滤器、连接和元数据谓词实现原生结合。 在视频检索增强生成(RAG)流程中,可在单一执行路径中,既检索语义相关的片段,又同时按时间范围、摄像头 ID、地理位置或策略进行条件过滤。 这使得多模态检索成为一项核心原生能力,而不再是一项复杂的集成工作。 最重要的是,这一过程不会牺牲治理能力:在数据摄入、索引和检索的全流程中,向量继承其底层数据相同的权限与访问控制策略。 至此,向量检索完成了从实验性基础设施,到超大规模实时 AI 生产底座的蜕变。 拓展 VAST Native Query Engine Vast Native Query Engine 并非新品,今年早些时候 VAST Data 推出向量存储功能时,它就已为平台内的向量检索提供动力。 本次我们宣布的是该引擎演进的下一阶段:提供全面的 SQL 原生聚合与统计支持,将其应用场景从向量执行拓展至更广泛的分析型工作负载。 在此次新版本发布之后,该引擎新增超 50 种聚合函数,涵盖高级统计指标、分位数、相关性及完整的回归分析。 以往需要依赖外部引擎才能处理的分析型查询,现在可直接在 VAST Data 平台内执行。 行业过往的认知是,分析引擎必须部署在存储平台外部才能实现扩展,但实际中,这种分离会导致不必要的数据迁移、更高的延迟,以及架构的碎片化。 VAST Data 选择了一条不同的路径。VAST Native Query Engine 直接在平台内运行,从设计之初就充分利用了 VAST DASE 架构。 它已经作为高性能的向量执行引擎,能在单一执行路径中整合相似度检索与过滤,同时遵守数据层的治理与访问控制策略。 如今,原生 SQL 聚合与统计函数被集成到同一执行框架中,向量检索和分析处理无需将数据导出至外部系统即可运行。 分析逻辑在数据存储所在处执行,向量相似度计算、SQL 聚合与受控访问在统一执行模型内运行,而非依赖松散连接的组件。 这一特性可支撑多种工作负载:运营数据的交互式分析、结合了相似度检索与结构化指标的 AI 辅助调查,以及直接在持续摄入数据上运行的实时仪表盘(无需预聚合流程)。 分析师可在单次查询流程中关联事件、元数据与向量嵌入,无需整合多个系统的结果。 提升大型表的分析性能 高性能分析不仅取决于执行效率,还依赖数据在查询时的组织、筛选与访问效率。 为提升大规模工作负载的分析性能,VAST DataBase 为大型表推出全新分区优化机制,以减少不必要的扫描操作,并提升执行的局部性。 对于有需求的企业,VAST Data 现在支持逻辑化、SQL 原生的分区功能,这是一种声明式性能优化方式,而非分片或数据放置策略。 用户只需表达高层级需求(如按时间或类别分区),平台会在查询执行时自动应用分区筛选、连接优化或者高效删除操作。 这并非传统的数据库分区:客户无需管理分片、重新平衡数据或规划节点归属,也不存在手动数据路由和运维开销,系统会透明处理所有执行细节。 在一项客户主导的案例研究中,VAST Data 的逻辑分区和排序键功能让相关工作负载的查询执行持续提速,相比基于 Iceberg 的表,总运行时间缩短约 20%。 尽管不同工作负载的效果存在差异,但这一结果表明,引擎管理的筛选和局部性优化,可在不增加运维复杂度的前提下,实现显著的分析性能提升。 从数据平台到执行平台 现代 AI 工作流程不仅是存储数据和运行查询,还需要持续执行:数据需经过摄入、分块、嵌入、增强与索引,模型需完成部署、调用、监控与更新,事件需触发实时处理。 在大多数环境中,这需要在数据平台旁额外运行独立的 Kubernetes 集群。这种分离带来了延迟、增加了成本,并造成运维阻碍,数据需在存储、向量系统与外部计算环境间反复迁移,才能维持流程运行。 通过本次更新,我们在 VAST DataEngine 中推出面向 Kubernetes 的 VAST Compute,将容器编排和无服务器执行能力直接集成到 VAST AI OS 中。 管理员可在 VAST Data 集群的指定 CNode 上部署最多 32 个物理 Kubernetes 集群,为容器化工作负载分配专用计算能力。这些集群可分配给单个租户实现严格的物理隔离,也可通过命名空间分段和强制网络策略,在多个租户之间共享以实现逻辑隔离。 这些集群由 VAST Data 全权管理,平台负责配置、扩容、升级和全生命周期运维。Kubernetes 以强化版的 RKE2 发行版形式运行,并启用了 FIPS 模式。 控制平面状态自动备份,对 Kubernetes API 和指标端点的访问均通过双向 TLS 进行保护。此外,严禁将控制平面向外部暴露。 集群支持并自动检测启用 GPU 的节点,允许 AI 工作负载能在数据就近位置运行,直接高性能访问 VAST Data 的文件、对象、数据库和事件服务。 在实际应用中,这让端到端 AI 数据流程可完全在 VAST Data 上运行:向量化任务、文档与视频分块、嵌入生成、推理服务都在数据就近位置执行。 在 RAG 工作流程中,嵌入向量就地生成并建立索引,检索直接作用于实时向量和元数据,推理消费结果时无需将数据导出至外部计算层。 最终形成统一的执行模型,数据、向量、事件与计算在单一系统内协同,而非依赖松耦合的基础设施分层。 未来,这些原生计算集群将成为 VAST AI OS 内更高级别托管服务的基础,包括预制数据流程、推理服务和直接在平台内运行的 AI 智能体。 为S3带来远程直接内存访问(RDMA)性能 规模化性能并非靠单一优化实现,而是源于消除无效工作的架构设计而实现。现代 AI 推理清晰印证了这一点:大语言模型依 KV Cache 保留对话上下文。 当上下文窗口扩展至百万级 token 及以上时,单次会话的 KV Cache 可能超出 GPU 内存容量限制,原本的临时数据成为持久工作集,需要在计算与存储层间高效迁移。 为应对这一变化,英伟达推出了推理上下文管理服务(ICMS),作为其 CMS/CMX 架构的一部分,部署在本地固态硬盘与传统网络存储之间。 ICMS 可将 KV Cache 数据暂存于 GPU 内存外,同时保持高速访问,但该模式要实现规模化,存储层必须成为推理数据平面的一部分。 传统基于 HTTP 的 S3 调用会带来 CPU 开销、延迟波动和尾延迟问题,无法适配高并发服务。我们正在预览基于 RDMA 的 S3 功能,这一即将上线的功能将 VAST Data 原生的 RDMA 架构拓展至对象存储,让兼容 S3 的工作负载可直接通过 RDMA 运行。 VAST Data 始终基于多协议、RDMA 原生的数据平面构建。许多客户已经通过 NFS 在 RDMA 上访问文件数据。借助基于 RDMA 上的 S3,我们将这一相同基础扩展到对象存储,无需引入新的数据路径或孤立的接口。 基于 RDMA 的数据传输被集成在现有 S3 API 中,同时保留标准 S3 语义。控制平面操作仍通过 HTTP 和 TCP 完成,对象负载直接通过 RDMA 传输。 这让英伟达 ICMS 等架构可使用兼容 S3 的存储,同时让 BlueField-4 数据处理单元(DPU)直接将 KV 数据从闪存迁移至 GPU HBM,从而绕过主机 CPU 瓶颈。 由于这是平台的传输层扩展,通过基于 RDMA 的 S3 写入的数据,可立即通过 NFS、SMB、分析引擎、向量工作流和事件驱动管道访问。已使用 RDMA 文件访问的客户,只需简单配置即可启用基于 RDMA 的 S3,立刻获得更高吞吐量和更低延迟的收益。 在事件层面,原生文件触发器将 VAST 的事件驱动自动化能力,从对象存储拓展至基于 NFS 的工作流。文件系统事件可直接触发工作流,让传统以文件为中心的环境无需重构摄入流程,就能参与实时数据处理。 这些能力印证了一个核心原则:当数据、协议与执行共享相同的基础设施时,性能会自然涌现。 实时智能的统一基础 这些新功能体现了 VAST AI OS 在设计与运维上的持续演进,共同强化了其四大核心维度:检索、分析、执行与数据迁移。 超大规模向量索引、原生分析查询执行、托管 Kubernetes 计算与高性能数据迁移协同发力,支撑实时 AI 与分析的同时,不增加额外运维复杂度。 数据始终处于统一治理中; 执行就近数据部署; 性能随工作负载增长而同步扩展。 上述所有能力,都将作为 VAST AI OS 即将于 2026 年 3 月发布的版本功能上线。 届时,企业可利用这些新组件,构建在极致超大规模下仍保持响应快、效率高、易管理的 AI 与分析系统。