AI 基础设施的讨论风向正在转变。过去几年,最核心的问题一直是:存储能跟上训练的速度吗?持续吞吐量、检查点写入速度、海量元数据管理——存储层的任务就是为 GPU 集群持续供料,避免成为瓶颈,DDN 打造的 Infinia 解决了这一问题。如今,在全球一些大规模 AI 部署中,Infinia 已在超过 10 万块 GPU 的规模上得到验证。

但到了 2026 年,市场的核心命题早已迭代,竞争不再局限于模型训练本身。AI 工厂现在运行的是持续、多阶段的pipeline:推理与训练并行,同时处理数百万个请求;RAG pipeline查询的数据湖,还在被数据摄入pipeline不断写入;研究和生命科学团队需要 POSIX 文件协议,同时也离不开对象存储。所有这些工作负载之下的基础设施层,必须完成一件传统架构从未被设计过的事情——在共享基础设施上同时服务所有工作负载,并且要做到严格隔离、性能有保障,无论其规模有多大。这正是 DDN 长期努力的方向,而这次发布标志着 Infinia 全面迈入这一角色。
一个平台覆盖多个市场 我们这次发布的 Infinia 版本不是一次常规维护更新,而是一次战略性扩展,覆盖 AI 基础设施中增长最快的三个领域,这一切都得益于 Infinia 从第一天起就奠定的架构基础。 随着 AI 工厂从训练转向生产级推理,数据基础设施的要求发生了根本变化。对模型权重、提示数据和上下文存储的低延迟访问,已成为第一优先级的需求,而不是事后才考虑的问题。Infinia 的性能特性——快速的 S3 访问、基于元数据的智能检索、直通 GPU 的数据路径——使其天然适用于大规模处理数百万请求的推理pipeline。 关键数据佐证:通过 KV 缓存卸载,首个token的延迟时间缩短 18 倍,输入token成本降低 75%。这些不是实验室的基准数据,而是来自真实的生产推理部署。在这些部署中,Infinia 作为 vLLM 的持久化 KV 缓存层,让先前计算好的上下文可以直接从 Infinia 加载,完全绕过预填充计算。GPU-Direct SDK 通过 RDMA 将张量数据直接传输到 GPU 内存,无需经过 CPU,也没有协议开销。 这也充分阐释了,为何需将存储深度集成至推理核心架构,而非仅作为后端附属组件独立配套部署。 RAG 的效果取决于背后的数据质量。基础设施的挑战不在于存储数据,而在于让数据在推理时可查询、保持即时性、能够被检索,同时不需要人工整理、冗余副本或异步索引带来的延迟。 Infinia 的解决方案是架构层面的。由于元数据和数据位于同一个分布式 KV 引擎中,目录的新鲜度在写入提交的那一刻就能得到保证——数据一旦写入,立刻可以被搜索到,不需要后台索引,也不需要额外用 ETL pipeline去同步一个独立数据库。对于正在构建可扩展 AI 数据湖的企业来说,这意味着数据湖真正变得智能:AI 框架(包括 Apache Spark、Trino、PyTorch 和 TensorFlow)可以直接访问,无需数据迁移或格式转换。相比传统对象存储,RAG pipeline的性能提升了 22 倍。 对企业 AI 团队而言,这就是普通数据湖和 AI 数据湖之间的差别。 并非所有工作负载都使用 S3 协议。基因组学pipeline、计算流体动力学模拟、量化研究工作流、数字孪生环境——这些都需要标准的 POSIX 文件协议。过去,要同时服务这些工作负载以及 AI 训练和推理,就必须使用独立的基础设施、独立的运维,并在不同系统之间复制数据。 随着原生 POSIX 文件访问进入客户验证阶段,Infinia 将能力扩展到这些工作负载,而无需额外的基础设施。基于文件的应用可以在同一个平台上运行,访问相同的数据,并享有与 Infinia 已有的 AI 原生对象工作负载同等的性能和隔离保障,这也让 Infinia 直接进入了 DDN 长期深耕的高性能计算领域——为 HPC 用户提供一个现代化、面向 AI 的平台,既熟悉又能快速投入生产。 DDN 和 NVIDIA 拥有共同的使命:确保全球要求最严苛的 AI 工作负载不必等待数据。 本次发布通过整合 NVIDIA 推理堆栈的多个环节——包括数据传输、推理编排、KV 缓存管理和存储 I/O 优化——进一步深化了这一合作关系。对于基于 NVIDIA DGX、HGX 或云上 GPU 基础设施构建系统的组织,Infinia 旨在成为保持整个堆栈性能的存储层。DDN 和 NVIDIA 正在积极联合开发和验证这些集成,目标是让 Infinia 成为面向各种规模 NVIDIA 客户的推荐且受支持的数据平台。 完整的 NVIDIA 集成路线图细节,可根据保密协议向符合条件的客户和合作伙伴提供。 对企业 AI 团队而言,这就是普通数据湖和 AI 数据湖之间的差别。 Infinia 之所以能够同时向推理、智能数据湖和多协议工作负载扩展,而不需要为每个领域变成不同的产品,根源在于其架构。 这是一个分布式的、日志结构的 KV 引擎,每个 I/O 操作都能独立优化。元数据与数据位于同一引擎中,保证了目录的实时新鲜度。布局间接寻址技术,让集群可以在零宕机的情况下扩展,而无需移动一个字节的数据。每个 I/O 的动态纠删码,为每次写入提供优质保护,没有固定条带大小的惩罚。分层键空间多租户技术,可以在几秒钟内配置出隔离的租户。 这些不是简单的功能点,而是平台的结构性属性。正是它们,让 Infinia 能够在同一个集群上同时运行训练、推理、RAG 检索和 POSIX 文件工作负载,在租户之间实现硬隔离,且无需在架构上做出任何妥协。 性能数据是架构正确的有力证明: 平台扩展由本次版本交付并进入客户验证的以下能力支撑: POSIX 文件访问 POSIX 文件访问现已作为技术预览版向获批的设计合作伙伴提供。标准的 Linux 文件语义——cp、mv、ls、rm、mkdir——可以在 Infinia 挂载点上原生使用。支持文件级分布式锁,支持 mmap()(适用于 HPC 和分析工作负载),支持 RHEL 9.5/9.6 和 Ubuntu 24.04,正式生产支持计划于 2026 年夏季推出。 AI Pipeline管理 专为 AI 基础设施团队打造的全新运维体验:包含预检的简化安装程序、统一 API,以及与 Ansible、Terraform 和云原生编排工具集成的自动化优先生命周期管理。集群从零开始可在 10 分钟内投入运行,并从一开始就具备完整的可观测性。 NVIDIA 生态系统集成 在 GTC 上展示的面向 vLLM 的 KV 缓存结构、直通 GPU 的数据路径,以及正在进行的针对 NVIDIA DGX 和 HGX 堆栈的联合验证工作,推理堆栈集成是过去一年中 Infinia 市场定位方面最具战略意义的进展。 2.4 版本的路线图继续推进平台建设,并承诺为企业和下一代云服务商的下一个层级部署提供支持: 规模验证:500–600 节点集群,并发布线性基准测试结果; POSIX 正式发布:生产就绪,支持 GPUDirect 存储、POSIX ACL、同一数据集上的 S3/POSIX 互操作; 企业级安全:支持 AD/LDAP 的 RBAC、支持每租户加密密钥的 KMS/KMIP、WORM/对象锁; 数据保护:用于业务连续性的复制引擎和数据迁移工具; NVIDIA 认证:DGX 定位及正式的认证路径。 Infinia 正在成为全面的 AI 数据智能层——从原始数据摄入到推理服务——满足生产级 AI 工厂对安全、生态集成和运维工具的全部要求。 DDN Infinia 现已全面上市。POSIX 文件访问、AI pipeline管理能力以及 NVIDIA 生态系统集成正在客户积极验证阶段,正式发布目标时间为 2026 年夏季。请联系您的 DDN 代表或访问 ddn.com,预约技术简报或启动概念验证。