AI 的发展已经揭示,当容量规划依赖于“供应充足"而非"架构设计”时,会变得何等脆弱。
多年来,存储行业习惯性地将供应短缺视为暂时性问题。市场会经历周期性低迷,之后随着存储密度实现提升,短缺问题便迎刃而解。 但正如我们在 VAST Data 近期推出的《Shared Everything》播客节目中所深入探讨的那样,当前正在发生的情况却有所不同。 当前的闪存供应危机,绝非是一两个季度内需求超过产能那么简单。究其本质,是 AI 引发的大规模数据消耗,与 NAND 闪存生产的物理极限、晶圆厂扩建的漫长周期,以及市场已无弹性空间等多重因素的集中碰撞产生的结果。 正如 VAST Data 联合创始人 Jeff Denworth 与 Solidigm 公司的 Scott Shadley 所阐释的,这一现实正迫使行业重新思考,真正的突破口究竟在何处?
AI 基础设施从三个重要维度改变了存储需求格局
首先,数据摄入规模呈爆发式增长。训练流水线、推理日志、嵌入向量、检查点以及各类中间产物,都需要紧邻算力节点存放,并保持随时可访问的状态。 第二,数据访问模式发生转变。随机访问不再是一种性能优化手段,而是成为了硬性需求。第三,行业对于延迟与低效的容忍度已降至冰点。当每块 GPU 的成本高达数万美元,且部署规模达到数十万量级时,任何 I/O 能力的浪费,都等同于算力的直接损耗。 与此同时,NAND 制造业也失去了曾经唾手可得的增长红利。闪存芯片的层数在持续增加,但晶圆厂的产能并未随存储密度实现线性增长。工艺流程耗时不断延长,设备工艺分化,新建晶圆厂更是需要数年时间才能投产。 就连长期被视为闪存短缺时期 “安全阀” 的硬盘行业,也正面临自身的机械结构与功耗限制。最终的结果就是,在当前市场环境下,单纯增购存储介质已不再是可靠的解决方案。 在与众多正在经历当前危机的客户交流过程中,我们反复观察到一种典型模式:企业逐渐意识到,自身的实际闪存消耗,与其说是由数据生成量决定的,不如说是由低效的数据存储方式所导致的。 • 为提升性能而采取的临时解决方案,导致容量需求激增 3 倍、6 倍甚至 9 倍。 在闪存供应充足、价格持续走低的时期,这些设计决策尚可容忍;但当闪存配额固定、交货周期延长至数个季度时,这些方案就彻底行不通了。 VAST Data 致力于从每一块 SSD 中榨取最大可用容量正如 Denworth 在本期《Shared Everything》播客中所阐述的,VAST Data 选择从一个截然不同的角度来解决这一问题。 VAST Data 的系统设计并非建立在 “闪存廉价且取之不尽” 的假设之上,而是致力于从每一块 SSD 中榨取最大可用容量。这一点: • 首先,体现在系统从设计之初就采用了专为 NAND 优化的纠删码方案,其额外开销仅为百分之几,远低于传统系统普遍存在的两位数开销; • 其次,系统将全局数据缩减技术作为核心架构原则,而非附加功能或尽力而为的优化手段,可对全量数据集进行统一的数据缩减处理。 这绝非纸上谈兵。在实际生产环境中,客户的可用容量相较于原始闪存容量,始终能实现数倍的提升。 具体而言,这意味着即便受限于 NAND 配额,企业也能在无需等待供应链恢复的前提下,达成数据摄入与留存目标。 在一些极端案例中,原本需要借助多数据副本才能保障性能与安全性的环境,如今只需一个高效的存储架构即可实现同等效果。 这一方案也让闪存短缺的性质发生了转变 —— 从一个采购问题,变成了一个软件技术问题。 值得注意的是,这种转变的发生速度十分惊人。过去,人们讨论效率时,往往是围绕功耗、散热与成本优化展开。这些因素如今依然重要,但已不再是核心驱动力。 在当下,效率直接决定了相关部署能否落地。当超大规模云服务商纷纷下达不限量订单,企业又在争夺有限的闪存供应时,将闪存利用率提升两到三倍的能力,就成为了一项重要的战略优势。 随着 AI 工作负载对 GPU 和 CPU 内存之外数据的即时访问需求不断增长,闪存已不再是被动的存储层级,而是成为了算力架构的延伸部分。 那些基于随机访问与稳定延迟设计的算法,只有在闪存这类介质上才能释放其全部潜力——这在传统硬盘中根本无法实现。 这种计算与数据的深度耦合,让低效存储的代价变得更加高昂,因为它会直接影响上游的算力利用率。 晶圆厂产能终将扩张,闪存供应最终会得到缓解,市场也会找到新的平衡点。 但本轮危机带来的经验教训,却不太可能被淡忘。AI 的发展已经揭示,当容量规划依赖于“供应充足"而非"架构设计”时,会变得何等脆弱。 在短期内,能够取得成功的企业,不会是那些抢占到最多闪存配额的企业,而是那些能从已有资源中挖掘最大价值的企业。 从这个角度来说,这场闪存危机正在倒逼行业做一件很少被迫去做的事:直面低效问题,并将软件架构视为首要的供应链杠杆。 效率,就是新的供给。学习如何将每一位数据的价值发挥到极致。