新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

驾驭 SSD “荒年”:AI 推理如何重塑云存储服务与 NAND 产业格局

当下行业关注点已不在“需求有多旺盛”,而是更多地关注“时间够不够”—— 即便全行业立刻响应扩产,供给增速也远远跟不上 AI 拉动的存储刚需。


“ 我们这行有个特点,供需总会形成周期性波动,这种周期既有机遇,也暗藏困境。”

这句话是 Solidigm(思得)公司高管 Scott Shadley 在 VAST FWD 大会上的发言。他与 VAST Data 的 Glenn Lockwood 一同剖析了 SSD “荒年” 的过去(不算太久远)、当下现状以及未来走势。

有意思的是,在 IT 行业过往历次周期里,市场都默认供需最终会自我修正。在过去几十年里,各类硬件元器件都出现过类似的情况:需求旺盛时产能扩张,产能过剩后价格回落、企业缩减投资,待需求回暖市场再度趋紧,如此循环往复。

在存储行业几次重大的技术变革中,这套规律都是成立的。例如从平面 NAND 向 3D NAND 转型时,生产节奏被打乱、短期供给收缩,工厂被迫产线改造,但依旧遵循原有周期规律:产能下滑、价格上涨、新产能投产、供需回归平衡。即便重大技术迭代,也仅被视作可预测行业体系中的短期扰动。

但这种可预测周期成立的前提,是需求模式延续行业过往常态。一旦需求结构发生质变,而非仅规模增长带来的量变,原有周期规律就会失效。行业应对节奏天然滞后,而市场变化速度早已超出传统产业体系的调节能力。

Part.1

你或许会心生疑惑:

行业为何会走到如今这一步?

“是不是觉得 IT 行业 “疫情式囤货” 往事,早已随着 2022 年一起翻篇了?”

Shadley 在会上表示:“大家应该都还记得,当年的元器件短缺并非真实供需缺口,完全是市场恐慌情绪所致。企业大肆囤积各类部件:SSD、网卡、服务器,几乎所有硬件都在囤货范围内。”

他指出,疫情催生了看似真实、实则失真的虚假需求信号。企业大举采购基础设施,预判设备故障率会飙升、后续补货将遥遥无期。这直接把未来数年的潜在需求,提前集中释放到极短时间内。

随之而来的事情是可预测的,即使它是建立在一个不稳固的前提之上。设备实际稳定性远超预期,预想的大规模故障并未发生,市场需求大幅下滑,行业陷入库存积压、消费疲软。厂商随之缩减产能、晶圆厂放缓生产、产能利用率走低、资本开支收缩,走出典型下行周期。但这次行业下行,并非长期真实需求萎缩,而是被扭曲的前置需求所导致。

更关键的是,就在行业陷入调整的同一时间,一股全新的需求浪潮正蓄势待发。

Part.2

叠加 AI 带来的需求冲击

会怎么样?

存储需求与这波 AI 新需求直接强相关。昂贵的 GPU 只有配套充足的数据时,才能发挥价值。AI 训练与推理流程会生成多版本数据,且绝大部分都会被长期保存下来。

正如 Lockwood 向观众解释的那样:“无论是训练还是推理,都存在最低存储刚需底线,即必须存储最低限度的数据量,才能使这些 GPU 物有所值。”

这还催生了一个全新的扩容难题:存储再也无法独立规划容量,必须与 GPU 部署规模同步增长,而这些部署的节奏,不管在过去还是现在都在持续提速。与此同时,数据“活跃”周期大幅拉长,不再轻易被归档或删除,而是需长期保持可访问状态,为后续模型迭代和业务流程挖掘新价值。

从持续上调的需求预测就能直观体现这一趋势。即便到 2026 年,短短数月全球存储容量预期就大幅跃升。但 Shadley 和 Lockwood 这两位嘉宾都强调,当下行业关注点已不在“需求有多旺盛”,而是更多地关注“时间够不够”—— 即便全行业立刻响应扩产,供给增速也远远跟不上 AI 拉动的存储刚需。

Shadley 重申:“一座晶圆厂建设期就要 3 年,设备进场安装调试还要 3 至 4 年,再耗时数年才能把产能效率拉到稳定合理水平。” 这意味着当下可用产能,都是 AI 需求爆发前多年就敲定的规划。

他补充道,制造环节本身也存在刚性约束。NAND 和 DRAM 在晶圆厂层面产线无法通用,需完全独立的生产工艺。受 GPU 及整机系统内存需求拉动,DRAM 同步也供不应求;而 SSD 内部本身也依赖 DRAM 芯片,进一步将存储供给与内存供给深度绑定,产业链多个环节正同时争抢有限的产能。

因此,从整个产业体系来看,便形成了深度联动效应:GPU 同时带动 DRAM 与 NAND 需求上涨;算力部署离不开存储,而存储量产又受制于同样紧缺的内存芯片。这种强耦合关系,导致单一环节的短缺无法单点隔离、单独解决。

而等到新建晶圆厂形成实质产能时,市场需求早已再上新台阶。传统行业周期始终在追赶不断变化的需求目标,供给响应存在天然滞后性。

Part.3

破局思路就是

解决数据存储的资源低效问题

显而易见,既然产能供给无法快速扩张,唯一出路就是提升现有存储资源的利用效率。

问题在于,绝大多数传统系统的设计前提,都是默认存储成本会持续走低。这种理念体现在方方面面,包括数据保护等细节层面。多副本备份既简单又安全,但是会占用大量空间;即便采用更高效的纠删码,仍存在冗余损耗,在 NAND 稀缺的当下也变得难以接受。Lockwood 指出,在存储容量自身都很难满足的情况下,保留三份完整数据副本是严重资源浪费。

AI 业务流程本身也存在处理低效问题。数据从原始素材加工为可用数据集的过程中,会迭代生成多个版本,每一步都会产出新的数据集,且旧版本往往被全部留存。它们并不完全相同,但它们确实包含了大量重复的内容,这本质上就是冗余的副本。

Lockwood 表示,直接删除数据虽是一种应对方式,但会牺牲未来业务灵活性。当下看似无用的数据,随着模型算法与工具持续迭代,未来可能产生全新价值,而数据一旦删除,便再也无法恢复。

所以,核心结论是什么?

如何数据保护策略、业务流程中存在多少冗余体量,这些直接决定了现有存储资源的承载上限。

Lockwood 解释,数据保护的优化目标是:降低冗余开销,同时不提升故障恢复风险。核心在于更快速、更精准的数据重构机制。故障发生之后,不再像过去那样全盘重建,而是采用了更新的方法:仅修复真正缺失的数据碎片即可。

他解释道:“可通过一些数学算法,仅读取条带部分数据,就能重构缺失的数据位,无需拉取全量数据参与恢复。” 这种方式能降低校验冗余占比,同时保障快速故障恢复。

这正是 VAST Data 的方法在实践中展现的地方,将效率转化为系统自动强制执行的规范,而不是用户手动管理的东西。

针对数据冗余,核心思路转向了寻找数据之间的相似性,而不仅仅是“完全一致的匹配”。AI 流程每一步都会生成同源异构数据,传统方案视作独立文件占用全量空间,而 VAST 可跨文件比对相似度,仅存储差异化部分。

这套模式也彻底改变了 SSD 的使用方式,使其不再是普通通用硬件。通过管控写入模式与缓存机制,可充分适配高密度、低成本存储介质,实现更高效利用。

Part.4

受控式紧缺

演变为供给 + 分配双重难题

Shadley 与 Lockwood 一致认为:我们将继续看到供应商选择如何分配产能,而不是将所有东西都卖给最高出价者,这表现为配额和更长的交货时间。

Solidigm 的 Shadley 坦言:“有些厂商奉行逐利定价策略,而我们选择不这么做。” 以往数周就能交付的订单,如今需要数月,客户也无法按需即时拿到全部所需产能。

他还提到,大型采购方为规避未来紧缺会提前锁量备货,进一步加剧供需压力。SSD 供应商需要权衡,是将产能倾斜给少数大客户,还是分散供给更广泛的中小客户群。这让 SSD 紧缺从单纯供给问题,演变为供给 + 分配双重难题。

但他也表示无需过度担忧:新产能终将释放,新建晶圆厂的产能会逐步爬坡,存储单片容量也会持续提升。但产业体系与周期模式再也回不到从前,紧缺环境下催生的架构与效率变革将长期延续。

最终,整个产业将学会在资源约束下高效运转;即便后续供给瓶颈缓解,行业也已转向全新逻辑:不再单纯依赖产能扩张,而是通过类似 VAST Data 的架构方案,从底层提升存储资源利用效率。

本文作者:Nicole Hemsoth Prickett,VAST Data 行业关系负责人


上一篇:为何全球头部自动驾驶企业均采用 VAST Data 平台