AI时代存储技术格局重塑:HBM、DRAM与NAND的角色演变
随着半导体行业与无线技术深度融合,Technotrend市场研究公司决定对AI硬件市场现状展开更全面的审视。内存、DRAM、高带宽内存(HBM)和NAND的发展趋势,不仅深刻影响着AI系统自身,也在无线通信、消费电子及汽车等领域引发连锁反应。
本文聚焦近期内存技术的演进,阐释为何内存架构正成为AI性能、定价乃至市场格局的关键变量。进入2026年,单一关注算力的视角已经显示出局限性——内存正成为规模化AI系统的首要瓶颈。
DRAM:AI实时性能的核心基石
AI模型生成回答并非简单检索静态信息,而是持续维护一个包含上下文窗口、(key-value caches)、中间激活值(intermediate activations)和路由决策的“工作状态”。这些数据需以超低延迟实时访问且始终保持可用,因此DRAM及更贴近计算核心的HBM成为支撑AI性能的底层支柱。
与SSD不同,DRAM使模型推理全程保持“热状态”。在完整token序列处理中,模型需持续访问并更新上下文。即便内存延迟轻微上升,也可能导致吞吐量下降、响应延迟,甚至迫使运营商增配硬件。实际应用中,许多AI系统的瓶颈已从算力转向内存。
- 从系统架构看,AI运行于分层内存体系之上:
- HBM为AI加速器提供高带宽数据供给;
- DRAM存储实时状态与对话记忆;
- 基于NAND的SSD则承载数据集、嵌入向量、检索索引、日志及检查点等持久化存储。
实现“更强大的AI”,往往意味着将更多数据从冷存储迁移至更快、更低延迟的内存层级。
NAND:“知识层”的沉默支撑者
表面上看,NAND在大语言模型架构中的重要性不及DRAM——SSD的速度远慢于DRAM,且不参与实时token生成。但大规模AI系统无法脱离NAND:训练数据集、模型检查点、向量数据库及检索系统均依赖其提供成本可控的海量存储容量。
随着检索增强生成(RAG)成为核心技术,AI集群正悄然构建庞大的SSD资源池。长期记忆、合规日志、向量搜索等均驻留于这一“冷知识层”。AI并未削弱NAND的价值,反而在更深层、更结构化的内存体系中重塑其定位。
当前AI数据中心正扩展向量数据库、检查点与日志存储能力,推动企业级SSD需求持续增长。NAND供应商的策略已转向:
- 将产能从低利润消费级SSD转向高价值数据中心产品;
- 严格控制整体产能规模。
与此同时,存储器厂商正优先将资本支出投向HBM与先进DRAM,这进一步限制了通用DRAM与NAND的产能扩张速度。
从技术参数到产品特性:内存成为服务分层标尺
对基于大语言模型的服务而言,内存正演化为直接的产品特性。响应速度、上下文窗口长度及对话历史持久性,均取决于用户或会话可分配的DRAM与HBM资源量,由此催生分层服务模式:付费用户获得更充裕且稳定的内存预算,免费用户则在严格限制下运行。
主流AI平台中,高价服务层级通常提供更长的上下文支持、更高的调用频率限制、优先级的性能保障。这些特性紧密关联内存分配而非单纯算力。随着技术效率提升,其收益往往被用于扩展上下文长度与个性化功能,而非降低价格——延迟本身被视为一种特性,内存则成为核心定价变量。
广告与内存经济学:可持续运营的双轨制
大规模运行LLM的经济模型仍面临挑战:计算、内存及数据中心的基础设施成本持续攀升,仅靠订阅收入难以覆盖高频使用负载。因此,广告逐渐成为结构性补充方案。
一个可能的演进路径是形成一种混合模式:广告补贴免费用户的基础访问;付费层级购买内存层级中的优先位置。广告确保服务广泛可及,内存分配则直接定义性能与体验质量。
价格上涨与外溢效应:供需双驱动
近期DRAM与NAND价格上涨常归因于AI需求,但供应端策略同样关键:内存厂商正谨慎扩产,优先投入先进DRAM与HBM,并维持严格的产出纪律。即使不存在实质性短缺,该策略仍会支撑高位价格。
尽管LLM针对HBM进行了优化,但由于供应有限,AI系统不得不大量依赖传统DRAM。DDR5(以及在某些情况下的DDR4)被广泛用于主机CPU、系统内存和网络组件,从而进一步收紧了供应并推高了价格。
即使是诸如DDR3等旧标准也会受到影响。虽然DDR3并未用于AI系统,但其产能随着制造商将重心转向新技术而缩减。而汽车、工业等领域因产品生命周期长,仍持续依赖DDR3,在长尾需求中形成持续价格压力。
行业整合前夜:内存墙成为市场筛选器
“内存墙”正演变为市场筛选机制:要以前沿水平运行LLM并保持上下文长度与延迟竞争力,需对DRAM与HBM进行持续大规模投入。仅少数参与者能承担此类成本。下一阶段AI竞争的决定性因素将不再是算法本身,而是内存资源、物理极限与企业资产负债表的较量。
本文翻译自国际电子商情姊妹平台EETimes Aisa,原文标题:
