面对AI芯片99%的空置率,一场围绕数据搬运的存储革命正在悄然发生。
AI算力狂奔的繁华景象背后,一个尴尬的事实是,GPU等计算单元因等待数据而空置的时间高达惊人的99%-7。这被称为“内存墙”或“存储墙”的瓶颈,正严重制约着计算性能的释放。

当海量数据在存储层级间缓慢搬运时,世界上最强大的算力也只能无奈等待。
存储技术的演进,不再仅仅是关于容量和成本的游戏,更是决定AI计算能否真正发挥潜力的生死时速赛。在这场竞赛中,两项关键技术正从不同维度破局:通过堆叠层数实现容量飞跃的3D NAND,以及利用电子自旋特性兼顾速度与能效的STT-MRAM-1。

AI训练和推理需求的爆发让存储系统面临前所未有的压力。过去十年间,AI训练计算需求增长了超过100万倍,从2014年的大约10^17 FLOP(浮点运算次数)增长至2024年的10^25 FLOP以上-2。
与计算性能的指数级增长形成鲜明对比的是,过去20年间DRAM带宽仅增长了约100倍,而互连带宽的增长更是只有30倍-8。
这种严重失衡的增长速度导致了一个荒谬的现象:在AI推理过程中,生成单个Token(语言模型中的最小单位)的实际计算时间可能仅需微秒级,但将所需的模型权重和KV缓存从存储器加载到GPU的时间却需要毫秒级-7。
结果是,计算单元99%的时间都在等待数据-7。这种状况不仅造成了巨大的能源浪费,也严重限制了AI应用的实际响应速度和可扩展性。
面对AI时代海量数据的存储需求,传统平面NAND闪存已经逼近物理极限。3D NAND技术通过将存储单元垂直堆叠,成功突破了这一限制。
2025年,3D NAND Flash技术首次突破400层大关,同时实现了5.6 Gb/s每引脚的输入输出速度-2。
这种立体堆叠的创意,就像是在有限的土地面积上建造摩天大楼,而不是平铺单层厂房。
在AI服务器的数据流动链条中,基于3D NAND的固态硬盘(SSD)扮演着“热数据仓库”的关键角色,是连接DRAM内存和HDD硬盘之间的“快速持久层”-7。
它不仅为训练数据提供快速补给,也是推理服务实现快速响应的核心。随着3D NAND层数的增加和接口速度的提升,这一关键环节的瓶颈正在被逐步打破。
如果说3D NAND解决了“仓库有多大”的问题,那么STT-MRAM则瞄准了“货物存取有多快”的痛点。这种基于电子自旋特性的存储技术,代表了非易失性、高速和耐用性的黄金组合-1。
STT-MRAM的独特之处在于,它能够在单一元件中结合SRAM的速度与闪存的稳定性-4。
这种特性使其成为替代传统嵌入式闪存的理想选择。台积电等领先制造商正积极研发嵌入式STT-MRAM,以克服传统闪存在先进制程节点上的扩展限制-5。
2025年,STT-MRAM技术已发展出DDR4接口的64Gb高密度产品,展现出作为新一代主流存储技术的潜力-2。与需要持续刷新才能保持数据的DRAM不同,STT-MRAM具有非易失性,断电后数据不会丢失,且写入次数几乎无限-1。
尽管STT-MRAM在性能上具有明显优势,但其产业化道路并非一帆风顺。这项技术面临的主要挑战之一来自其工作原理本身——磁性。
在强磁场环境中操作时,STT-MRAM的测试和运行都会遇到传统存储器不曾有过的新问题-4。
制造商需要在晶圆生产的各个阶段,从生产线到测试平台,建立更严格的检测流程,并开发专门用于测试磁场状况的新设备-4。
尽管如此,市场对这项技术的需求正在增长。2025年全球MRAM市场规模已达到48.7亿美元,而中国地区的增速更是保持在34.2% 的高位-1。
国内企业如海康驰拓、致真存储已经掌握了核心专利并实现量产,青岛海存微电子甚至正在打造国内首条8英寸MRAM后道加工生产线-1。
随着AI应用从训练向推理迁移,对存储系统的需求也变得更加多样化。推理服务器更注重并发任务处理能力和快速响应,因此对DDR内存、SSD固态硬盘和HDD硬盘的需求模式与训练服务器有所不同-7。
在这种背景下,未来的存储架构很可能是多种技术混合的解决方案。
短期来看,3D堆叠SRAM与HBM的结合可能成为突破内存墙的有效途径,通过将SRAM的极低延迟(可缩短至2ns)与HBM的大容量相结合,优化数据访问效率-7。
而从中长期看,存算一体架构可能会彻底改变游戏规则。这种架构将计算功能直接嵌入存储单元中,从根本上减少了数据搬运的需要-8。
在内存中直接进行计算,可以消除传统架构中高达90% 的与数据搬运相关的能耗-8。台积电等行业领导者正在积极布局这一领域,认为数字存内计算相比模拟存内计算更具发展潜力-8。
台积电负责技术发展的高级副总裁纳维德·沙赫里亚里指出:“未来AI与高性能计算芯片的竞争,将不仅仅是晶体管密度与频率的竞赛,更是内存子系统性能、能效与集成创新的综合较量。”-8
当3D NAND的层数继续向500层、600层迈进,当STT-MRAM的密度和可靠性不断提升,那些被数据“饿死”的算力巨人终将获得充足“食粮”。 存储技术的革命不会一夜之间发生,但它正以层叠的存储单元和旋转的电子自旋,悄然重塑AI计算的每一个字节。
这是个很好的问题!首先得澄清,MRAM和3D NAND并非简单的替代关系,更像是存储体系中的“搭档”,各自解决不同层面的问题。
3D NAND主攻的是大容量数据存储,就像个超大型仓库。它通过垂直堆叠数百层存储单元,提供了成本相对较低的高密度存储方案-2。在AI数据流动链条中,它充当的是“热数据仓库”,存放那些需要频繁访问但又不必常驻超高速内存的数据-7。它的优势在于每比特成本低、容量大,但速度和耐用性不如一些新兴存储器。
STT-MRAM则更像是高速工作区,它的核心竞争力是速度、耐用性和非易失性的结合-1。它读写速度可比SRAM,断电不丢数据,而且几乎可以无限次写入-1。这使得它特别适合用作缓存、嵌入式存储,或是在特定场景中替代部分NOR Flash和SRAM-1-5。
实际上,它们在未来系统中的角色是互补的。你可以想象这样一个场景:3D NAND作为主仓库存放大量数据,而STT-MRAM作为高速缓存存放最活跃的数据集。台积电等公司的布局也显示,未来芯片可能会集成多种存储技术,而非依赖单一解决方案-5。
从市场来看,两者也都有广阔空间。3D NAND随着层数增加继续主导大容量存储市场;而MRAM市场正在快速增长,预计在中国等地区增速显著-1。所以,不是“哪个更有前途”,而是“它们各自在哪些应用场景中更能发挥优势”。
普通消费者已经间接享受到这些技术带来的好处了,而且未来几年会感受更明显!
数据中心最先应用,我们普通用户通过云服务受益。比如,你使用的AI聊天机器人、在线翻译或推荐算法,它们的响应速度部分就取决于背后数据中心存储系统的性能。当数据中心采用更高效的存储方案(如HBM、新型存储器等)突破“内存墙”,我们获得的在线服务就会更快、更智能-7。
消费电子逐步渗透。STT-MRAM等新型存储器已经开始在汽车电子、物联网设备等领域应用-1。比如,一些高端汽车的控制系统已使用MRAM技术,因为它耐高温、可靠性高且响应快-1。接下来,我们会看到更多嵌入式设备、智能手机的辅助存储或特定模块采用这些技术。
你的手机会因此变快吗?会,但可能不是全方位“变快”,而是在特定任务上体验更佳。例如:
手机拍照后的连拍处理和AI美化速度可能更快,因为图像数据可以更快地在存储层级间移动;
应用程序的启动和切换可能更流畅;
在玩大型游戏时,场景加载时间可能缩短。
个人电脑的存储架构也可能简化。有研究指出,未来可能出现颠覆性的存储器件,使个人电脑无需复杂的分层存储系统-1。这意味着系统更简洁、能效更高,开机、加载大型文件等操作可能实现质的飞跃。
不过,这些变化是渐进的,而且会先从高端设备开始。预计未来2-3年,随着技术成熟和成本下降,更多消费电子产品将集成这些新型存储技术-3。
这个问题很现实,也是国内产业界正全力突破的方向。整体来看,中国在新型存储领域正处于积极追赶和局部并行的状态,在一些细分技术上已经取得了不错进展。
MRAM领域已有突破。中国企业如海康驰拓、致真存储等已经掌握了STT-MRAM的核心专利并实现了量产-1。特别是致真存储,据报道是国内唯一拥有SOT-MRAM(STT-MRAM的一种演进技术)全套技术和产线的企业-1。青岛海存微电子正在建设国内首条8英寸MRAM后道加工生产线,总投资6亿元,预计2025年底通线-1。这表明国内在MRAM的产业化上已经迈出了实质性步伐。
3D NAND方面,国际巨头如三星、海力士、美光等仍处于领先地位,已量产超过400层的产品-2。中国企业在传统NAND领域与国际先进水平尚有差距,但在基于新型材料的存储技术(如相变存储器PCM)上有亮点。例如,新存科技基于华中科技大学团队的专利,成功量产了国产首款64Gb三维相变存储器芯片-1。中国科学院上海微系统所等单位也在积极推进3D PCM的研发,以解决大容量存储需求-1。
产学研结合紧密。中国的高校和研究机构,如北京航空航天大学、复旦大学等,在新型存储器件的基础研究和前沿探索上非常活跃,取得了像“破晓”皮秒闪存这样的世界级突破-1。这为技术产业化提供了源头活水。
关于“卡脖子”风险,情况比传统逻辑芯片和高端制程要乐观一些。因为许多新型存储器(如MRAM、ReRAM、PCM)的制造工艺与最先进的逻辑制程并非强绑定,可以在相对成熟的产线上进行研发和生产-5。而且,存储技术路线多样,不像逻辑芯片那样高度依赖极紫外光刻等特定装备。
当然,挑战依然存在,比如在高端制造设备、材料以及最前沿的集成技术方面仍有依赖。但中国存储产业正在采取“多点突破”的策略,通过在新兴技术赛道上的早期布局,争取在未来存储产业生态中占据一席之地。从“完全受制”到“部分并跑”再到“局部领先”,这条路虽然不易,但方向已经明确,步伐正在加快。