手机用久了开始卡顿,AI模型训练耗电惊人,这些日常困扰的背后,可能都指向同一个技术瓶颈——内存访问效率。当数据在处理器和内存之间来回奔波时,计算的流畅感就这样被消耗殆尽。

屏幕上的加载图标转了一圈又一圈,程序响应慢如蜗牛,这种体验你一定不陌生。说真的,咱们今天就来掰扯掰扯这个内置DRAM。

咱们得先搞明白,这玩意儿到底是啥?内置DRAM,说白了就是直接把动态随机存储器做到芯片里头,让它成为处理器密不可分的一部分-8


01 技术门槛

存储器技术这潭水,一直都不浅。传统计算机用的是冯·诺依曼架构,处理器和存储器是分开的两个部分,中间用数据总线连着-10

这么设计有它的道理,但也带来个大问题——内存墙。说白了,就是CPU算得飞快,但内存读写跟不上趟,数据堵在路上,算力再强也白搭。

内存墙到底有多厚?有研究显示,在某些AI计算场景下,数据在处理器和内存间搬运消耗的功耗,比实际计算本身高出上百倍-10。这不仅是能源浪费,更是性能的“隐形杀手”。

传统的DRAM单元由一个晶体管加一个小电容组成,利用电容的充放电来表示0和1-5。这种结构简单高效,但有个致命弱点——电容会漏电,所以需要定期刷新数据,这也是“动态”这个名字的由来-1

每过64毫秒左右,整个DRAM阵列就需要全面刷新一遍,否则数据就丢了-1

02 优势所在

聊到内置DRAM的优势,那可真是戳中了不少设计的痛点。首先是面积和功耗,在相同的90纳米工艺节点下,嵌入式DRAM只需要SRAM 30%的待机功耗和10%的活动功耗-8

面积上也差不多,只需要SRAM的30%左右-8。这对寸土寸金的移动设备和物联网终端来说,简直是雪中送炭。

更绝的是,内置DRAM把数据通路从板级缩短到了芯片内部。传统设计中,处理器发出内存请求,信号要穿过芯片封装、电路板走线,最后到达独立的内存芯片,这个过程会产生纳秒级的延迟。

而内置DRAM将这个距离缩短到毫米甚至微米级别,延迟大幅降低。在AI推理等场景中,这种改进直接转化为更快的响应速度和更低的功耗。

03 运行逻辑

从系统层面看,内置DRAM带来的改变是全方位的。它改变了处理器和存储器的关系,从“远房亲戚”变成了“连体兄弟”。

传统架构中,内存控制器通常位于处理器内部,而内存芯片则是外部独立组件。当处理器需要数据时,它会向内存控制器发送请求,控制器再通过外部总线与内存芯片通信-2

这种设计灵活,允许用户根据需要更换或升级内存,但也引入了不可避免的延迟和功耗。

内置DRAM则不同,它通过芯片内部的高速互连直接与处理器核心相连。在Agilex 5 FPGA这类先进芯片中,硬核内存控制器与DRAM物理接口的紧密集成,使得数据能在极短的距离内快速传输-2

没有了板级信号完整性的担忧,设计者可以更自由地优化数据传输协议,实现更高的带宽和更低的延迟。

04 实践之路

在AI计算这个热门领域,内置DRAM正展现出它独特的价值。训练大规模神经网络需要频繁访问海量参数,传统架构中,这些参数存储在独立的HBM或GDDR内存中-6

虽然HBM通过2.5D封装实现了高带宽,但成本高昂,主要局限于数据中心-6。而内置DRAM提供了一种更经济的替代方案。

以SK海力士开发的GDDR6-AiM为例,这款产品在GDDR6内存中直接加入了计算功能-10。与传统的“存储-传输-计算”模式相比,这种存内计算架构在特定任务中能将计算速度提升高达16倍,同时功耗降低80%-10

对于资源受限的边缘设备,这种改进意味着原本需要云端处理的任务现在可以在本地完成,既保护了隐私又减少了延迟。


内置DRAM已不再是简单的技术选项,而是决定计算架构走向的关键变量。瑞萨电子的RA系列MCU通过灵活的内存接口设计,让开发者能在内置存储和外部存储间找到最佳平衡-4

随着4F2、CBA等新技术的成熟,DRAM的存储密度和能效将进一步提升-7

手机的每一次流畅滑动,AI模型的每一次快速推理,智能设备每一次即时响应,背后都可能隐藏着内置DRAM技术的默默支撑。当计算真正流动起来,人与技术的互动也变得更加自然无碍。


网友提问:内置DRAM听起来不错,但它有没有什么明显的缺点?

老实讲,任何技术都有两面性,内置DRAM也不例外。最直接的挑战是成本问题。嵌入式DRAM需要额外的4到6层掩模工艺,这会增加芯片制造成本-8

对于产量不大的专用芯片,这种成本增加可能难以承受。另一个限制是灵活性,内置DRAM的容量在芯片设计阶段就固定了,无法像独立内存条那样随意升级-4

一旦内置DRAM的容量不能满足应用需求,唯一的解决方案就是重新设计芯片,这既费时又费钱。

从技术角度看,内置DRAM的刷新机制也带来一些设计复杂性。由于DRAM单元中的电容会缓慢漏电,必须定期刷新以保持数据-1

在芯片内部实现高效的刷新逻辑需要额外的电路和控制策略,这可能占用宝贵的芯片面积并增加功耗。测试和良率也是挑战,内置DRAM的故障会影响整个芯片的功能,而测试嵌入式内存比测试独立内存芯片更加复杂。

网友提问:普通消费者怎么判断一个设备是否使用了内置DRAM技术?

这个问题挺实际的!普通消费者很难直接查看芯片设计,但可以通过一些线索来判断。首先看设备类型,高端智能手机、平板电脑和轻薄笔记本更可能采用内置DRAM设计,因为空间和功耗约束最为严格。

例如,一些旗舰手机在宣传时会强调“先进封装技术”或“更高带宽内存”,这往往暗示着内存和处理器更紧密的集成。

其次关注性能特点,如果设备在相似规格下表现出更低的功耗和更快的应用加载速度,特别是在处理大型文件或多任务切换时更加流畅,这可能得益于内置DRAM的高效数据访问。

另一个线索是设备规格表,部分制造商会明确标注“集成内存”或“统一内存架构”,苹果的M系列芯片就采用了这种设计理念。

最后可以留意专业评测,技术媒体在深度评测中通常会分析芯片架构,如果提到“内存子系统优化”、“减少数据搬运”或“存算一体”等概念,这很可能与内置DRAM技术相关。

网友提问:内置DRAM和现在很火的存算一体有什么区别和联系?

这个问题问到点子上了!内置DRAM和存算一体是相关但不同的概念。内置DRAM主要解决“数据搬运”问题,通过缩短存储器和处理器的物理距离来减少延迟和功耗。

而存算一体更进一步,它尝试在存储单元内部直接进行计算,彻底消除数据搬运的需求-10

两者的联系在于,内置DRAM可以作为存算一体的基础。传统独立内存芯片很难直接集成计算功能,而内置DRAM由于与处理器在同一芯片上,更容易实现存储与计算的结合。

SK海力士的GDDR6-AiM就是一个例子,它在GDDR6内存中加入了计算电路,使其能够在特定计算环境中将速度提高16倍-10

从技术演进角度看,内置DRAM更像是存算一体的前期准备。随着3D堆叠、混合键合等先进封装技术的发展,存储单元和计算单元可以更紧密地集成,最终实现真正的存算融合-7

目前存算一体技术主要基于SRAM开发,因为它最接近CPU速度-10,但未来基于DRAM的存内计算可能会在大算力AI芯片中发挥重要作用。