哎,你说现在这AI发展的,一天一个样,搞得咱们手里的手机、电脑都快跟不上了,动不动就提示“内存不足”。但是啊,最近圈子里面悄悄在传一个可能改变游戏规则的东西,它不叫HBM,也不是什么3D堆叠,而是听起来有点复古又有点新潮的——DRAM模拟芯片。简单说,它就想干一件事:别让数据在处理器和内存之间来回奔波了,太累太耗电,咱直接在内存里把计算给办了!
这事儿听起来挺美,但真要做成,难处可不少。最头疼的就是DRAM那“记性不好”的老毛病。大家知道,普通DRAM存数据,是靠电容里头那点电荷,这电荷它漏电啊,所以必须不停地“刷新”才能记住。有研究就指出了,这种DRAM风格的单元用来存模拟信号(也就是连续变化的电压或电荷),那保持时间更是短得可怜,在要求8位精度时,能用的时间可能比数字存储还要短两个数量级-3。你想想,这边刚存进去一个用来计算的模拟电压,那边它就自己衰减了,这算出来的结果还能准吗?所以过去很多人觉得,用DRAM做模拟计算,有点“不靠谱”。

但是,办法总比困难多,真有“头铁”的科学家在死磕。韩国科学技术院(KAIST)的一个团队就整出了个叫“DynaPlasia”的芯片,据说是基于模拟DRAM的存内计算(CIM) 芯片-4。它妙在哪儿呢?首先,它每个单元只用3个晶体管,结构简单,面积小-4。更关键的是,它通过电路设计技巧,成功减少了DRAM单元固有的漏电流,让所有内存单元都能并行工作,这样一来,计算吞吐量据说能达到传统数字方案的15倍以上,能效也大幅提升-4。这就像是给一个跑不动的仓库,不仅通了电,还训练里面的每一个货架自己都能处理订单,效率自然飙升。
你可能要问,这DRAM模拟芯片具体能干啥?现阶段,它最大的舞台可能就是AI推理,特别是那些需要即时响应、又受限于功耗的场景。比如未来的智能眼镜、自动驾驶汽车的传感器、或者物联网里的各种终端设备。这些地方需要实时处理大量数据(如图像、声音),但电池和空间都有限。传统的“计算单元+内存”架构,数据搬来搬去就像让一个胃口小的人不停跑食堂打饭,大部分时间和精力都花在路上了。而模拟存内计算,好比把厨房搬到了饭桌边,数据在哪就在哪算,自然又快又省劲。有别的低功耗CID/DRAM阵列处理器研究也验证了这种高能效的优势-10。

当然,这条路还长着呢。精度问题、工艺稳定性、怎么跟现有芯片体系融合,都是大山。而且现在全球半导体产能都在疯狂投向AI数据中心用的HBM和先进制程逻辑芯片-2,这种新兴的、小众的技术路线能分到多少资源,还是个未知数。但它的潜力摆在那儿——它直指传统计算架构的“阿喀琉斯之踵”:内存墙。如果有一天,我们手上的设备能像人脑一样,在记忆的地方直接思考,那带来的改变,可能不仅仅是手机不卡顿那么简单。
网友“硅谷好奇客”问:
“大佬讲得挺热闹,但‘模拟计算’这个词我老是似懂非懂。能不能用最直白的方式说说,在DRAM里做模拟计算,和现在电脑里经典的数字计算,到底有啥本质区别?好比做菜的话,它俩分别是咋操作的?”
答:
嘿,这位朋友问得好,这个问题点到了核心!咱就用做菜来打个比方,保准你明白。
现在的数字计算,就像个特别讲究、但工序繁琐的中央厨房。所有的食材(数据)都必须先被加工成标准化的“预制菜”——也就是二进制代码(一串0和1)。比如,西红柿的酸度、鸡蛋的重量,都得先精确称量,转化成数字信号。计算过程,就是严格按照菜谱(算法),对这些0和1进行逻辑运算(加、减、与、或等)。好处是精度极高,抗干扰能力强,就像标准化生产的快餐,味道稳定。但坏处是流程长:数据从内存(仓库)送到CPU(中央厨房),要经过“称重数字化”(模数转换)、处理,再“打包还原”(数模转换)送回去,非常耗电耗时。
而DRAM模拟计算,则像一个讲究“锅气”的现炒小灶。它不追求把食材全部标准化,而是直接利用食材的天然物理属性来做菜。在这个芯片里,数据是用连续的电压或电流大小(模拟信号)来表示的,就像直接用西红柿实际的酸甜度、鸡蛋的实际大小。计算过程,是通过精巧设计的晶体管和电容电路,让这些电压/电流按照物理定律(比如欧姆定律、基尔霍夫定律)相互作用,直接产生出新的电压/电流结果。这个过程是高度并行的,就像一口大铁锅里同时爆炒几十份菜,所有操作瞬间完成。
简单总结:数字计算是“数字化处理离散符号”,像解数学题;模拟计算是“用物理过程直接模拟数学关系”,像用天平称重。对于AI中大量存在的“乘加运算”,模拟方式可以利用电路的物理特性瞬间完成,能效比高得多。当然,它的“菜谱”没那么精细,容易受到“火候”(温度)、“食材批次”(工艺偏差)影响,精度控制是最大挑战。但对于很多不需要绝对精确(比如识别一张脸是不是猫)的应用来说,它的“快”和“省”优势就太诱人了。
网友“硬核工程师”问:
“从研究论文到实际商用,距离有多远?我看KAIST那个研究说减少了漏电流,但模拟DRAM的电荷保持时间(retention time)在实际复杂工作环境下(比如温度变化)真的够用吗?会不会算到一半,数据就衰减得没法看了?”
答:
这位同行,您问到点子上了,这确实是工程化路上最陡的一个坡。实验室的“理想国”和现实世界的“修罗场”,中间隔着巨大的鸿沟。
没错,像KAIST这样的研究,通过创新的三晶体管单元和电路设计(比如采用差分存储等技术),确实在抑制漏电流方面取得了突破,实现了单元并行计算和高能效-4。早期的研究也探讨过用差分存储、设置零偏压等技术来延长保持时间-3。但正如您所担忧的,现实环境严酷得多。
首先,温度是头号大敌。半导体器件的漏电流具有显著的温度敏感性,温度每升高,漏电呈指数级增长。手机发烫时、汽车引擎舱内、夏日户外,芯片温度可能远高于室温。在这种情况下,设计时在室温下够用的保持时间窗口,可能会急剧缩短。工程师必须按照最恶劣的工作温度来设计冗余,这本身就极大地约束了系统设计和性能。
工艺偏差和噪声。模拟计算依赖电压/电流的绝对或相对值。但芯片制造中,晶体管尺寸、阈值电压等参数存在微观上的不均匀(工艺偏差)。工作时,电源波动、衬底噪声、相邻信号串扰无处不在。这些都会像“杂质”一样混入本应纯净的模拟信号中,导致计算误差积累。实际的DRAM模拟芯片设计,必须融入强大的纠错电路、校准电路和反馈机制,不断自我校正,这又会增加芯片面积和功耗,抵消一部分优势。
所以,答案是:距离不近。它不仅仅是一个电路设计问题,更是一个从器件物理、模拟电路设计、架构到系统验证的全面挑战。目前它可能最先在那些环境相对可控、对误差有一定容忍度(如一些分类、识别任务)的专用边缘AI场景中找到落脚点。想让它像CPU/GPU一样通用,路还很长,需要材料、器件、架构多个层面的持续创新。
网友“未来观察家”问:
“如果这项技术未来成熟了,会先‘干掉’谁?是会替代手机里的传统DRAM,还是先冲击AI加速卡里的HBM?对我们普通消费者来说,最早可能在什么产品里体验到它的好处?”
答:
这个问题很有前瞻性!我的判断是,它不会简单地“干掉”谁,而是走一条“农村包围城市”的差异化路线,未来很可能形成共存和融合的格局。
首先,短期内替代手机里的通用DRAM可能性极低。手机SoC需要处理的任务太复杂了:刷网页、打游戏、看视频、跑多个APP……这些任务对计算精度和通用性要求极高,是数字CPU/GPU的绝对主场。通用DRAM作为“记忆仓库”的角色非常称职。模拟存内计算芯片更像一个拥有特殊技能的“速算专员”,让它去干所有杂活,既不擅长也不经济。
冲击HBM?方向有点接近,但赛道不同。HBM的核心价值在于为GPU提供极致的内存带宽,它本质上仍是纯数字存储,并通过先进的封装(3D TSV)实现超高数据吞吐-6。而DRAM模拟芯片的核心价值在于打破内存墙,实现超高能效的计算。它们目标不同。更有趣的未来图景或许是 “融合” :既然HBM已经通过3D堆叠把内存尽可能贴近GPU核心了-6,那有没有可能在某一层存储芯片里,直接嵌入这种模拟计算单元呢?这样,一些特定的、固定的计算操作(比如AI模型中的关键权重计算)就可以在内存堆栈内部就近完成,进一步减轻核心GPU的负担和数据搬运压力。这可能是更可能的演进方向。
对我们普通消费者,最可能在极致追求低功耗和实时性的边缘设备中率先体验到。比如:
永远在线的智能耳机或眼镜:需要实时进行语音唤醒、噪音消除、简单翻译,这些任务用小型模拟存内计算芯片处理,可能比调用手机主芯片更省电,响应更快。
自动驾驶汽车的传感器模组:激光雷达或摄像头模组内部,如果能集成这样的芯片,就可以在数据产生的第一时间完成初步的特征提取和目标筛选,只把关键信息上传给中央处理器,极大降低数据带宽需求和系统延迟。
下一代智能家居中枢:本地化处理语音指令、识别家庭成员行为模式,保护隐私的同时实现快速响应。
总而言之,它带来的好处不会是简单的“内存更大”,而是让设备更“聪明”地省电、更“敏捷”地响应,让很多需要即时智能的场景变得真正可行和无感。这是一个值得期待的、为特定任务而生的“特种兵”技术。