当你的手机运行AI大模型越来越慢时,可能不会想到,问题出在那些在内存条和处理器之间来回奔波的“数据通勤族”身上。

“这游戏怎么又卡了!”你可能在玩最新大作时气得想砸键盘,或者在大语言模型生成回答时等得焦躁不安。

我们的设备越来越强,但数据在处理器和内存之间的来回搬运却成了拖慢一切的隐形瓶颈-1。好在,一种叫做 DRAM MV(内存向量扩展)的技术正在悄然改变这一现状-1-9


01 内存的困境

内存与处理器之间的数据传输已成为当今计算系统的主要性能瓶颈之一。随着人工智能、大数据分析和复杂图形处理等应用的兴起,处理器和内存之间的数据搬运成本不断增加

传统架构中,处理器需要频繁地从内存中读取数据,处理后再写回内存。这种“数据通勤”不仅消耗了大量时间,还占据了系统能耗的很大一部分-9

这种低效的数据流动模式在运行大型语言模型(LLM)时表现得尤为明显。即使采用低比特量化技术,通用矩阵向量乘法(GeMV)操作仍然是LLM推理的主要瓶颈-2

02 MVX是什么?

Memory Vector Extensions(MVX)是一组在DRAM设备内部直接实现的向量指令-1。这种设计的核心思想是将计算任务移动到数据所在的地方,而不是将数据移动到处理器处-2

通过这种方式,MVX技术显著减少了数据在DRAM和处理器之间的传输需求-1。与以往需要大量逻辑电路的方法相比,这种方案需要的硬件逻辑更少,更容易实现和部署-1

MVX的工作方式类似于在DRAM芯片内部建立了一个小型计算单元。当处理器需要执行向量操作时,可以将指令直接发送给内存,由内存内部的逻辑单元完成计算,只将结果返回给处理器。

03 突破性的设计思路

相比传统方案,MVX技术采用了更为平衡的设计思路-9。它不仅减少了数据移动,而且只需要添加少量硬件就能实现良好的性能提升-9

这种设计充分利用了DRAM设备内部的可用并行性-9。与大多数需要算法修改的提案不同,MVX无需改变现有算法就能发挥其性能优势-9

在实施层面,研究人员提出了一种名为MVDRAM的系统,它能够在未经修改的DRAM中执行GeMV操作,专门用于加速低比特大语言模型推理-2。这种系统通过处理器-DRAM协同设计,克服了传统处理中内存使用的限制。

04 效率的飞跃

实验数据表明,与传统处理器上的向量操作相比,MVX技术可以实现高达97倍的性能提升,同时将整个系统的能耗降低达70倍-9

在专门针对大语言模型优化的MVDRAM系统中,对于低比特GeMV操作,可以实现高达7.29倍的加速和30.5倍的能源效率提升-2

对于终端到终端的LLM推理,MVDRAM在2比特和4比特量化低比特模型上分别实现了2.18倍和1.31倍的吞吐量提升,以及3.04倍和2.35倍的能源效率提升-2

05 实际应用场景

这项技术已经在多个领域显示出巨大潜力。在数据库操作中,采用向量近数据处理的方法在执行选择、投影和布隆连接等查询操作时,相比高性能x86基准线表现出了更优越的性能-1

对于神经网络推理,处理内存技术(PIM)特别有利于内存受限的神经网络模型-1。分析显示,适合神经网络模型的理想PIM架构取决于模型的具体特性-1

在大规模数据处理方面,研究人员提出了可重构向量单元(RVU),支持大规模自适应内存处理,扩展了原生混合内存立方体(HMC)指令并提高了其效率-1

06 技术挑战与前景

尽管DRAM MV技术前景广阔,但它也面临着一系列挑战。将计算逻辑集成到内存中需要考虑散热、可靠性和成本等多方面因素。

另一个挑战是如何让现有的软件生态系统适应这种新的计算范式。为此,研究人员开发了Processing-In-Memory编译器(PRIMO),能够直接从原始代码高效利用PIM架构上的大型向量单元-1

展望未来,随着3D堆叠技术的发展,将有更多机会将内存密集型计算移动到更靠近内存的位置-1。这种“近数据处理”范式正在从嵌入式架构到高性能计算的各种系统中获得认可-9


在传统架构中,一个电容加一个晶体管构成了基本的DRAM单元,用电容是否存储电荷来表示数据的0或1-10。而今,DRAM MV技术如同在数据仓库里建起了加工车间,让内存不仅会存储,还会思考。

当我们不再需要将海量数据在处理器和内存间来回搬运,那些曾经卡顿的游戏、缓慢的AI响应,都将成为历史。未来的计算设备将因此变得更加智能高效,而这背后的功臣,正是那些让内存“动”起来的DRAM MV技术。

网友提问与回答

网友甲提问: 我看到DRAM MV技术能提升计算效率,但它对普通用户的手机或电脑性能提升明显吗?还是主要用在服务器和大型计算中心?

这是一个非常好的问题!DRAM MV技术对普通用户的设备性能提升绝对是明显的,而且影响会越来越大。

想想你现在用手机运行AI助手、拍照实时优化照片、玩高画质游戏,这些都需要大量的即时计算。传统的“处理器计算-内存存储”分离模式就像让两个人隔着一条河传递货物,效率低下。而DRAM MV技术则像是在河边建了个工作站,货物到了直接加工,不用来回跑。

特别值得注意的是,大语言模型正在快速进入消费级设备,比如苹果iOS设备上的2/4位3B基础模型、Windows上的4位3.82B Phi Silica模型,以及安卓上的4位3.35B Gemini Nano模型-2。这些模型在推理过程中会产生密集的DRAM访问,而DRAM MV技术能显著加速这一过程。

实际数据也很能说明问题:采用MVDRAM技术后,对于低比特(4位以下)LLM的通用矩阵向量乘法操作,可以实现高达7.29倍的加速-2。这意味着你手机上的AI助手响应会更快,拍照处理更迅速,游戏画面更流畅。

当然,这项技术在服务器和数据中心的应用也很重要,但它的真正魅力在于让普通设备也能获得以前只有高端服务器才有的计算效率。未来的手机可能会因为这项技术,实现现在难以想象的本地AI功能。

网友乙提问: 我了解传统DRAM需要定期刷新数据,那么DRAM MV技术会不会增加功耗?它和现在流行的DDR5内存有什么关系?

你提到DRAM刷新问题确实是关键点之一!传统DRAM需要定期刷新数据是因为电容会缓慢漏电-7,而DRAM MV技术实际上可能有助于降低整体功耗。

听起来有点反直觉,对吧?让我解释一下:虽然内存内部增加计算单元会消耗一些额外电力,但它节省了数据在内存和处理器之间搬运的巨大能耗。研究数据显示,与传统处理器上的向量操作相比,MVX技术可以将整个系统的能耗降低达70倍-9

这就好比原本需要派卡车把原料从仓库运到工厂加工,再运回仓库;现在在仓库旁建了个小型加工点,虽然加工点要用电,但节省了大量的卡车燃料和运输时间。

关于与DDR5的关系,DRAM MV技术更像是DDR5的“智能升级”。DDR5主要提高了数据传输速率和带宽,而DRAM MV则让内存不仅传输数据快,还能在传输过程中处理数据。二者可以结合使用——高带宽的DDR5为内存内部计算提供充足的数据流,而MV技术则减少了对处理器的依赖。

实际上,已经有研究在现有的DDR4 DRAM模块上实现了MVDRAM系统,并取得了显著效果-2。这意味着这项技术有可能通过简单的内存控制器修改,在现有硬件基础上实现性能提升,而不是必须等待全新的硬件世代。

网友丙提问: 既然DRAM MV技术这么好,为什么我们现在还没看到它大规模应用?主要的技术障碍是什么?

你点出了一个关键问题!DRAM MV技术确实前景广阔,但大规模应用还面临几个挑战。

首先是硬件生态系统惯性。现有的计算机架构、操作系统、软件开发工具都是围绕“处理器计算、内存存储”的传统模式设计的。要改变这一模式,需要整个行业的协同努力。

内存制造商和处理器制造商需要紧密合作。DRAM MV技术需要重新设计内存控制器,修改指令集,这需要行业标准的确立和推广。不过,已有研究显示,有些方法无需修改DRAM硬件本身,只需要调整内存控制器-2,这降低了部分门槛。

第三个挑战是软件开发。如何让现有和未来的软件充分利用内存内计算能力?为此,研究人员已经开发了专门的编译器,如Processing-In-Memory编译器(PRIMO),能够从原始代码直接优化利用PIM架构-1。但这需要时间推广到主流开发工具中。

有趣的是,这项技术正从两个方向突破:一是高端计算需求推动,如大语言模型推理;二是移动设备能效需求拉动-2。随着AI应用无处不在,DRAM MV技术的应用场景越来越明确,商业化进程也在加快。

预计未来几年,我们可能会先在高端智能手机和AI专用设备中看到这项技术的应用,然后逐步普及到普通计算设备中。毕竟,当性能提升如此显著时,技术突破的步伐往往比我们想象的要快。