四台Mac Studio通过Thunderbolt 5连接,竟能组合成1.5TB的统一内存池,延迟降到几十微秒级别,这背后正是DRAM分布式站点的魔法在起作用-6

一位名叫Jeff Geerling的技术博主最近做了个疯狂实验,他把四台Mac Studio用Thunderbolt 5连接起来,组建了一个AI集群,结果这个集群居然共享着高达1.5TB的统一内存-6

这种玩法放在几年前简直是天方夜谭,但如今借助DRMA over Thunderbolt 5技术,多台机器可以像共享同一块大内存般协同工作,将延迟从数百微秒直接降到几十微秒-6


01 技术架构革命

DRAM分布式站点的核心理念在于将多台机器的内存资源整合成一个统一的虚拟内存池。阿里巴巴云的PolarDB数据库已经实现了这种架构,他们称之为分布式内存池(DMP)-1

这个架构牛的地方在于它实现了计算、内存和存储的三层解耦,计算节点不再受限于单机内存容量,可以通过RDMA高速网络访问整个内存池的数据-1

通过这种方式,PolarDB单集群的内存上限从传统架构的512GB直接飙升到10TB,足足提升了20倍-1。这种扩展性对于需要处理海量数据的企业来说,简直是雪中送炭。

传统的服务器内存配置方式存在明显短板。内存密集型业务需要大内存,计算密集型业务需要多核CPU,但传统架构却把它们捆绑销售-1

DRAM分布式站点的出现打破了这种僵局,让业务可以根据实际需求灵活配比计算和内存资源,既能提升性能又能控制成本,真是个一举两得的好方案。

02 性能提升秘诀

要说DRAM分布式站点的性能秘诀,RDMA(远程直接内存访问)技术功不可没。这项技术允许计算机直接从另一台计算机的内存中读取数据,完全绕过了操作系统内核和CPU的干预-1

结果是显著的性能提升,16KB随机读I/O延迟可低至10微秒,这比传统存储I/O快了整整10倍-1。对于I/O密集型负载来说,这种性能提升意味着什么?意味着查询响应时间大幅缩短,用户体验直线上升。

在实际测试中,配备了DMP的PolarDB数据库在TPC-H基准测试中性能最大提升了6.5倍-1。这种提升对于需要处理复杂查询和分析的企业来说,简直是个性能加速器

RDMA技术并非没有挑战。当多个应用程序共享RDMA网络资源时,常常会出现不公平问题和性能下降-3。不过,研究人员已经开发出分布式RDMA NUM(DRUM)算法来解决这个问题,能够在资源竞争环境下实现1.7到3.1倍的吞吐量提升-3

03 未来应用图景

DRAM分布式站点的应用前景相当广泛。除了前面提到的数据库和AI集群,它在大规模数据处理、科学计算和实时分析等领域都有巨大潜力。

以Hess Corporation为例,这家全球性能源公司使用包含数千个CPU和GPU处理器的集群来处理地震数据,单个地震勘测数据就能达到数TB级别-9。如果没有高效的分布式内存管理,这种规模的数据处理几乎是不可能完成的任务。

现代工程领域正面临两大内存挑战——扩展性和信号传输-2。DRAM的每字节成本十余年来始终停滞不前,这使得服务器规模扩大后DRAM成本占据了系统成本的主导地位-2

DRAM分布式站点提供了一种全新的解决思路:与其追求单一大型共享内存,不如将内存分割成更小的片段,与计算单元更紧密地耦合-2

这种架构让软件能够明确决定哪些数据保留在本地,哪些在节点间共享,哪些移交至DRAM,从而实现对数据布局和迁移的高效管理-2

04 突破性的实施案例

Jeff Geerling的Mac Studio集群实验展示了DRAM分布式站点在消费级硬件上的应用潜力-6。四台配备M3 Ultra芯片的Mac Studio通过Thunderbolt 5连接,形成了一个拥有1.5TB统一内存池的AI集群-6

虽然这个方案目前还有限制——比如需要手动启用RDMA,设置过程也比较繁琐,最多只能连接4台机器-6——但它为研究者和开发者提供了一条新思路:在桌面级硬件上实现超大规模模型运行。

在更专业的领域,基于持久内存和RDMA的分布式持久内存存储系统(DPMS)已经能够提供120GB/s的聚合带宽(在6个节点情况下)-7

在处理YCSB和Graph500等内存密集型工作负载时,DPMS的性能比现有系统提高了一个数量级-7。这种性能提升在数据量增长到数TB时仍能保持高效,显示了DRAM分布式站点出色的扩展能力。


那个用四台Mac Studio搭建AI集群的技术博主可能自己也没想到,他的实验展示的正是DRAM分布式站点最直观的应用场景-6。当内存访问延迟从数百微秒骤降到几十微秒时,AI模型推理就像打通了任督二脉。

阿里巴巴云PolarDB的DMP技术已经能提供10微秒的延迟和10TB的内存池-1,而分布式RDMA资源调度算法进一步确保多个应用共享资源时的公平性-3。随着雷电5这类高速互联技术的普及,内存资源解耦正从数据中心走向更广泛的应用场景。

当半导体缩放技术逼近物理极限,SRAM和DRAM的每字节成本停滞不前-2,内存与计算的深度融合架构正在重新定义效率的边界,而不再仅仅是追求单一维度的性能突破。


网友提问与回答

问题一:DRAM分布式站点听起来很高级,但对我们中小企业来说,实施成本会不会太高?有没有更经济的入门方案?

说真的,您的担心特别实在!一提到“分布式”、“集群”这些词,很多人脑子里马上跳出天价账单。但事情正在起变化。

Jeff Geerling那个用四台Mac Studio组集群的实验,总成本接近4万美元-6,听上去不便宜,但您想想它获得了什么:一个拥有1.5TB统一内存池、能跑超大AI模型的“工作站”-6。如果通过购买单台服务器来获得同等内存容量和计算能力,价格可能更高,而且扩展灵活性差远了。

对于想尝鲜的中小企业,现在有了更接地气的路径。核心是利用RDMA over Thunderbolt 5这类逐渐普及的高速互联技术-6。您可以先从连接两台高性能工作站开始,把它们的内存“拼”起来用,解决单个大任务内存不够的燃眉之急。

软件层面,可以关注像Exo 1.0这样的开源集群管理项目-6。关键是转变思路:不一定非要一次性建成庞大集群,可以从解决具体业务痛点(比如某个数据分析模型因内存不足跑不起来)的小型融合开始,用最低成本验证价值,再逐步扩展。

问题二:实现这种内存融合,技术门槛是不是特别高?需不需要组建专门的运维团队?

您点出了另一个核心顾虑。确实,早期的分布式系统配置起来能让工程师头发掉一半。但好消息是,技术正在朝着“开箱即用”和“业务无感”的方向演进。

以云原生数据库PolarDB的DMP功能为例,它的挂载时间小于1秒,而且在此期间业务完全感觉不到中断-1。最棒的是,您可以在业务毫无感知的情况下,动态开启、关闭甚至扩缩容这个分布式内存池-1

这意味着底层复杂的技术(比如多机缓存、RDMA网络调度)都被封装起来了。对于用户来说,可能就是在管理界面上点个开关,或者配置一下策略,比如设置“当单机内存使用率超过80%时,自动从共享内存池分配资源”。

当然,这不代表完全零门槛。初期可能需要技术人员理解一些新概念,比如数据在“本地缓存-本地内存-分布式内存-存储”之间的流动优先级-1。但相比过去需要深度修改应用程序的时代,现在的门槛已经降低了很多。供应商正在努力将复杂度留在自己这边,把简单易用留给客户。

问题三:除了跑AI大模型,DRAM分布式站点在哪些实际业务场景里最能发挥威力?

这是个好问题!AI大模型只是最吸睛的应用之一,实际上它的用武之地广泛得多。

想想这些场景:您的电商平台在“双十一”时,实时推荐系统需要同时处理数千万用户的点击流数据进行分析,这需要极大的内存来维持速度;或者您的金融风控系统要在毫秒内扫描海量的交易流水和客户关系图谱-7。这些都是典型的内存密集型负载,DRAM分布式站点能让它们的性能提升一个数量级-7

再比如,像Hess这样的能源公司,处理TB级的地震数据来勘探石油-9,或者大型视频平台做实时转码与渲染。这些场景的共同点是数据量大、对访问速度要求极高,而且计算任务可以被分解并行处理。

本质上,任何受限于“单机内存墙”、又需要极低延迟和数据一致性的业务,都是分布式内存的用武之地。它让数据在“哪里”对上层应用越来越透明,应用可以像使用本地内存一样使用跨越多个物理服务器的巨大内存空间,从而专注于业务逻辑本身。