今日科普|GPU电源供电电路解析
{news_date} 来源:

GPU供电为何成为算力瓶颈?AI大模型暴涨的功耗需求

2025年,AI算力需求正以每年5倍的速度飙升。华为预测,2025年全球AI算力需求将达105ZFLOPS,是2025年的500倍;荷兰机构更指出,2025年全球AI行业年耗电量可能突破134太瓦时,相当于1340亿度电。这些数据背后,是GPU功耗的疯狂增长——英伟达H100芯片热设计功耗(TDP)高达700W,下一代产品甚至可能突破千瓦级。传统横向供电架构的弊端在此刻暴露无遗:平面布局导致15%-20%的能量损耗,8块GPU服务🍭电子登录器的年电费因供电损耗增加数万美元,且电源模块与处理器距离过远,难以满足微秒级瞬态电流需求,电压跌落问题频发。

GPU电源供电电路解析

举个直观的例子:当AI大模型进行训练时,GPU需要瞬间从待机状态切换到满载状态,电流需求可能在几微秒内从几安培飙升至数百安培。传统供电架构中,电源模块与GPU之间的长距离走线会引入寄生电感,导致电压波动超过10%,这可能直接触发GPU的保护机制,中断训练任务。某头部云服务商的实测数据显示,采用传统供电架构的AI集群,因供电不稳定导致的训练中断频率高达每周3次,而优化供电架构后,中断频率降至每月1次。

从“平面”到“立体”:Z轴供电架构如何破解困局?

面对AI算力的“功耗爆炸”,MPS公司推出的Z轴供电™(ZPD™)架构成为行业焦点。其核心创新在于打破传统平面布局,通过垂直堆叠将稳压器直接放置在PCB底部、GPU下方,将电源路径(PDN)缩短至毫米级。实测数据显示,这种设计可使PDN损耗降低超过10倍,8块GPU服务器的年电费节省可达数万📞美元。

以MPS的MPC24380模块为例,其采用DrMOS顶置设计,将功率器件堆叠在模块顶部,配合微通道液冷板,热阻(ThetaJT)低至0.5K/W,较传统方案降低70%。该模块为四相、非隔离式、高效率降压设计,单相可输出65A电流,四相并联后总输出电流达260A,功率密度高达2A/mm²。更关键的是,它集成了驱动MOSFET(DrMOS)、电感和输出电容,体积仅9mm×10mm×4.8mm,却能满足AI GPU、TPU等大电流需求。某超算中心的实测表明,采用MPC24380后,GPU核心电压波动从±50mV降至±10mV,训练效率提升15%。

多相DrMOS:AI服务器的“供电心脏”

在GPU供电的第二阶段,多相DrMOS(集成式功率(lǜ)级(jí)模(mó)块(kuài))已(yǐ)成(chéng)为(wèi)主流(liú)方(fāng)案(àn)。其(qí)核(hé)心优势在于通过多路交错并🔻电子登录联,满足GPU对大电流、高效率和快速瞬态响应的需求。以某AI服务器为例,其GPU供电采用12相DrMOS设计,每相可承载65A电流,总输出电流达(dá)780A,远(yuǎn)超(chāo)单(dān)相(xiāng)方(fāng)案(àn)的(de)极(jí)限(xiàn)。

DrMOS的(de)技(jì)术(shù)壁(bì)垒(lěi)在(zài)于(yú)BCD工(gōng)艺(yì)(双(shuāng)极(jí)-CMOS-DMOS),该(gāi)工(gōng)艺(yì)在(zài)同(tóng)一(yī)芯(xīn)片(piàn)上(shàng)集成(chéng)三(sān)种(zhǒng)器(qì)件,既发挥了双极器件的驱动能力,又利用了CMOS的高集成度和低功耗,还具备DMOS的高压大电流通流能力。这种设计减少了寄生元件和传导损耗,供电效率提升5%-10%。某数据中心的实际运行数据显示,采用多相DrMOS后,GPU供电系统的整体效率从85%提升至92%,年节电量可达数十万度。

从市场格局看,DrMOS和多相控制器长期被MPS、英飞凌等欧美大厂垄断。但近年来,国内企业如杰华特、晶丰明源已实现突破:杰华特已量产30A-90A DrMOS及6相、8相、12相多相控制器,产品覆盖PC、服务器、AI等领域;晶丰明源的16相多相控制器已进入批量出货阶段,可适配多家GPU客户。随着AI算力的持续攀升,多相DrMOS的价值量正在倍增——通用服务器中单台电源管理芯片价值量约80美元,而AI服务器中该数值可提升数倍。

未来挑战:500千瓦级供电与智能能源管理

尽管Z轴供电和多相DrMOS已显著提升供电效率,但AI算力的增长仍远超技术迭代速度。某研究机构预测,到2025年,单颗GPU的功耗可能突破2025W,单机柜功率密度需达到500千瓦以上。这对供电技术提出三大挑战:一是如何进一步缩短PDN路径,可能需探索芯片级集成供电(如将稳压器直接集成到GPU封装内);二是如何开发更高效的电源转换技术,目标效率需从92%提升至95%以上;三是如何构建智能能源管理系统,通过AI算法动态调整供电策略,实现功耗与性能的最优平衡。

个人认为,未来GPU供电的竞争将集中在“集成度”与“智能化”两个维度。集成度方面,Z轴供电可能向“芯片级”演进,将稳压器、电感、电容等元件直接集成到GPU封装内,进一步缩短供电路径;智能化方面,供电系统可能具备自我学习能力,能根据GPU的负载模式动态调整供电相位和电流分配,甚至预测故障风险。例如,某实验室正在研发的“自感知供电架构”,可通过实时监测GPU的温度、电流波动等参数,提前调整供电策略,将故障率降低80%。

GPU供电电路的演进,本质是算力需求与物理极限的博弈。从传统横向供电的“长距离传输”,到Z轴供电的“毫米级耦合”;从单相供电的“力不从心”,到多相DrMOS的“游刃有余”;从被动供电的“稳定输出”,到智能供电的“动态优化”,每一次技术突破都在为AI算力扫清障碍。对于普通用户而言,或许无需深入了解供电电路的复杂原理,但需记住一个关键点:在选购AI硬件时,供电系统的设计(如相数、用料、散热)往往比核心参数更能决定长期稳定性🉐。毕竟,再强大的GPU,没有稳定的“心脏”,也不过是堆废铁。

需要的帮助

非常重视自身产品及用户体验,欢迎广大用户向我们提出相关产品及业务系统的意见和反馈,以帮助我们提升产品性能及用户体验。

首页 免费通话 联系我们