探秘GPU电路原理图
{news_date} 来源:

GPU电(diàn)路:从(cóng)“画(huà)笔(bǐ)”到(dào)“算(suàn)力(lì)怪(guài)兽(shòu)”的(de)进(jìn)化(huà)史(shǐ)

如(rú)果(guǒ)把(bǎ)CPU比(bǐ)作(zuò)“学(xué)霸(bà)大(dà)脑(nǎo)”,那(nà)GPU就(jiù)是(shì)“千(qiān)手(shǒu)观(guān)音(yīn)”——它(tā)用(yòng)数(shù)以(yǐ)万(wàn)计(jì)的(de)运(yùn)算(suàn)核(hé)心(xīn)同(tóng)时(shí)处(chù)理(lǐ)任(rèn)务(wu),让(ràng)图(tú)形(xíng)渲(xuàn)染(rǎn)、深(shēn)度(dù)学(xué)习(xí)等(děng)场(chǎng)景(jǐng)效(xiào)率(lǜ)飙(biāo)升(shēng)。2025年(nián),英(yīng)伟(wěi)达(dá)Blackwell架(jià)构(gòu)GPU的(de)🈸平台FP8算(suàn)力(lì)突(tū)破(pò)30,000 samples/sec,相(xiāng)当(dāng)于(yú)每(měi)秒(miǎo)能(néng)完(wán)成(chéng)3万(wàn)次(cì)8位(wèi)浮(fú)点(diǎn)运(yùn)算(suàn),这(zhè)个(gè)数(shù)字(zì)是(shì)早(zǎo)期(qī)GPU的(de)数(shù)千(qiān)倍(bèi)。但(dàn)你(nǐ)知(zhī)道(dào)吗(ma)?GPU的(de)“超(chāo)能(néng)力(lì)”并(bìng)非(fēi)天(tiān)生(shēng),它(tā)的(de)电(diàn)路设(shè)计(jì)藏(cáng)着(zhe)从(cóng)图(tú)形(xíng)专(zhuān)用(yòng)到(dào)通(tōng)用(yòng)计(jì)算(suàn)的(de)进(jìn)化(huà)密(mì)码(mǎ)。

探(tàn)秘(mì)GPU电(diàn)路原(yuán)理(lǐ)图(tú)

核(hé)心(xīn)架(jià)构(gòu):从(cóng)“固(gù)定(dìng)流(liú)水(shuǐ)线(xiàn)”到(dào)“可(kě)编(biān)程(chéng)矩(ju)阵(zhèn)工(gōng)厂(chǎng)”

早(zǎo)期(qī)GPU的(de)电(diàn)路像(xiàng)一(yī)条(tiáo)“富(fù)士(shì)康(kāng)流(liú)水(shuǐ)线(xiàn)”:每(měi)个(gè)单(dān)元(yuán)只(zhǐ)做(zuò)一(yī)件事,比如顶点变换、光栅化或像素着色。例如,1999年英伟达GeForce256首次将变换与光照(T&L)从CPU剥离,但它的流水线仍固定不可编程。而现代GPU的电路则像“乐高积木”——以NVIDIA的SM(流式多处理器)为例(lì),每(měi)个(gè)SM包(bāo)含(hán)32个(gè)CUDA核(hé)心(xīn)、Tensor Core和(hé)RT Core,既(jì)能(néng)处(chù)理(lǐ)传(chuán)统(tǒng)图(tú)形(xíng)任(rèn)务(wu),也(yě)能(néng)通(tōng)过(guò)CUDA/OpenCL编(biān)程(chéng)执(zhí)行(xíng)通(tōng)用(yòng)计(jì)算(suàn)。2025年(nián)Blackwell架(jià)构(gòu)的(de)第(dì)四(sì)代(dài)Tensor Core,单(dān)周(zhōu)期(qī)可(kě)完(wán)成(chéng)4×4矩(ju)阵(zhèn)乘(chéng)加(jiā)运(yùn)算(suàn),在(zài)FP8精(jīng)度(dù)下(xià)算(suàn)力(lì)达(dá)30TFLOPS,相(xiāng)当(dāng)于(yú)每(měi)秒(miǎo)能(néng)处(chù)理(lǐ)30万(wàn)亿(yì)次(cì)矩(ju)阵(zhèn)运(yùn)算(suàn),这(zhè)种(zhǒng)“硬(yìng)件(jiàn)级(jí)加(jiā)速(sù)”让(ràng)AI训(xun)练(liàn)效(xiào)率(lǜ)提(tí)升(shēng)数(shù)十(shí)倍(bèi)。

更(gèng)有(yǒu)趣(qù)的(de)是(shì),GPU的(de)“并(bìng)行(xíng)哲(zhé)学(xué)”在(zài)电(diàn)路中(zhōng)体(tǐ)现(xiàn)得(de)淋(lín)漓(lí)尽(jǐn)致(zhì)。以(yǐ)矩(ju)阵(zhèn)乘(chéng)法(fǎ)为(wèi)例(lì),CPU需(xū)要(yào)逐(zhú)元(yuán)素(sù)计(jì)算(suàn),而(ér)GPU的(de)SIMT(单(dān)指(zhǐ)令(lìng)多(duō)线(xiàn)程(chéng))架(jià)构(gòu)能(néng)让(ràng)32个(gè)线(xiàn)程(chéng)同(tóng)时(shí)执(zhí)行(xíng)同(tóng)一(yī)指(zhǐ)令(lìng),不(bù)同(tóng)线(xiàn)程(chéng)处(chù)理(lǐ)矩(ju)阵(zhèn)的(de)不(bù)同(tóng)行(xíng)。这(zhè)种(zhǒng)设(shè)计(jì)让(ràng)GPU在(zài)GEMM(通(tōng)用(yòng)矩(ju)阵(zhèn)乘(chéng)法(fǎ))等(děng)计(jì)算(suàn)密(mì)集型(xíng)任(rèn)务(wu)中(zhōng),实(shí)测(cè)算(suàn)力(lì)接(jiē)近(jìn)理(lǐ)论(lùn)峰(fēng)值(zhí)的(de)90%,而(ér)CPU通(tōng)常(cháng)只(zhǐ)能(néng)达(dá)到(dào)30%-50%。

内(nèi)存(cún)架(jià)构(gòu):从(cóng)“缓(huǎn)存(cún)依(yī)赖(lài)”到(dào)“带(dài)宽(kuān)狂(kuáng)魔(mó)”

GPU的(de)电(diàn)路设(shè)计(jì)对(duì)内(nèi)存(cún)的(de)依(yī)赖(lài)与(yǔ)CPU截(jié)然(rán)不(bù)同(tóng)。CPU用(yòng)多(duō)层(céng)缓(huǎn)存(cún)(L1/L2/L3)降(jiàng)低(dī)延(yán)迟(chí),而(ér)GPU则(zé)用(yòng)“暴(bào)力(lì)堆(duī)带(dài)宽(kuān)”掩(yǎn)盖(gài)延(yán)迟(chí)。以(yǐ)H100为(wèi)例(lì),其(qí)配(pèi)备(bèi)80GB HBM3显(xiǎn)存(cún),带(dài)宽(kuān)高(gāo)达(dá)3.35TB/s,是(shì)普(pǔ)通(tōng)DDR5内(nèi)存(cún)的(de)65倍(bèi)。这(zhè)种(zhǒng)设(shè)计(jì)让(ràng)GPU能(néng)同(tóng)时(shí)加(jiā)载(zài)海(hǎi)量(liàng)数(shù)据(jù)——比(bǐ)如(rú)训(xun)练(liàn)GPT-3时(shí),1750亿(yì)参(cān)数(shù)的(de)模(mó)型(xíng)需(xū)要(yào)一(yī)次(cì)性(xìng)加(jiā)载(zài)到(dào)显(xiǎn)存(cún),若(ruò)用(yòng)CPU的(de)DDR内(nèi)存(cún),仅(jǐn)数(shù)据(jù)传(chuán)输(shū)时(shí)间(jiān)就(jiù)可(kě)能(néng)超(chāo)过(guò)1小(xiǎo)时(shí),而(ér)H100通(tōng)过(guò)高(gāo)带(dài)宽(kuān)显(xiǎn)存(cún)和(hé)NVLink 4.0互(hù)联(lián)技(jì)术(shù),3584块(kuài)卡(kǎ)集群(qún)仅(jǐn)需(xū)11分(fēn)钟(zhōng)即(jí)可(kě)完(wán)成(chéng)训(xun)练(liàn)。

但高带宽的代价是功耗。H100的TDP(热设计功耗)达700W,相当于同时运行20台高配游戏本。为了散热,数据中心不得不采用液冷技术,甚至将GPU直接浸入矿物油中。这种“暴力美学”也引发争议:有人认为高功耗是技术瓶颈,也有人认为这是“用能源换时间”的合理妥协——毕竟,在AI训练🍁场景中,时间成本可能远高于电费。

热点应用:从“游戏显卡”到“AI基石”

2025年的GPU早已突破图形边界,成为AI、科学计算的核心引擎。以医疗AI为例,Jetson Orin边缘设备用528个Tens🍅平台or Core实时处理超声影像,延迟低于10ms;而8块A100集群则能完成3D影像分割,Volcano调度器将任务延迟降低60%。更极端的是,Lightmatter的Envise芯片用光干涉实现矩阵乘法,延迟比GPU低90%,能效比达100 TOPS/W(每瓦特100万亿次运算),但目前仅支持特定精度计算,通用性仍不及GPU。

游戏领域也在反向推动GPU进化。NVIDIA DLSS4技术通过多帧生成(1渲染帧→4输出帧)和Reflex2低延迟技术,让《赛博朋克2025》在1080p分辨率下平均帧率达142 FPS。这种“用AI优化图形”的思路,正让GPU从“渲染工具”升级为“智能视觉中枢”。

未来展望:存算一体与光计算的挑战

尽管GPU已称霸算力领域,但物理极限正在逼近。Dennard缩放定律失效后,晶体管微缩带来的性能增益逐渐放缓,2025年最先进的3nm工艺已接近硅基芯片的极限。为此,业界开始探索两条新路:一是存算一体,将计算单元嵌入存储器(如三星MRAM NPU),让数据在存储🎨时直接完成计算,减少数据搬运;二是光计算,用光子替代电子传输信号,理论上能突破带宽瓶颈(光子频率比电子高数个数量级)。

不过,这些技术仍面临挑战。存算一体需要重新设计内存架构,而光计算则需解决光信号调制、误差校正等工程难题。或许在10年后,GPU的电路图会彻底改写——但可以肯(kěn)定(dìng)的(de)是(shì),无(wú)论(lùn)技(jì)术(shù)如(rú)何(hé)演(yǎn)变(biàn),“并(bìng)行(xíng)计(jì)算(suàn)”这(zhè)一(yī)核(hé)心(xīn)逻(luó)辑(ji)仍(réng)将(jiāng)是(shì)算(suàn)力(lì)突(tū)破(pò)的(de)关键。

需要的帮助

非常重视自身产品及用户体验,欢迎广大用户向我们提出相关产品及业务系统的意见和反馈,以帮助我们提升产品性能及用户体验。

首页 免费通话 联系我们