探秘GPU电路原理图_长沙集成电路设计有限公司

关于公司新闻

搜索

探秘GPU电路原理图

{news_date} 来源：

GPU电(diàn)路：从(cóng)“画(huà)笔(bǐ)”到(dào)“算(suàn)力(lì)怪(guài)兽(shòu)”的(de)进(jìn)化(huà)史(shǐ)

如(rú)果(guǒ)把(bǎ)CPU比(bǐ)作(zuò)“学(xué)霸(bà)大(dà)脑(nǎo)”，那(nà)GPU就(jiù)是(shì)“千(qiān)手(shǒu)观(guān)音(yīn)”——它(tā)用(yòng)数(shù)以(yǐ)万(wàn)计(jì)的(de)运(yùn)算(suàn)核(hé)心(xīn)同(tóng)时(shí)处(chù)理(lǐ)任(rèn)务(wu)，让(ràng)图(tú)形(xíng)渲(xuàn)染(rǎn)、深(shēn)度(dù)学(xué)习(xí)等(děng)场(chǎng)景(jǐng)效(xiào)率(lǜ)飙(biāo)升(shēng)。2025年(nián)，英(yīng)伟(wěi)达(dá)Blackwell架(jià)构(gòu)GPU的(de)🈸平台FP8算(suàn)力(lì)突(tū)破(pò)30,000 samples/sec，相(xiāng)当(dāng)于(yú)每(měi)秒(miǎo)能(néng)完(wán)成(chéng)3万(wàn)次(cì)8位(wèi)浮(fú)点(diǎn)运(yùn)算(suàn)，这(zhè)个(gè)数(shù)字(zì)是(shì)早(zǎo)期(qī)GPU的(de)数(shù)千(qiān)倍(bèi)。但(dàn)你(nǐ)知(zhī)道(dào)吗(ma)？GPU的(de)“超(chāo)能(néng)力(lì)”并(bìng)非(fēi)天(tiān)生(shēng)，它(tā)的(de)电(diàn)路设(shè)计(jì)藏(cáng)着(zhe)从(cóng)图(tú)形(xíng)专(zhuān)用(yòng)到(dào)通(tōng)用(yòng)计(jì)算(suàn)的(de)进(jìn)化(huà)密(mì)码(mǎ)。

探(tàn)秘(mì)GPU电(diàn)路原(yuán)理(lǐ)图(tú)

核(hé)心(xīn)架(jià)构(gòu)：从(cóng)“固(gù)定(dìng)流(liú)水(shuǐ)线(xiàn)”到(dào)“可(kě)编(biān)程(chéng)矩(ju)阵(zhèn)工(gōng)厂(chǎng)”

早(zǎo)期(qī)GPU的(de)电(diàn)路像(xiàng)一(yī)条(tiáo)“富(fù)士(shì)康(kāng)流(liú)水(shuǐ)线(xiàn)”：每(měi)个(gè)单(dān)元(yuán)只(zhǐ)做(zuò)一(yī)件事，比如顶点变换、光栅化或像素着色。例如，1999年英伟达GeForce256首次将变换与光照（T&L）从CPU剥离，但它的流水线仍固定不可编程。而现代GPU的电路则像“乐高积木”——以NVIDIA的SM（流式多处理器）为例(lì)，每(měi)个(gè)SM包(bāo)含(hán)32个(gè)CUDA核(hé)心(xīn)、Tensor Core和(hé)RT Core，既(jì)能(néng)处(chù)理(lǐ)传(chuán)统(tǒng)图(tú)形(xíng)任(rèn)务(wu)，也(yě)能(néng)通(tōng)过(guò)CUDA/OpenCL编(biān)程(chéng)执(zhí)行(xíng)通(tōng)用(yòng)计(jì)算(suàn)。2025年(nián)Blackwell架(jià)构(gòu)的(de)第(dì)四(sì)代(dài)Tensor Core，单(dān)周(zhōu)期(qī)可(kě)完(wán)成(chéng)4×4矩(ju)阵(zhèn)乘(chéng)加(jiā)运(yùn)算(suàn)，在(zài)FP8精(jīng)度(dù)下(xià)算(suàn)力(lì)达(dá)30TFLOPS，相(xiāng)当(dāng)于(yú)每(měi)秒(miǎo)能(néng)处(chù)理(lǐ)30万(wàn)亿(yì)次(cì)矩(ju)阵(zhèn)运(yùn)算(suàn)，这(zhè)种(zhǒng)“硬(yìng)件(jiàn)级(jí)加(jiā)速(sù)”让(ràng)AI训(xun)练(liàn)效(xiào)率(lǜ)提(tí)升(shēng)数(shù)十(shí)倍(bèi)。

更(gèng)有(yǒu)趣(qù)的(de)是(shì)，GPU的(de)“并(bìng)行(xíng)哲(zhé)学(xué)”在(zài)电(diàn)路中(zhōng)体(tǐ)现(xiàn)得(de)淋(lín)漓(lí)尽(jǐn)致(zhì)。以(yǐ)矩(ju)阵(zhèn)乘(chéng)法(fǎ)为(wèi)例(lì)，CPU需(xū)要(yào)逐(zhú)元(yuán)素(sù)计(jì)算(suàn)，而(ér)GPU的(de)SIMT（单(dān)指(zhǐ)令(lìng)多(duō)线(xiàn)程(chéng)）架(jià)构(gòu)能(néng)让(ràng)32个(gè)线(xiàn)程(chéng)同(tóng)时(shí)执(zhí)行(xíng)同(tóng)一(yī)指(zhǐ)令(lìng)，不(bù)同(tóng)线(xiàn)程(chéng)处(chù)理(lǐ)矩(ju)阵(zhèn)的(de)不(bù)同(tóng)行(xíng)。这(zhè)种(zhǒng)设(shè)计(jì)让(ràng)GPU在(zài)GEMM（通(tōng)用(yòng)矩(ju)阵(zhèn)乘(chéng)法(fǎ)）等(děng)计(jì)算(suàn)密(mì)集型(xíng)任(rèn)务(wu)中(zhōng)，实(shí)测(cè)算(suàn)力(lì)接(jiē)近(jìn)理(lǐ)论(lùn)峰(fēng)值(zhí)的(de)90%，而(ér)CPU通(tōng)常(cháng)只(zhǐ)能(néng)达(dá)到(dào)30%-50%。

内(nèi)存(cún)架(jià)构(gòu)：从(cóng)“缓(huǎn)存(cún)依(yī)赖(lài)”到(dào)“带(dài)宽(kuān)狂(kuáng)魔(mó)”

GPU的(de)电(diàn)路设(shè)计(jì)对(duì)内(nèi)存(cún)的(de)依(yī)赖(lài)与(yǔ)CPU截(jié)然(rán)不(bù)同(tóng)。CPU用(yòng)多(duō)层(céng)缓(huǎn)存(cún)（L1/L2/L3）降(jiàng)低(dī)延(yán)迟(chí)，而(ér)GPU则(zé)用(yòng)“暴(bào)力(lì)堆(duī)带(dài)宽(kuān)”掩(yǎn)盖(gài)延(yán)迟(chí)。以(yǐ)H100为(wèi)例(lì)，其(qí)配(pèi)备(bèi)80GB HBM3显(xiǎn)存(cún)，带(dài)宽(kuān)高(gāo)达(dá)3.35TB/s，是(shì)普(pǔ)通(tōng)DDR5内(nèi)存(cún)的(de)65倍(bèi)。这(zhè)种(zhǒng)设(shè)计(jì)让(ràng)GPU能(néng)同(tóng)时(shí)加(jiā)载(zài)海(hǎi)量(liàng)数(shù)据(jù)——比(bǐ)如(rú)训(xun)练(liàn)GPT-3时(shí)，1750亿(yì)参(cān)数(shù)的(de)模(mó)型(xíng)需(xū)要(yào)一(yī)次(cì)性(xìng)加(jiā)载(zài)到(dào)显(xiǎn)存(cún)，若(ruò)用(yòng)CPU的(de)DDR内(nèi)存(cún)，仅(jǐn)数(shù)据(jù)传(chuán)输(shū)时(shí)间(jiān)就(jiù)可(kě)能(néng)超(chāo)过(guò)1小(xiǎo)时(shí)，而(ér)H100通(tōng)过(guò)高(gāo)带(dài)宽(kuān)显(xiǎn)存(cún)和(hé)NVLink 4.0互(hù)联(lián)技(jì)术(shù)，3584块(kuài)卡(kǎ)集群(qún)仅(jǐn)需(xū)11分(fēn)钟(zhōng)即(jí)可(kě)完(wán)成(chéng)训(xun)练(liàn)。

但高带宽的代价是功耗。H100的TDP（热设计功耗）达700W，相当于同时运行20台高配游戏本。为了散热，数据中心不得不采用液冷技术，甚至将GPU直接浸入矿物油中。这种“暴力美学”也引发争议：有人认为高功耗是技术瓶颈，也有人认为这是“用能源换时间”的合理妥协——毕竟，在AI训练🍁场景中，时间成本可能远高于电费。

热点应用：从“游戏显卡”到“AI基石”

2025年的GPU早已突破图形边界，成为AI、科学计算的核心引擎。以医疗AI为例，Jetson Orin边缘设备用528个Tens🍅平台or Core实时处理超声影像，延迟低于10ms；而8块A100集群则能完成3D影像分割，Volcano调度器将任务延迟降低60%。更极端的是，Lightmatter的Envise芯片用光干涉实现矩阵乘法，延迟比GPU低90%，能效比达100 TOPS/W（每瓦特100万亿次运算），但目前仅支持特定精度计算，通用性仍不及GPU。

游戏领域也在反向推动GPU进化。NVIDIA DLSS4技术通过多帧生成（1渲染帧→4输出帧）和Reflex2低延迟技术，让《赛博朋克2025》在1080p分辨率下平均帧率达142 FPS。这种“用AI优化图形”的思路，正让GPU从“渲染工具”升级为“智能视觉中枢”。

未来展望：存算一体与光计算的挑战

尽管GPU已称霸算力领域，但物理极限正在逼近。Dennard缩放定律失效后，晶体管微缩带来的性能增益逐渐放缓，2025年最先进的3nm工艺已接近硅基芯片的极限。为此，业界开始探索两条新路：一是存算一体，将计算单元嵌入存储器（如三星MRAM NPU），让数据在存储🎨时直接完成计算，减少数据搬运；二是光计算，用光子替代电子传输信号，理论上能突破带宽瓶颈（光子频率比电子高数个数量级）。

不过，这些技术仍面临挑战。存算一体需要重新设计内存架构，而光计算则需解决光信号调制、误差校正等工程难题。或许在10年后，GPU的电路图会彻底改写——但可以肯(kěn)定(dìng)的(de)是(shì)，无(wú)论(lùn)技(jì)术(shù)如(rú)何(hé)演(yǎn)变(biàn)，“并(bìng)行(xíng)计(jì)算(suàn)”这(zhè)一(yī)核(hé)心(xīn)逻(luó)辑(ji)仍(réng)将(jiāng)是(shì)算(suàn)力(lì)突(tū)破(pò)的(de)关键。

上一篇：今日科普|10字：探秘手机GPU电路

下一篇：10字：GPU温控电路探秘