GPU运算核心电路探秘_长沙集成电路设计有限公司

关于公司新闻

搜索

GPU运算核心电路探秘

{news_date} 来源：

GPU的(de)“大(dà)脑(nǎo)”：流(liú)式(shì)多(duō)处(chù)理(lǐ)器(qì)（SM）的(de)惊(jīng)人(rén)算(suàn)力(lì)

如(rú)果(guǒ)把(bǎ)GPU比(bǐ)作(zuò)一(yī)座(zuò)超(chāo)级(jí)工(gōng)厂(chǎng)，那(nà)么(me)流(liú)式(shì)多(duō)处(chù)理(lǐ)器(qì)（SM）就(jiù)是(shì)这(zhè)座(zuò)工(gōng)厂(chǎng)里(lǐ)的(de)核(hé)心(xīn)车(chē)间(jiān)。以(yǐ)英(yīng)伟(wěi)达(dá)最(zuì)新(xīn)H100 GPU为(wèi)例(lì)，它(tā)内(nèi)部(bù)集成(chéng)了(le)132个(gè)SM，每(měi)个(gè)SM又(yòu)包(bāo)含(hán)64个(gè)通(tōng)用(yòng)计(jì)算(suàn)核(hé)心(xīn)、128个(gè)张(zhāng)量(liàng)核(hé)心(xīn)（专(zhuān)为(wèi)矩(ju)阵(zhèn)运(yùn)算(suàn)优(yōu)化(huà)）以(yǐ)及(jí)光(guāng)线(xiàn)追(zhuī)踪(zōng)单(dān)元(yuán)。这(zhè)种(zhǒng)“车(chē)间(jiān)级(jí)”的(de)并(bìng)行(xíng)架(jià)构(gòu)，让(ràng)H100的(de)32位(wèi)浮(fú)点(diǎn)吞(tūn)吐(tǔ)率(lǜ)高(gāo)达(dá)8448 TFLOPS，相(xiāng)当(dāng)于(yú)同(tóng)时(shí)处(chù)理(lǐ)8448万(wàn)亿(yì)次(cì)运(yùn)算(suàn)。对(duì)比(bǐ)之(zhī)下(xià)，24核(hé)Intel CPU的(de)同(tóng)规(guī)格(gé)算(suàn)力(lì)仅(jǐn)0.66 TFLOPS，差(chà)距(jù)超(chāo)过(guò)12800倍(bèi)。这(zhè)种(zhǒng)算(suàn)力(lì)差(chà)异(yì)，正(zhèng)是(shì)GPU能(néng)在(zài)大(dà)模(mó)型(xíng)训(xun)练(liàn)中(zhōng)“碾(niǎn)压(yā)”CPU的(de)核(hé)心(xīn)原(yuán)因(yīn)——当(dāng)GPT-4需(xū)要(yào)处(chù)理(lǐ)1.8万(wàn)亿(yì)参(cān)数(shù)时(shí)，H100集群(qún)的(de)并(bìng)行(xíng)计(jì)算(suàn)能(néng)力(lì)能(néng)让(ràng)训(xun)练(liàn)时(shí)间(jiān)从(cóng)数(shù)月(yuè)缩(suō)短(duǎn)🈺至(zhì)数(shù)周(zhōu)。

GPU运(yùn)算(suàn)核(hé)心(xīn)电(diàn)路探(tàn)秘(mì)

从(cóng)显(xiǎn)存(cún)到(dào)寄(jì)存(cún)器(qì)：数(shù)据(jù)流(liú)动(dòng)的(de)“高(gāo)速(sù)公(gōng)路”

GPU的(de)算(suàn)力(lì)爆(bào)发(fā)离(lí)不(bù)开(kāi)高(gāo)效(xiào)的(de)内(nèi)存(cún)架(jià)构(gòu)。以(yǐ)H100为(wèi)例(lì)，其(qí)显(xiǎn)存(cún)容(róng)量(liàng)达(dá)80GB，带(dài)宽(kuān)高(gāo)达(dá)3.35TB/s，相(xiāng)当(dāng)于(yú)每(měi)秒(miǎo)传(chuán)输(shū)2025部(bù)高(gāo)清(qīng)电(diàn)影(yǐng)。但(dàn)真(zhēn)正(zhèng)决(jué)定(dìng)性(xìng)能(néng)的(de)，是(shì)更(gèng)底(dǐ)层(céng)的(de)存(cún)储(chǔ)层(céng)级(jí)：每(měi)个(gè)SM内(nèi)部(bù)分(fēn)为(wèi)寄(jì)存(cún)器(qì)（速(sù)度(dù)最(zuì)快(kuài)，线(xiàn)程(chéng)独(dú)占(zhàn)）、共(gòng)享(xiǎng)内(nèi)存(cún)（高(gāo)速(sù)SRAM，供(gōng)线(xiàn)程(chéng)块(kuài)共(gòng)享(xiǎng)）和(hé)L1缓(huǎn)存(cún)（延(yán)迟(chí)仅(jǐn)1-2个(gè)时(shí)钟(zhōng)周(zhōu)期(qī)）。这(zhè)种(zhǒng)设(shè)计(jì)让(ràng)数(shù)据(jù)在(zài)计(jì)算(suàn)核(hé)心(xīn)间(jiān)流(liú)动(dòng)时(shí)几(jǐ)乎(hu)🍉无(wú)需(xū)等(děng)待(dài)——当(dāng)训(xun)练(liàn)Transformer模(mó)型(xíng)时(shí)，矩(ju)阵(zhèn)乘(chéng)法(fǎ)运(yùn)算(suàn)的(de)数(shù)据(jù)可(kě)以(yǐ)直(zhí)接(jiē)从(cóng)共(gòng)享(xiǎng)内(nèi)存(cún)读(dú)取(qǔ)，避(bì)免(miǎn)了(le)全局(jú)内(nèi)存(cún)的(de)高(gāo)延(yán)迟(chí)。不(bù)过(guò)，这(zhè)种(zhǒng)“暴(bào)力(lì)堆(duī)料(liào)”也(yě)带(dài)来(lái)代(dài)价(jià)：H100的(de)功(gōng)耗(hào)高(gāo)达(dá)700W，相(xiāng)当(dāng)于(yú)同(tóng)时(shí)点(diǎn)亮(liàng)14台(tái)家(jiā)用(yòng)空(kōng)调(diào)，这(zhè)也(yě)是(shì)为什么微软在德州阿比林规划的4.5GW电力接入（相当于五座核电站）会引发全球关注——AI竞赛的下一战场，正在从芯片转向电力基建。

SIMT执行模式：让“鸡群”协同作战的魔法

GPU的并行计算能力，本质上源于SIMT（单指令多线程）执行模式。想象一下：一个SM就像一个能同时指挥32个工人的车间主任（每个Warp包含32个线程），当工人A需要等待数据时，主任立刻切换到工人B继续工作，无需任何上下文切换开销。这种设计让H100的每个SM能同时运行64个Warp（共2025个线程），占用率拉满时，算力利用率可达90%以上。但在实际场景中，低占用率会成为性能杀手——比如实时渲染游戏时，如果每个线程的计算量不均衡，可能导致部分SM闲置，算力浪费高达40%。这也是为什么开发者需要精心设计线程块大小（如设为64而非32），通过增加线程数来“填满”SM的槽位。

ASIC的挑战：专用芯片能否撼动GPU地位？

当GPU因高功耗（H100单卡功耗700W）和成本（DGX B200平台售价超百万元）被诟病时，专用芯片（ASIC）正以“精准打击”的姿态崛起。谷歌TPU v5在推理任务中，性能比H100提升30%，功耗降低40%；华为昇腾384超节点在训练场景下，整体算力是英伟达GB200机柜的1.6倍。但ASIC的“专精”特性也带来致命短板——当GPT-4升级到GPT-5时，旧款ASIC可能因算法不兼容而报废，而GPU通过CUDA生态的灵活性，能快速适配新模型。这种“通用性VS专用性”的博弈，正推动行业走向“异构融合”：数据中心里，CPU负责调度，GPU处理训练任务，ASIC承担规模化推理，三者协同实现算力效率最大化。例如🥕电子登录，上海仪电智算中心已建成14000P算力集群，其中就混合使用了英伟达A100、华为昇腾和沪产芯片，通过无问芯穹的异构平台实现千卡规模混训。

未来展望：从芯片到能源的全面战争

GPU的进化史，本质是一部“突破物理极限”的历史。从2025年CUDA架构诞生，到2025年H100的8448个核心，GPU通过堆叠计算单元和优化🎲电子登录内存架构，将算力推向新高度。但这场竞赛正面临双重挑战：一方面，3D堆叠技术、新型半导体材料（如碳纳米管）的应用，让芯片算力密度持续提升；另一方面，AI行业的电力消耗每6个月增长10倍，国际能源署预测2025年全球AI耗电量将超1000太瓦时（相当于日本全年用电量）。在这场“算力与能源”的双重博弈中，中国凭借统一电网和清洁能源优势（如华为在内蒙古布局的光伏数据中心），正在构建新的竞争力。或许不久的将来，GPU的“运算核心电路”探秘，将不仅关乎芯片设计，更关乎如何用绿色电力驱动这场人工智能革命。

上一篇：今日科普|1. GPU电路图深度解析

下一篇：10字：兆芯GPU发展之路