今日科普|GPU通用集成电路探讨_长沙集成电路设计有限公司

关于公司新闻

搜索

今日科普|GPU通用集成电路探讨

{news_date} 来源：

GPU：从图形渲染到通用计算的“超级打工人”

提到GPU，很多人第一反应是“游戏显卡”，但如今它早已突破图形渲染的边界，成为AI训练、科学计算、密码破解等领域的“算力担当”。举个直观的例子：一块英伟达A100 GPU的算力可达19.5 TFLOPS（每秒万亿次浮点运算），相当于同时指挥上万名“小学生”做数学题，而传统CPU可能只有几十名“学霸”在干活。这种“人海战术”式的并行计算能力，让GPU在处理大规模数据时效率远超CPU。数据更直观：OpenAI训练GPT-4时，使用了约2.5万块英伟达A100 GPU，算力需求高达3.64×10²³ FLOPS（浮点运算次数），相当于全球7🎭0亿人每人每秒做5亿次计算，持续算一年。而如果用CPU，成本(běn)和(hé)时(shí)间(jiān)可(kě)能(néng)翻(fān)数(shù)十(shí)倍(bèi)。这(zhè)也(yě)是(shì)为(wèi)什(shén)么(me)大(dà)模(mó)型(xíng)公(gōng)司(sī)纷(fēn)纷(fēn)“自(zì)研(yán)芯(xīn)片(piàn)”——OpenAI与(yǔ)博(bó)通(tōng)合(hé)作(zuò)量(liàng)产(chǎn)AI芯(xīn)片(piàn)，Meta推(tuī)出(chū)MTIA项(xiàng)目(mù)，谷(gǔ)歌(gē)TPU、亚(yà)马(mǎ)逊(xùn)Trainium等(děng)专(zhuān)用(yòng)芯(xīn)片(piàn)层(céng)出(chū)不穷，AI算力正从“GPU独大”走向“GPU+ASIC双轨制”。

GPU通用集成电路探讨

GPU的“通用性”密码：SIMT架构与内存黑科技

GPU的通用计算能力，源于其独特的SIMT（单指令多线程）架构。简单说，GPU把一个任务拆成无数小任务，让成千上万个“计算单元”（ALU）同时开工，就像工厂流水线上的工人，每人负责一个零件，最终组装成完整产品。而CPU更像“全能工匠”，一个人从头到尾完成一个复杂产品，效率高但产量低。内存设计是(shì)GPU的(de)另(lìng)一(yī)大(dà)优(yōu)势(shì)。以(yǐ)NVIDIA A100为(wèi)例(lì)，其(qí)配(pèi)备(bèi)的(de)HBM2e显(xiǎn)存(cún)带(dài)宽(kuān)高(gāo)达(dá)1.6TB/s，是(shì)普(pǔ)通(tōng)DDR5内(nèi)存(cún)的(de)31倍(bèi)。这(zhè)意(yì)味(wèi)着(zhe)GPU能(néng)像(xiàng)“闪(shǎn)电(diàn)侠(xiá)”一(yī)样(yàng)快(kuài)速(sù)读(dú)取(qǔ)数(shù)据(jù)，减(jiǎn)少(shǎo)等(děng)待(dài)时(shí)间(jiān)。举(jǔ)个(gè)例(lì)子(zi)：训(xun)练(liàn)一(yī)个(gè)千(qiān)亿(yì)参(cān)数(shù)的(de)大(dà)模(mó)型(xíng)，如(rú)果(guǒ)用(yòng)普(pǔ)通(tōng)内(nèi)存(cún)，可(kě)能(néng)因(yīn)为(wèi)数(shù)据(jù)传(chuán)输(shū)慢(màn)导(dǎo)致(zhì)GPU“闲(xián)等(děng)”，算(suàn)力(lì)利(lì)用(yòng)率(lǜ)不(bù)足(zú)30%；而(ér)用(yòng)HBM显(xiǎn)存(cún)，算(suàn)力(lì)利(lì)用(yòng)率(lǜ)能(néng)飙(biāo)升(shēng)至(zhì)80%以(yǐ)上(shàng)。但(dàn)GPU也(yě)不(bù)是(shì)“全能(néng)选(xuǎn)手(shǒu)”。它(tā)的(de)缓(huǎn)存(cún)（Cache）通(tōng)常(cháng)只(zhǐ)有(yǒu)2-4层(céng)，远(yuǎn)少(shǎo)于(yú)CPU的(de)4-8层(céng)，因(yīn)为(wèi)GPU更(gèng)依(yī)赖(lài)“批(pī)量(liàng)处(chù)理(lǐ)”而(ér)非(fēi)“单(dān)任(rèn)务(wu)快(kuài)速(sù)响(xiǎng)应(yīng)”。就(jiù)像(xiàng)快(kuài)递(dì)站(zhàn)，GPU更(gèng)擅(shàn)长(zhǎng)同(tóng)时(shí)处(chù)理(lǐ)上(shàng)万(wàn)个(gè)小(xiǎo)包(bāo)裹(guǒ)，而(ér)CPU更(gèng)擅(shàn)长(zhǎng)快(kuài)速(sù)处(chù)理(lǐ)一(yī)个(gè)紧(jǐn)急(jí)大(dà)件(jiàn)。

ASIC崛(jué)起(qǐ)：GPU的(de)“专(zhuān)用(yòng)对(duì)手(shǒu)”来(lái)了(le)

尽(jǐn)管(guǎn)GPU通(tōng)用(yòng)性(xìng)强(qiáng)，但(dàn)专(zhuān)用(yòng)芯(xīn)片(piàn)（ASIC）正(zhèng)在(zài)AI领(lǐng)域“攻(gōng)城(chéng)略(è)地(de)”。ASIC是(shì)为(wèi)特(tè)定(dìng)任(rèn)务(wu)设(shè)计(jì)的(de)芯(xīn)片(piàn)，就(jiù)像(xiàng)“定(dìng)制(zhì)西(xi)装(zhuāng)”，虽(suī)然(rán)不(bù)能(néng)改(gǎi)尺(chǐ)寸(cùn)，但(dàn)穿(chuān)起(qǐ)来(lái)更(gèng)合(hé)⚽️平台身(shēn)。以(yǐ)谷(gǔ)歌(gē)TPU为(wèi)例(lì)，其(qí)针(zhēn)对(duì)深(shēn)度(dù)学(xué)习(xí)推(tuī)理(lǐ)优(yōu)化(huà)，能(néng)效(xiào)比(bǐ)是(shì)GPU的(de)3-5倍(bèi)；博(bó)通(tōng)为(wèi)OpenAI设(shè)计(jì)的(de)ASIC芯(xīn)片(piàn)，据(jù)称(chēng)性(xìng)能(néng)比(bǐ)通(tōng)用(yòng)GPU提(tí)升(shēng)40%，功(gōng)耗(hào)降(jiàng)低(dī)30%。政(zhèng)策(cè)也(yě)在(zài)推(tuī)动(dòng)ASIC发展。中国工信部提出，到2025年ASIC芯片在AI训练、智能计算等领域的国产化率要突破60%。2025年中国AI算力需求中，ASIC占比已超30%，成为数据中心主流选择。例如，昆仑芯在中国移动AI服务器采购中拿下70%-100%份额，华为昇腾芯片的CANN架构全面开源，都在加速ASIC的普及。不过，ASIC的“专用性”也是双刃剑。设计ASIC需要数年时间和数亿美元投入，一旦任务变更（比如算法升级），芯片可能“过时”。而GPU通过软件更新就能适配新任务，灵活性更强。这也是为什么大模型公司既自研ASIC，又继续使用GPU——用ASIC处理固定任务（如推理），用GPU处理灵活任务（如训练）。

未来：GPU与ASIC的“融合之战”

GPU和ASIC的竞争，本质是“通用性”与“专用性”的博弈。未来，两者可能走向融合：GPU通过加入专用加速单元（如Tensor Core）提升特定任务效率；ASIC通过可编程设计（如FA技术）增加灵活性。例如，NVIDIA的Hopper架构GPU已集成Transformer引擎，专门优化大模型🅿平台训练；而博通的ASIC芯片也支持部分可编程功能，避免“一芯定终身”。对普通用户来说，这场竞争意味着更便宜的算力和更丰富的应用。2025年，国产GPU厂商摩尔线程、沐曦的营收复合增长率分别达208%和4074%，虽然仍亏损，但毛利率逐步改善。随着政策支持和市场需求爆发，未来3-5年中国AI芯片市场有望翻倍，GPU和ASIC的“双轨制”将推动AI从实验室走向千行百业。

从图形渲染到通用计🈴算，再到与ASIC的“相爱相杀”，GPU的进化史就是一部“算力平权”史。它让普通人也能用上曾经只有超级计算机才有的算力，让AI从“科幻”变成“现实”。下次当你用ChatGPT聊天、用Stable Diffusion画画时，不妨想想背后那些“超级打工人”——它们可能是一块GPU，也可能是一块ASIC，但共同的目标是：让计算更快、更便宜、更普及。

上一篇：今日科普|GPU服务器必用深南PCB？

下一篇：今日科普|红石电路打造迷你GPU