海光GPU驱动团队探秘_长沙集成电路设计有限公司

关于公司新闻

搜索

海光GPU驱动团队探秘

{news_date} 来源：

从实验室到产业：海光GPU的国产化突围之路

当你在2025年用手机刷到“国产AI大模型DeepSeek R1实现千亿参数推理”的新闻时，或许想不到背后支撑这场技术革命的，是一群扎根中科院的工程师团队。海光GPU驱动团队，这个被外界称为“国产算力隐秘战线”的群体，正用十年时间打破国外技术垄断。他们研发的DCU（深度计算单元）系列GPU，在🔥2025年6月与DeepSeek V3/R1模型完成适配后，直接推动国产大模型推理成本下降40%。更令人振奋的是，这款GPU的理论算力已达到英伟达A100的85%，在FP8混合精度训练场景下，实际性能差距缩小至12%。

海光GPU驱动团队探秘

“我们最初做GPU时，连生态工具链都要从零搭建。”团队核心成员李工回忆道。2025年海光被列入美国实体清单后，AMD停止了技术授权，但团队硬是靠着逆向工程和自主创新，在2025年9月推出深算二号GPU。这款采用7nm制程的芯片，不仅支持全精度浮点计算，更通过GPUFusion技术兼容CUDA生态，让国产AI框架能无缝迁移。数据显示，2025年海光DCU在科教、金融、医疗等领域的出货量同比增长217%，仅中科金财联合推出的金融大模型解决方案，就帮助银行客户将风险评估时间从72小时压缩至8小时。

性能狂飙的秘密：多令牌预测与FP8混合精度

“为什么我们的GPU能跑赢部分国际🏐竞品？关键在算法与硬件的深度耦合。”团队算法负责人王博士指着白板上的公式解释。海光独创的“多令牌预测技术”，通过动态调整计算单元的负载分配，使DCU在处理NLP任务时，单位时间文本处理量提升3倍。以2025年7月中国力学大会上展示的AI4CFD（计算流体力学）应用为例，搭配DCU的求解器将传统CFD的模拟周期从3周缩短至3天，误差率控制在0.8%以内。

更颠覆性的是FP8混合精度训练的突破。传🆚平台统GPU在训练千亿参数模型时，需要16位浮点数保证精度，但海光团队发现，通过动态误差补偿算法，FP8精度下模型收敛速度仅下降15%，而内存占用减少50%。这项技术让深算二号在训练DeepSeek-R1模型时，电力消耗比英伟达H20低22%。“就像用经济舱(cāng)的(de)价(jià)格(gé)坐(zuò)头(tóu)等(děng)舱(cāng)。”某(mǒu)云(yún)计(jì)算(suàn)厂(chǎng)商(shāng)CTO如(rú)此(cǐ)评(píng)价(jià)，“在(zài)边(biān)缘(yuán)计(jì)算(suàn)场(chǎng)景(jǐng)中(zhōng)，海(hǎi)光(guāng)DCU的(de)功(gōng)耗(hào)比(bǐ)竞(jìng)品(pǐn)低(dī)40%，却(què)能(néng)跑(pǎo)通(tōng)670亿(yì)参(cān)数(shù)的(de)满(mǎn)血(xuè)版(bǎn)DeepSeek。”

生(shēng)态(tài)战(zhàn)争(zhēng)：从(cóng)“能(néng)用(yòng)”到(dào)“好(hǎo)用(yòng)”的(de)跨(kuà)越

“做硬件容易，做生态难。”这是团队负责人张总工在2025年开发者大会上的感慨。为破解生态壁垒，海光祭出三招：第一，通过HIP接口实现CUDA代码零修改迁移，目前已有83%的CUDA应用可直接运行；第二，联合青云科技、联通云等伙伴，在270个骨干云池预部署🔴平台DeepSeek系列模型；第三，开放“光合开发者社区”，提供从驱动优化到模型调优的全套工具包。数据显示，2025年上半年，基于海光DCU的国产AI解决方案市场占有率从7.3%跃升至19.6%。

在金融领域，这种生态优势正在转化为真金白银。中科金财与海光联合推出的智能投顾系统，利用DCU的高效计算能力，将市场数据实时分析延迟从秒级降至毫秒级。某股份制银行测试显示，该系统在2025年Q2的投资建议准确率达91.2%，较传统CPU方案提升27个百分点。“以前我们用进口GPU，不仅要付高额授权费，还要担心断供风险。”银行科技部负责人坦言，“现在海光DCU不仅性能达标，还能提供7×24小时本地化支持。”

未来之战：异构计算与量子融合

站在2025年的门槛上，海光团队的目光已投向更远的未来。“下一代GPU要解决的不是算力问题，而是算力利用率问题。”张总工透露，团队正在研发的“深算三号”将集成量子计算模拟模块，通过异构架构实现经典-量子混合计算。初步测试显示，这种架构在药物分子模拟场景中，可将计算时间从数月压缩至数周。

而在应用层面，海光正与国家超算中心合作，构建“东数西算”异构算力网络。以2025年7月上线的“基石智算CoresHub”平台为例，该平台整合了海光DCU、寒武纪MLU等国产算力，提供从671B参数大模型到轻量化边缘模型的全栈服务。某自动驾驶企业测算，使用该平台后，其车载AI模型的训练成本较使用进口方案降低58%，而推理延迟仅增加3ms。“当算力不再受制于人，中国AI才能真正站上世界之巅。”这是海光团队写在实验室墙上的标语，也是他们正在书写的现实。

从被实体清单封锁到引领国产算力革命，海光GPU驱动团队的十年征程，恰是中国科技自立自强的缩影。当你在2025年享受AI带来的便利时，请记住：那些在实验室里与代码、硅晶片较劲的工程师们，正在用另一种方式守护着这个国家的数字未来。

上一篇：{prev_article_title}

下一篇：今日科普|电路板GPU1010探秘