从实验室到产业:海光GPU的国产化突围之路
当你在2025年用手机刷到“国产AI大模型DeepSeek R1实现千亿参数推理”的新闻时,或许想不到背后支撑这场技术革命的,是一群扎根中科院的工程师团队。海光GPU驱动团队,这个被外界称为“国产算力隐秘战线”的群体,正用十年时间打破国外技术垄断。他们研发的DCU(深度计算单元)系列GPU,在🔥2025年6月与DeepSeek V3/R1模型完成适配后,直接推动国产大模型推理成本下降40%。更令人振奋的是,这款GPU的理论算力已达到英伟达A100的85%,在FP8混合精度训练场景下,实际性能差距缩小至12%。
“我们最初做GPU时,连生态工具链都要从零搭建。”团队核心成员李工回忆道。2025年海光被列入美国实体清单后,AMD停止了技术授权,但团队硬是靠着逆向工程和自主创新,在2025年9月推出深算二号GPU。这款采用7nm制程的芯片,不仅支持全精度浮点计算,更通过GPUFusion技术兼容CUDA生态,让国产AI框架能无缝迁移。数据显示,2025年海光DCU在科教、金融、医疗等领域的出货量同比增长217%,仅中科金财联合推出的金融大模型解决方案,就帮助银行客户将风险评估时间从72小时压缩至8小时。
性能狂飙的秘密:多令牌预测与FP8混合精度
“为什么我们的GPU能跑赢部分国际🏐竞品?关键在算法与硬件的深度耦合。”团队算法负责人王博士指着白板上的公式解释。海光独创的“多令牌预测技术”,通过动态调整计算单元的负载分配,使DCU在处理NLP任务时,单位时间文本处理量提升3倍。以2025年7月中国力学大会上展示的AI4CFD(计算流体力学)应用为例,搭配DCU的求解器将传统CFD的模拟周期从3周缩短至3天,误差率控制在0.8%以内。
更颠覆性的是FP8混合精度训练的突破。传🆚平台统GPU在训练千亿参数模型时,需要16位浮点数保证精度,但海光团队发现,通过动态误差补偿算法,FP8精度下模型收敛速度仅下降15%,而内存占用减少50%。这项技术让深算二号在训练DeepSeek-R1模型时,电力消耗比英伟达H20低22%。“就像用经济舱(cāng)的(de)价(jià)格(gé)坐(zuò)头(tóu)等(děng)舱(cāng)。”某(mǒu)云(yún)计(jì)算(suàn)厂(chǎng)商(shāng)CTO如(rú)此(cǐ)评(píng)价(jià),“在(zài)边(biān)缘(yuán)计(jì)算(suàn)场(chǎng)景(jǐng)中(zhōng),海(hǎi)光(guāng)DCU的(de)功(gōng)耗(hào)比(bǐ)竞(jìng)品(pǐn)低(dī)40%,却(què)能(néng)跑(pǎo)通(tōng)670亿(yì)参(cān)数(shù)的(de)满(mǎn)血(xuè)版(bǎn)DeepSeek。”
生(shēng)态(tài)战(zhàn)争(zhēng):从(cóng)“能(néng)用(yòng)”到(dào)“好(hǎo)用(yòng)”的(de)跨(kuà)越
“做硬件容易,做生态难。”这是团队负责人张总工在2025年开发者大会上的感慨。为破解生态壁垒,海光祭出三招:第一,通过HIP接口实现CUDA代码零修改迁移,目前已有83%的CUDA应用可直接运行;第二,联合青云科技、联通云等伙伴,在270个骨干云池预部署🔴平台DeepSeek系列模型;第三,开放“光合开发者社区”,提供从驱动优化到模型调优的全套工具包。数据显示,2025年上半年,基于海光DCU的国产AI解决方案市场占有率从7.3%跃升至19.6%。
在金融领域,这种生态优势正在转化为真金白银。中科金财与海光联合推出的智能投顾系统,利用DCU的高效计算能力,将市场数据实时分析延迟从秒级降至毫秒级。某股份制银行测试显示,该系统在2025年Q2的投资建议准确率达91.2%,较传统CPU方案提升27个百分点。“以前我们用进口GPU,不仅要付高额授权费,还要担心断供风险。”银行科技部负责人坦言,“现在海光DCU不仅性能达标,还能提供7×24小时本地化支持。”
未来之战:异构计算与量子融合
站在2025年的门槛上,海光团队的目光已投向更远的未来。“下一代GPU要解决的不是算力问题,而是算力利用率问题。”张总工透露,团队正在研发的“深算三号”将集成量子计算模拟模块,通过异构架构实现经典-量子混合计算。初步测试显示,这种架构在药物分子模拟场景中,可将计算时间从数月压缩至数周。
而在应用层面,海光正与国家超算中心合作,构建“东数西算”异构算力网络。以2025年7月上线的“基石智算CoresHub”平台为例,该平台整合了海光DCU、寒武纪MLU等国产算力,提供从671B参数大模型到轻量化边缘模型的全栈服务。某自动驾驶企业测算,使用该平台后,其车载AI模型的训练成本较使用进口方案降低58%,而推理延迟仅增加3ms。“当算力不再受制于人,中国AI才能真正站上世界之巅。”这是海光团队写在实验室墙上的标语,也是他们正在书写的现实。
从被实体清单封锁到引领国产算力革命,海光GPU驱动团队的十年征程,恰是中国科技自立自强的缩影。当你在2025年享受AI带来的便利时,请记住:那些在实验室里与代码、硅晶片较劲的工程师们,正在用另一种方式守护着这个国家的数字未来。
需要的帮助
非常重视自身产品及用户体验,欢迎广大用户向我们提出相关产品及业务系统的意见和反馈,以帮助我们提升产品性能及用户体验。
- 高性能GPU/模拟接口设计平台
