【导语】在2025年世界人工智能大会(WAIC)开幕前夕,摩尔线程举行了一场技术分享会,揭开了其打造高效“AI工厂”的神秘面纱。摩尔线程创始人兼CEO张建中提出,面对全球前沿模型智力迅猛增长和迭代速度加快的挑战,摩尔线程将通过系统级技术创新与工程化能力,以全功能GPU、MUSA架构等五大技术为核心,构建用于生产智能的AI工厂。这一工厂旨在解决大模型训练效率瓶颈,满足新一代高性能人工智能计算基础设施的迫切需求,为我国AI算力行业赢得国际竞争提供重要技术支撑。
7月25日,摩尔线程在世界人工智能大会(WAIC 2025)开幕前夕举行技术分享会。会上,摩尔线程创始人兼CEO张建中表示,将以系统级技术创新与工程化能力打造用于生产智能的“AI工厂”。在他看来,“AI工厂”,如同芯片晶圆厂的制程升级,是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。
AI工厂的生产效率取决于加速计算通用性、单芯片有效算力、单节点效率、集群效率、集群稳定性,这五大元素相互配合,缺一不可。与之相对应,摩尔线程以全功能GPU、MUSA架构、MUSA软件栈、KUAE集群、零中断五大技术,满足AI工厂对生产效率的要求。
张建中在技术分享会上介绍摩尔线程高效AI工厂打造方案
为(wèi)何(hé)要(yào)打(dǎ)造(zào)“AI工(gōng)厂(chǎng)”?
全球(qiú)前(qián)沿(yán)模(mó)型(xíng)“智(zhì)力(lì)”正(zhèng)迅(xùn)猛(měng)增(zēng)长(zhǎng)。模(mó)型(xíng)产(chǎn)业(yè)竞(jìng)争(zhēng)激(jī)烈(liè),迭(dié)代(dài)速(sù)度(dù)愈来愈快。全球代表性模型的迭代周期,从5—6个月逐渐缩减到1个月,甚至近期每周都有新的模型智能水平超越行业既有模型。以人类智力水平100分为标准,DeepSeek V3在2024年12月推出时,评分为46分;今年5月推出的DeepSeek R1,智力水平已经能够达到68分。在不到半年的时间内,DeepSeek智能水平提升了50%以上。
这种高频迭代不仅体现在大型语言模型(LLM)上,还同步扩展(zhǎn)至(zhì)多(duō)模(mó)态(tài)模(mó)型(xíng)、语(yǔ)音(yīn)模(mó)型(xíng)、世(shì)界(jiè)模(mó)型(xíng)等(děng)前(qián)沿(yán)模(mó)型(xíng)领(lǐng)域。这(zhè)些(xiē)模(mó)型(xíng)在(zài)性(xìng)能(néng)、效(xiào)率(lǜ)和(hé)应(yīng)用(yòng)场(chǎng)景(jǐng)上(shàng)实(shí)现(xiàn)的(de)指(zhǐ)数(shù)级(jí)突(tū)破(pò),不(bù)仅(jǐn)推(tuī)动(dòng)了(le)AI从(cóng)专(zhuān)用(yòng)领(lǐng)域向(xiàng)通用智能的跨越,其快速迭代的特性更对新一代高性能人工智能计算基础设施提出了迫切需求。
而训练具有高智能水平的模型,首先要算力足够高、效率足够高,才可以成为(wèi)有(yǒu)效(xiào)的(de)算(suàn)力(lì)。
张(zhāng)建(jiàn)中(zhōng)在(zài)主题(tí)演(yǎn)讲(jiǎng)中(zhōng)表(biǎo)示(shì),为(wèi)应(yīng)对(duì)生(shēng)成(chéng)式(shì)AI爆(bào)发(fā)式(shì)增(zēng)长(zhǎng)下(xià)的(de)大(dà)模(mó)型(xíng)训(xun)练(liàn)效(xiào)率(lǜ)瓶(píng)颈(jǐng),摩(mó)尔(ěr)线(xiàn)程(chéng)旨(zhǐ)在(zài)通(tōng)过(guò)系(xì)统(tǒng)级(jí)创(chuàng)新(xīn),将(jiāng)全功(gōng)能(néng)GPU加(jiā)速(sù)平(píng)台(tái)的(de)强(qiáng)大潜能,转化为工程级的训练效率与可靠性,为AGI时代打造生产先进模型的“超级工厂”。
相较于海外行业头部企业代表,我国万卡以上算力集群搭建仍处于追赶状态。对于我国AI算力行业而言,部署规(guī)模(mó)更(gèng)大(dà)、高(gāo)效(xiào)高(gāo)可(kě)靠(kào)的(de)大(dà)规(guī)模(mó)算(suàn)力(lì)集群(qún),仍(réng)是(shì)赢(yíng)得(de)国(guó)际(jì)竞(jìng)争(zhēng)的(de)重(zhòng)要(yào)技(jì)术(shù)路线(xiàn)。
何(hé)以(yǐ)提(tí)升(shēng)单(dān)芯(xīn)片(piàn)有(yǒu)效(xiào)算(suàn)力?
算力芯片是AI工厂的技术基座。如果算力芯片不够通用、性能不够强,效率不够高,AI工厂的地基就不够牢。芯片运算效率高低取决于芯片架构、驱动性能、算子优化程度等多维因素。
在实际应用中,芯片算力很少能够达到理论峰值算力,实际运行算力与产品设计理论算力之间存在差值。而好的芯片架构,应该像一个优秀的管理者(zhě)一(yī)样(yàng),通(tōng)过(guò)调(diào)度(dù)使(shǐ)所(suǒ)有(yǒu)的(de)资(zī)源(yuán)“忙(máng)”起(qǐ)来(lái)。
记(jì)者(zhě)注(zhù)意(yì)到(dào),摩(mó)尔(ěr)线(xiàn)程(chéng)正(zhèng)在(zài)以(yǐ)多(duō)种(zhǒng)方(fāng)式(shì)提(tí)升(shēng)芯(xīn)片(piàn)实(shí)际(jì)应(yīng)用(yòng)算(suàn)力(lì)。
摩尔线程在WAIC 2025展示全功能GPU在不同场景中的应用实例
MUSA(Meta-computing Unified System Architecture,即元计算统一架构)是摩尔线程自研架构,其核心理念是——要做多引擎可配置的统一系统架构。
首先是多引擎,体现在单颗GPU芯片上同时支持AI计算、图形渲染、物理仿真和科学计算、超高清编解码技术,目前国内(nèi)只(zhǐ)有(yǒu)以(yǐ)摩(mó)尔(ěr)线(xiàn)程(chéng)为(wèi)代(dài)表(biǎo)的(de)少(shǎo)数(shù)GPU厂(chǎng)商(shāng)具(jù)备(bèi)全功(gōng)能(néng)能(néng)力(lì)。
其(qí)次(cì),该(gāi)架(jià)构(gòu)采用(yòng)统(tǒng)一(yī)的(de)MUSA编(biān)程(chéng)接(jiē)口(kǒu),提(tí)供(gōng)统(tǒng)一(yī)的(de)API。这(zhè)样(yàng)一(yī)来(lái),开(kāi)发(fā)者(zhě)采用一套编程指令集就能驱动在MUSA架构之下的多种算力引擎。
为了更好地调动存算资源,摩尔线程自主研发的加速引擎——张量计算引擎(TCE)和张量访存引擎(TME)。前者将大大小小各种不同的复杂结构高效组合起来,同时具备高精度累加器,能够降低小数累入损失。后者用以充分发挥存储的效率,支持Img2Col、矩阵转置,能够加速前、后处理。
即便是国际GPU头部企业,也仍然存在通信任务占用计算资源的问题。而将原本可用于计算的处理器用于通信,会损失运算效率。为解决这一问题,摩尔线程开发了ACE(异步通信引擎),能够实现异步DMA搬移,同时不占用计算核的资源和访存带宽,减少了15%的计算资源损耗;内嵌同步机制,能够提高跨引擎协同性能;采用多种访存地址计算模式,提高搬移效率。
不仅如此,在计算层面,摩尔线程的AI加速系统全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升(shēng)约(yuē)30%。
何(hé)以(yǐ)实(shí)现(xiàn)高(gāo)效(xiào)节(jié)点(diǎn)、集群(qún)算(suàn)力(lì)?
软(ruǎn)件(jiàn)生(shēng)态(tài)被(bèi)视(shì)为(wèi)芯(xīn)片(piàn)企(qǐ)业(yè)的(de)“护(hù)城(chéng)河(hé)”。摩(mó)尔线程着力建设的MUSA软件栈正成为(wèi)其(qí)全功(gōng)能(néng)GPU性(xìng)能(néng)发(fā)挥(huī)的(de)有(yǒu)力(lì)支(zhī)撑(chēng)。
基(jī)于(yú)推(tuī)理(lǐ)场(chǎng)景(jǐng)对(duì)Kernel延(yán)时(shí)敏感的现状,MUSA的驱动和运行时库,能够帮助用户实现Kernel launch开销缩减:通过软硬协同,核函数启动延迟降低至业界平均水平的50%;近千次的计算和通信任务下发开销,由近千次优化为单次,GPU等待时间大大缩减;借助引擎间依赖解析技术,任务流之间的依赖解析延时可大幅降低至1.5μs,优于业界头部算力卡。
MUSA算子库提升了芯片计算效率
算子库的效率(lǜ)直接关乎分布式集群的训练效率。
当前,MUSA能够提供三大算子库:极致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine开源推理算子库。
其中,muDNN是一款极致性能的开箱即用标准算子库,完整覆盖常见的前向和反向算子。能够支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神经网络算子操作。当前,业内算子矩阵乘法的效率大部分可以做到90%以上,摩尔线程muDNN矩阵乘法算子效率可达到98%。国际一流厂商Flash Attention算子效率约为75%,而muDNN的Flash Attention能够达到95%。
MUTLASS高性能的线性代数模板库,可极大降低在MUSA环境中自定义算子的开发工作量,相当于提供了一个可供二次开发的模板。当前MUTLASS已在Github上(shàng)开(kāi)源(yuán),支(zhī)持(chí)平(píng)湖(hú)架(jià)构(gòu)所(suǒ)有(yǒu)特(tè)性(xìng),同(tóng)时(shí)提(tí)供(gōng)高(gāo)性(xìng)能(néng)矩(ju)阵(zhèn)乘(chéng)法(fǎ)、卷(juǎn)积(jī)算(suàn)子(zi)实(shí)现(xiàn),在(zài)Kernel中(zhōng)调(diào)用(yòng)模(mó)板(bǎn)库(kù)就(jiù)可(kě)以(yǐ)进(jìn)行(xíng)二(èr)次(cì)开(kāi)发(fā)。
此(cǐ)外(wài),摩(mó)尔(ěr)线(xiàn)程(chéng)即(jí)将(jiāng)发(fā)布(bù)的(de)面向大语言模型的开源推理算子库MUSA AI Tensor Engine,能够帮助开发者快速搭建自定义推理引擎。该算子库提供用户友好的Python API,进一步降低开发者使用门槛,只要会Python就可以调用。
大模型训练动辄需要调动几千张甚至几万张算力卡资源。要实现模型的高效训练,不仅单卡性能要高,还需要有强大的集群管理和调度能力。
摩尔线程在WAIC 2025现场展示KUAE夸娥智算集群
摩尔线程自研的夸娥(KUAE)计算集群,集成了计算集群、软件平台、管理系统、优化系统以及维护和服务等一系列流程。整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构;支持端到端的模型训练,能够实现对混合专家模型、自动驾驶模型、视频生成模型、具身智能模型等多种类模型的全面支持。
在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力,甚至会导致训练团队几个月的努力付诸东流。
为此,摩尔线程推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,将异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为(wèi)大(dà)规(guī)模(mó)AI训(xun)练(liàn)提(tí)供(gōng)稳(wěn)定(dìng)了(le)保(bǎo)障(zhàng)。
需要的帮助
非常重视自身产品及用户体验,欢迎广大用户向我们提出相关产品及业务系统的意见和反馈,以帮助我们提升产品性能及用户体验。
- 高性能GPU/模拟接口设计平台
