刚刚,国产AI自己造了AI,全球首例!

训练速度比英伟达Megatron快10%

刚刚,国产AI自己造了AI,全球首例! – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

刚刚,国产AI自己造了AI,全球首例!

十三

2026-05-26

16:46:15

来源:

量子位

训练速度比英伟达Megatron快10%

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

造AI

这件事,现在的

主角

变成了AI。

因为就在刚刚,一个

国产AI

先自己写出了一套大模型预训练框架,然后再用这套预训练框架,训练出了一个新的小尺寸模型!

这就是

面壁智能

搞出来的big news。

这套由AI写出来的预训练框架叫做

ForgeTrain

,它是

全球首个

完全由AI编写的生产级大模型预训练框架,性能甚至

超越了英伟达的Megatron

并且ForgeTrain在华为昇腾上预训练MiniCPM5-1B,相比昇腾的框架也有10%的加速。

围绕它,面壁智能还提出了一套新的软件编程范式,叫

Forge Engineering

更直白一点说,就是当AI写代码的成本越来越低,未来软件不一定非要做成一套通用大框架,也可以针对不同模型、不同硬件、不同任务,现场锻造一套专用代码。

而被ForgeTrain训练出来的新模型,就是

MiniCPM5-1B

至于三者的关系,我们用一张图来解释:

虽然过去行业里关于“AI制造AI”的声音不断,但总归来说,都还停留在特定的环节,比如写一段函数、改一个脚本、调一组参数等等。

不过这一次,中国大模型公司第一次把“AI制造AI”从概念,推进到了可展示、可评测、可复现的工程样本。

AI造出来的AI,能干啥?

既然MiniCPM5-1B是ForgeTrain训练出来的模型,最直接的问题来了:

AI造出来的AI,到底能干什么?

先看一个最直观的场景——

桌宠。

这个1B参数规模的小模型,它可以常驻在电脑桌面上,变成一个随时响应的AI小伙伴。你可以跟它聊天,让它根据上下文接话,也可以给它设置不同的人格。

视频地址:

https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w

(本项目基于clawd-on-desk项目二次开发:

https://github.com/OpenBMB/MiniCPM-Desk-Pet)

这个桌宠的重点在于,它不是一定要跑在云端的大模型服务,1B规模意味着它足够小,部署门槛也足够低。

按照面壁智能官方的说法,MiniCPM5-1B在FP16精度下权重体积约2GB,适合GPU、高端笔电和服务器;INT4/Q4精度约0.5GB,可以面向手机、平板、车机等设备。

MiniCPM5-1B想证明的,是1B模型也可以更能打。

在综合知识、数学推理、代码推理、工具调用等方向上,MiniCPM5-1B都拿出了面向同尺寸端侧模型的对比结果。

公开评测中,MiniCPM5-1B/think平均分为42.57;在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等项目上,也给出了对应成绩。

尤其值得一提的是,MiniCPM5-1B再次刷新了小模型的智能密度上限。

仅以1B参数规模,它就在国际知名榜单AA-Index上超越了所有2B参数以下模型。相比3个月前发布的Qwen3.5-2B,MiniCPM5-1B不仅效果更优,参数量还减少了一半。

这背后其实指向一个越来越清晰的趋势:模型能力提升,不再只靠把参数规模越堆越大。更小的模型,也正在承载更高的智能密度。按照这一趋势观察,大模型的智能密度正在以约每3.5个月翻一番的速度持续提升。

这也让MiniCPM5-1B的价值更明确了,它不只是一个小尺寸模型,而是一个在参数规模、部署成本和实际能力之间重新找平衡点的端侧模型。

除此之外,它还可以

自定义人格

视频地址:

https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w

虽然这听起来像聊天产品里的基础功能,但在端侧模型上意义更大,因为端侧模型离用户更近,更容易成为本地设备上的轻量级智能入口。

它可以记住用户偏好的交互方式,也可以根据不同场景切换风格。

如果大模型要从云端走向每个人的设备,模型必须足够小、足够便宜、足够好用,还要有完整工具链。

这也是它强调

开发者友好

的原因。

MiniCPM5-1B提供了模型、推理、微调相关工具链。推理侧支持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等;微调侧支持LLaMA-Factory、ms-swift等工具。

对开发者来说,这比单纯给一个模型权重更重要。

因为模型能不能被用起来,往往不只取决于模型本身,也取决于部署、推理、量化、微调、接入工作流是不是顺手。

还超过了英伟达Megatron

如果说MiniCPM5-1B是AI制造AI的产品,那么ForgeTrain就是AI制造AI的工厂。而这个工厂,本身也是AI造出来的。

面壁智能把AI制造AI分成了L1到L5五个阶段:

L1:AI 只给建议,人类执行所有操作(代表:Github Copilot)

L2:AI 辅助研发,完成具体环节(代表:Cursor,Claude Code)

L3:AI 端到端产出下一代模型(代表:ForgeTrain)

L4:AI 递归自改进,改造训练管线和自身

L5:AI 自主设定研究议程,开放式探索

ForgeTrain对应的正是

L3-L4

这个阶段。它还没有到AI自己发明下一代Transformer的程度,但它已经进入了大模型研发最核心的基础设施层——预训练框架。

在此之前,全世界很多大模型预训练框架,都是人类程序员一行一行写出来的。英伟达的Megatron、Meta的 Fairseq、谷歌的TensorFlow,无一不是如此。

但面壁智能提出了一个完全不同的思路,

Forge Engineering

过去的软件工程强调通用框架,一个框架要兼容各种模型、各种硬件、各种训练任务。好处是代码可以复用,代价是很难把每个具体场景都压榨到极致。就像一件均码的衣服,谁都能穿,但谁都穿不合身。

Forge Engineering的思路则激进得多:既然AI写代码越来越快,代码生产成本越来越低,那我们为什么还要追求通用?我们完全可以给不同的模型、不同的硬件、不同的任务,分别写专用的代码。

这就像从工业化的批量生产,回到了高级定制。AI就是那个不知疲倦的顶级工匠,可以为每一个需求量身打造最适合的代码。

但AI自己写预训练框架,难点不只在写代码。更难的是:它怎么知道自己写对了?怎么知道速度够不够快?怎么知道显存、并行、通信、稳定性有没有问题?

这就需要

Harness

咱们可以把Harness理解成一个考场,AI被放进这个考场里,一轮轮生成代码、运行测试、拿到反馈、继续修改。这个过程完全自动,不需要人类干预。

面壁智能采用了三阶段构建方法论:

从现有预训练框架采集关键数据,形成评测标准和Harness

从评测Harness构建二进制一致的预训练框架版本

解除二进制一致的限制,迭代优化到超越参考实现

最终的结果是,ForgeTrain不仅在功能上完全对齐了英伟达Megatron,而且在相同的硬件条件下,训练速度还要快10%。

这意味着,同样的算力,用ForgeTrain可以节省10%的训练时间和成本。

这是一件值得被重视的事情

看到这里,你可能觉得这是一场很酷的技术秀。但透过现象看本质,面壁智能的这次发布,正在揭示大模型行业正在发生的一场剧变。

首先,大模型的竞争,正在从堆资源走向极致提效率。

过去几年,所有大模型厂商都在拼大力出奇迹,拼参数、拼语料、拼算力、拼十万卡集群。但这条Scaling Law的路,它是有尽头的。

当堆料走到天花板,接下来的胜负手是什么?

是效率。

在同样的算力预算下,谁能产出更多的研发迭代?谁的单代研发周期更短?面壁智能的AI制造AI给出了答案:

用AI去替代人类研发管线中的重复劳动,把人类数周的代码开发压缩到几十分钟。这是唯一能对抗资源瓶颈,实现大模型能力继续指数级攀升的解法。

其次,AI研究员的角色,正在发生不可逆转的改变。

在ForgeTrain这样的系统里,人类的角色正在发生迁移。从Human in the loop(在循环中执行具体代码)变成了Human on the loop(在循环外进行监督和设计)。

未来的AI科学家,不再需要亲自去写那无穷无尽的CUDA算子和底层通信逻辑。他们将变成研发系统的设计者和守界者。他们只需要定义目标、搭建Harness,剩下的脏活累活,全交给不知疲倦的AI去完成。

最后,对于国产大模型和国产芯片而言,这是弯道超车的绝佳契机。

过去,我们评价国产大模型,眼睛总是盯着参数大小、榜单跑分、长文本能力。但真正决定一家公司、一个生态长期核心竞争力的,其实是底层系统——生产模型的能力。

谁能更快地训练出模型,谁能以更低的成本试错,谁就能在残酷的百模大战中活到最后。

更深远的战略意义在于国产算力生态。众所周知,华为昇腾等国产芯片在硬件算力上正在疯狂追赶,但最大的短板在于软件生态。英伟达有数以百万计的开发者花了十五年时间踩坑、优化,这是国产芯片靠人力很难在短时间内抹平的差距。

但ForgeTrain提供了一种破局的可能。

如果人不够,那就用AI来凑!通过AI自动生成适配各种新模型、新硬件的专属预训练框架,国产芯片将有机会借由AI的生产力,极大缩短追赶国际顶尖生态的时间差。

当AI学会了造AI,齿轮就已经开始加速转动。一个新的纪元,正在我们眼前展开。

MiniCPM5-1B 现已全面开源:

Hugging Face链接:

https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B

GitHub链接:

https://github.com/OpenBMB/MiniCPM

ModelScope链接:

https://modelscope.cn/models/OpenBMB/MiniCPM5-1B

AtomGit:

https://ai.gitcode.com/OpenBMB/MiniCPM5-1B

魔乐社区:

https://modelers.cn/models/OpenBMB/MiniCPM5-1B

ForgeTrain开源链接:

https://github.com/OpenBMB/ForgeTrain(5.26晚后上线)

版权所有,未经授权不得以任何形式转载及使用,违者必究。

AI制造AI

国产AI

面壁智能

预训练模型框架

十三

顶流里最快!智谱,你是在「喷」代码吧

2026-05-22

国产GPU组了个开源局,把SGLang等核心开发者都摇来了!

2026-05-14

国产GPU开始造世界!国内首个全栈具身智能仿真平台来了

2026-05-19

国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家

2026-04-23

扫码分享至朋友圈

相关阅读

面壁智能完成新一轮数亿元融资,继续面向AGI的高效大模型征程

由春华创投、华为哈勃领投

十三

2024-04-12

清华大学

融资

面壁智能

知乎大模型「知海图AI」上线!产品官宣即内测,为4亿用户摘取「热榜摘要」

与面壁智能深度合作

白交

2023-04-14

ChatGPT

大模型

知乎

面壁智能

面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能

大模型“知识密度”是智能的核心指标

白交

2025-05-09

面壁智能

面壁智能大模型即日起开放公众服务

开启 Luca 最新体验

量子位

2023-11-04

面壁智能

成本2元开发游戏,最快3分钟完成!全程都是AI智能体“打工”,大模型加持的那种

首个“大模型+Agent”SaaS级产品ChatDev来了

十三

2023-11-15

AI智能体

大语言模型

面壁智能

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2?

性能 超越参数十倍之大的 LLaMA2-70B-Chat。

量子位

2023-10-14

面壁智能

热门文章

菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题

2026-05-21

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

2026-05-20

太初元碁洪源:异构计算能力将成为未来AI算力基础设施的重要方向|AIGC2026

2026-05-20

腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」

2026-05-21

Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五

2026-05-21

关于量子位

加入我们

寻求报道

商务合作

扫码关注量子位

追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司

京ICP备17005886号-1


本文来源:量子位