DeepSeek阮翀加盟元戎首秀,详解基座VLA,研发提效10倍
V4作者之一
DeepSeek阮翀加盟元戎首秀,详解基座VLA,研发提效10倍 – 量子位
首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
DeepSeek阮翀加盟元戎首秀,详解基座VLA,研发提效10倍
一凡
2026-04-26
12:16:23
来源:
量子位
V4作者之一
一凡 发自 副驾寺
智能车参考 | 公众号 AI4Auto
前DeepSeek核心成员
阮翀
,加盟元戎后首次亮相了。
阮翀(chōng)
,本硕均毕业于北京大学,早年从事NLP研发,2023年加入DeepSeek,参与了DeepSeek VL、V3和R1等工作,是
VL2的通讯作者
,也是最新发布的
V4的作者之一
。
△图源:DeepSeek V4论文
如今他以新身份
元戎首席科学家
,现身北京车展,分享了元戎如何利用40B基座模型,
评估模型表现,用模型迭代模型
的过程。
这意味着
AI不再是被训练出的结果,而是训练系统本身的组成部分
。这也是AI领域当前的趋势。
比如,同样是在自动驾驶行业,小马智行最近发布世界模型2.0,就具备自我诊断能力,可以实现自我强化。
再比如,OpenAI今年在发布 GPT-5.3 Codex时透露,该模型的早期版本,加速了其自身的开发进度。
在数字世界和物理世界,AI都初步呈现出自我进化的趋势。而能同时深刻理解这两个领域的人才,非常稀缺,阮翀正是这样一位罕见的人才,从LLM转身自动驾驶,横跨两大领域。
阮翀详解基座模型,元戎研发提效10倍
据阮翀介绍,过去自动驾驶研发,会选择用很多小模型,专门解决不同的问题,这给开发和管理,带来了很多挑战。
所以,行业正在向统一基座模型收敛,
用一个大模型,分化出多个不同版本
,解决几乎所有问题。
其中元戎的基座模型,是一个40B参数规模的VLA(Vision-Language-Action Model),可以拆分成三个部分来看:
驾驶模型
:AI司机,专门负责开车
分析模型
:AI分析员,分析和解释AI司机为什么这么开
评估模型
:AI教练,评估AI司机开车的表现
基座模型如何落地,加速元戎开发呢?阮翀举了三个例子。
第一个例子是
数据表征
任务。自动驾驶研发的关键,是实现数据闭环,但阮翀认为过去
数据驱动的方式,其实带有滞后性
:
你必须先训练出模型,才能发现模型的问题,进而知道哪些数据不够。
数据表征则改变了这个顺序,它可以提前分析数据,并进行归类,这样研发团队
在训练前
就知道,自己手头什么场景的数据多,又缺什么场景数据,在训练时就可以有所侧重,调整数据配比。
第二个例子是数据质量评估。过去分析数据质量,需要通过间接方式,根据这批数据,训出的模型表现,反推数据质量,迭代周期比较长。
现在基于一个庞大的基座模型,只需要进行简单的微调,就能
评估数据质量
。
最后,基座模型不仅在数据维度实现了提效,同时也加快了
模型评估
。过去评估模型能力,主要依赖路测,要先更新模型上车,再找人跟车,实测后回传数据,这种方式费时又费力。
现在利用云端虚拟环境,就能评估模型,判断AI司机开得好不好,并进行修正。
据阮翀估计,以前迭代一版模型可能需要100多个小时,
现在加速了10倍
,迭代时间缩短到了十几个小时。
在详解技术成果后,阮翀还参与了圆桌讨论,回应了外界最关心的问题:
为什么他会加盟元戎,转向物理AI?
以下是圆桌实录,经编辑
阮翀回应入局物理AI
Q:什么才是物理AI?
阮翀
:从
狭义
的角度讲,
物理AI一定要有一个现实载体
,比如人能操纵它,然后现实世界会给出反馈,像机械手或者车。
但我认为物理AI最重要的事其实是闭环。
所以从
广义
的角度讲,比如说
AI Coding
,写了代码然后编译器会给出反馈,告诉你这个地方写了对不对,然后你再去调试。
只有这样的一个闭环,才是AI真正进入物理世界的最重要手段,能够让它不断提升。
Q:什么情况让你意识到了大模型的能力边界?
阮翀
:我认为视觉模型现在最难的问题是
空间方位感知
,经常前后左右不分,然后导致一些奇奇怪怪的行为,比如分不清车门在左边还是右边,东西在车内和车外。
Q:哪些领域的突破性进展,值得大模型借鉴?
阮翀
:我想强调的一个概念还是
闭环
。
我觉得这个问题可以反过来看
,就是如何把LLM推广到其他领域,比如用AI去预测化学分子性质,比如它的熔点或溶解度,然后用这项技术,加速药物研发。
Q:我们如何保证AI发展,是对人类有利的?
阮翀
:我个人现在非常赞同Harness(约束AI边界的系统工程)的概念。人需要法律和规章制度,保证他成为一个好人。
对AI也是一样的,如果你坚信AI能超越人,那么你也需要一些工具来控制它,而不是期待它性本善。
Q:为什么近期不少LLM公司的多模态负责人,入局物理AI?
阮翀
:对我来说,我觉得有两方面的原因:
第一,我自己不太喜欢做边际收益递减的事情
。我觉得做LLM很多年了,当然它的能力在不断提升,但和ChatGPT刚出来时,感觉已经完全不一样了,有一种疲倦的感觉。
LLM发展非常好,比其他领域领先,一个模型几乎可以解决你想要的所有事。
但在别的领域,比如多模态或者具身智能,还没有发展到这样的阶段,
我自己更愿意参与这样的阶段,而不是进入一个相对成熟的阶段
。
第二,我自己性格的原因
。我不喜欢跟别人抢着做事,比如LLM很好,那大家都一窝蜂去做,但
我更在意某种使命感或者责任感
:
一件事情,如果我去做和我不去做,对世界来说都没有差别,那我为什么要做?
所以,我选择换一个领域。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
元戎启行
一凡
Momenta曹旭东:规模L4要百亿美元投入,现金流业务是物理AI门票
2026-04-26
华为发布ADS 5!强化世界模型路线,今年投入180亿
2026-04-25
燃油SUV车主熬出头了!华为乾崑智驾加持,全新奥迪Q5L率先实现智能化
2026-04-25
11.58万,全系Lidar+L4同源算法,广汽文远把城区NOA打成白菜价
2026-04-17
扫码分享至朋友圈
相关阅读
smart与元戎启行达成战略合作,加速智驾出海
共研端到端模型,实现车位到车位
一凡
2025-01-17
Smart
元戎启行
车圈最新认知
元戎启行联合高通基于骁龙智驾平台发布高阶智驾解决方案
涵盖激光雷达方案和纯视觉方案
一凡
2025-04-08
元戎启行
车圈最新认知
高通
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」
英伟达“芯皇”Thor上车
贾浩楠
2025-12-23
VLA
元戎启行
长城汽车
对话周光:自动驾驶实现AGI,RoadAGI比L5更快 | GTC 2025
VLA年中量产,加速迈向物理AI
一水
2025-03-21
元戎启行
All in端到端后元戎获7亿融资,被曝长城独投!用L2+直达Robotaxi
Thor+VLAM明年上车,实现百公里1次接管
一凡
2024-11-05
元戎启行
自动驾驶
车圈最新认知
长城
元戎启行联手曹操出行,在亚运会期间提供数百辆自动驾驶汽车
到2020年下半年,双方合作的自动驾驶车队数量预计将扩大到10辆,并且接入曹操出行APP。基于此次合作,双方将携手扩大自动驾驶测试的规模,预计在2021年面向公众提供自动驾驶试乘服务,在2022年亚运会举办期间,将车队规模扩大到数百辆级别。
量子位
2020-08-19
Robotaxi
元戎启行
自动驾驶
热门文章
Kimi新论文:把KVCache玩成新商业模式了
2026-04-19
横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开
2026-04-19
高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环
2026-04-19
大模型架构的下半场
2026-04-19
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24
关于量子位
加入我们
寻求报道
商务合作
扫码关注量子位
追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司
京ICP备17005886号-1
本文来源:量子位