5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
不再绕回2D
5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了 – 量子位
首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
听雨
2026-05-27
17:01:54
来源:
量子位
不再绕回2D
VGGT-Edit团队 投稿
量子位 | 公众号 QbitAI
3D世界“会看”了,但还不会“改”。
从NeRF到83D Gaussian Splatting,再到VGGT、π³这类前馈式3D重建模型,整个行业的进展速度明显加快——只需几张图片,就能在几秒内重建完整3D场景。
但问题也恰恰出在这里。这些模型虽然已经能理解三维世界,却还不会修改三维世界。你可以让它重建一个房间,却很难真正告诉它:
把椅子移到窗边,删除中间那张椅子,把灰色皮沙发改成白色长毛沙发。
更麻烦的是,一旦涉及复杂编辑,现有方法往往迌速崩採——某些角度里椅子消失了,换个视角椅子又重新出现;明明没改的背景,却跟着一起变形。
为应对这一挑战,来自
北京大学
、
香港中文大学
、
上海AI Lab
、
NTU
等机构的研究团队,提出了一套原生3D编辑框架:
VGGT-Edit
。
核心思路只有一句话——
不再绕回2D,而是直接在3D空间里完成编辑。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法,单次编辑仅需约
5秒
,最高实现
120倍
加速。
问题其实一直出在在2D
目前大多数编3D的方法,本质上仍然是“2D思维”——先把场景拆成多弤2D图片,逐张编辑,再重新拼回3D。
但由于每个视角都是独立处理的,所以很容易出现:
一个视角里椅子已经删掉了;
换个角度椅子又重新出现;
背景区域跟着一起漂移;
物体边缘出现重影和闪烁。
△
3D编辑方法的比较
很多结果看起来更像“在不同角度硬P出来的图”,而不是真正稳定的3D空间。
对于机器人、AR/VR、空间智能这些方向来说,这几乎是致命问题——这些场景真正需要的,不是“某一个角度看起来对”,而是整个3D世界始终稳定一致。
原生3D编辑,开始从概念走向可用
VGGT-Edit的核心思路非常直接:
既然问题来自2D,那就不要再绕回2D
。
整个框架建立在VGGT-Like前馈式重建模型之上,继承了其快速、高效的3D表示能力。但有意思的是,团队并没有选择重新生成整个场景,而是提出了一种非常巧妙的机制:
残差场预测(Residual Field Prediction)。
简单理解就是:模型先保留原始场景稳定的3D结构,然后只学习“哪里需要变化”,例如:
椅子往右移动;
沙发材质发生变化;
删除某个物体;
新增一个家具。
这些变化,都被表示成了:
新场景 = 原场景 + 局部残差变化
这个设计有个非常重要的好处——因为大部分区域本来就不需要变化,所以模型不用重新“生成整个世界”,只需修改局部,结果就是没改动的背景区域会非常稳定。
这也是VGGT-Edit和很多现有方法最明显的区别之一。
文本语义,第一次真正开始“对齐”3D空间
研究团队发现,如果只是简单把一句文本输入模型,很容易出现一种情况——模型知道“你想改什么”,但不知道“该改哪里”。
为了解决这个问题,VGGT-Edit设计了一套关键机制:
深度同步文本注入(Depth-Synchronized Text Injection)
本质上可以理解成让文本语义和3D空间特征,在同一个深度层级里持续同步。
传统方法通常只在前面注入一次文本信息,但VGGT-Edit会在多个关键层持续融合文本语义,这样模型在整个3D生成过程中,始终知道:
当前应该修改哪个区域;
修改目标是什么;
空间位置在哪里。
与此同时,团队还专门设计了一套“
视角重要性加权
”——因为并不是所有视角都同样可靠,有些角度可能被遁挡,有些视角只能看到半个物体。
VGGT-Edit会自动判断哪个视角更值得信任,最终让多视角编辑结果更加稳定。
一个真正面向“3D编辑”的编辑头
除了整体框架之外,VGGT-Edit还有一个非常关键的部分——
专门面向3D编辑任务设计的编辑头
。
研究团队发现,对于VGGT-Like模型来说,原本的重建Head更关注“如何恢复场景”,但3D编辑真正需要解决的问题是:
如何在保持整体稳定的情况下,只修改局部区域。
因此,VGGT-Edit额外设计了一套编辑分支,专门预测场景中的局部变化。
这个编辑Head会直接作用于3D表示空间,并输出对应的残差场变化。本质上,它学习的是:
哪些区域应该保持不变;
哪些区域需要发生编辑;
编辑后如何保持多视角一致。
相比直接重新生成整个场景,这种方式更加稳定,也更加高效——这也是让VGGT-Like前馈重建模型具有编辑能力的关键一步。
一个10万规模的数据集,专门训练“3D编辑”
为了训练VGGT-Edit,团队专门构建了一个新3D编辑数据集
DeltaScene
,规模接近10万组,覆盖客厅、办公室、住宅、商业空间等多种场景。
△
DeltaScene数据集概述
更重要的是,整个数据生成流程高度自动化。
团队通过利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤,最终得到真正满足“多视角几何一致”的训练数据。
△
DeltaScene数据构造流程
对于原生3D编辑来说,这一步非常关键——模型真正需要学习的,不只是“图像变化”,而是同一个编辑,在不同视角下如何始终保持空间一致。
3D编辑,第一次开始接近实时交互
从结果来看,这条路线确实有效。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度都超过了现有方法。
尤其是在添加家具、调整位置、修改材质这些复杂任务中,很多传统方法仍然会出现明显的“贴图感”和几何漂移,但VGGT-Edit生成的结果,会明显更像一个真实稳定的3D空间。
△
不同3D编辑任务的定性比较
更关键的是速度——论文中,VGGT-Edit单次编辑只需约
5秒
,相比很多需要长时间优化的传统方法,最高可实现
120倍
加速。
这意味着编3D第一次真正开始接近实时交互。
对于机器人、数字孪生、AR/VR等方向来说,这种变化非常重要——只有当编辑速度足够快,3D世界才真正可能变成“可交互”的世界。
△
在DeltaScene数据集上的定量结果
模型开始真正理解“空间变化”
论文里还有一个非常有意思的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。”
结果模型依然成功完成了编辑。
△
对未见过的指令进行泛化
这说明VGGT-Edit学到的,并不只是固定模板,它真正开始理解文本语义如何映射到3D空间变化。
而这件事,可能比“会生成3D”本身更重要。因为对于空间智能来说,未来真正关键的能力,也许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。
VGGT-Edit,正在把这件事往前推进一步。
论文链接:https://arxiv.org/abs/2605.15186
版权所有,未经授权不得以任何形式转载及使用,违者必究。
AI
听雨
Codex自我蒸馏玩法火了!OpenAI员工亲授:复制粘贴就能让AI消灭重复劳动
2026-05-27
OpenAI大神教你如何榨干Codex
2026-05-23
520当天400万AI人,都在量子位听这近20场演讲&对谈|第四届中国AIGC产业峰会
2026-05-21
DeepSeek V4价格打骨折,宁王京东网易抢着入场,梁文锋:目标是AGI
2026-05-23
扫码分享至朋友圈
相关阅读
真有人做AI小猫啊?!生产力和情绪价值都拉满了
做PPT、写报告、做攻略,全包圆了
听雨
2026-04-24
AI
AIGC
人工智能
引“游戏AI”活水,迸发人工智能强劲生命力
人工智能 (AI) 成为实现数字化、工业化、信息化转型和建设创新型国家的助推器。
量子位
2022-06-29
AI
创新型国家
数字化转型
MEET2021 | 爱奇艺谢丹铭:用AI让创作者提升效率,让消费者简单快乐
用AI结合科技与艺术,能促进整个产业的升级发展。
萧箫
2021-01-05
AI
智能剪辑
爱奇艺
视频
量子位活动合辑
最强旗舰手机功能曝光:大变活人、智能静音、拍照测肤……
你的下一代手机,息屏放着,没有专门打开任何应用,但听到婴儿的哭声会提醒你。也可以根据你所在场景的不同情况调整设置,比如“感觉”你走进了会议室,自动给你设置成静音状态。
雷刚
2020-12-18
AI
手机
高通
我,AI专家,模型检测COVID-19准确率高达97.5%,约吗
鱼羊
2020-03-24
AI
炒作
中国最大AI预训练模型发布:113亿参数!北京智源研究院、阿里、清华等联手打造
6月份还要实现“中文自然语言应用系统”等特色超大模型
十三
2021-01-14
AI
北京智源人工智能研究院
清华大学
阿里巴巴
热门文章
菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题
2026-05-21
腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」
2026-05-21
Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五
2026-05-21
融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅
2026-05-22
李飞飞再出手,空间智能的ImageNet来了
2026-05-22
关于量子位
加入我们
寻求报道
商务合作
扫码关注量子位
追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司
京ICP备17005886号-1
本文来源:量子位