让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26

独创“诊断-生成-校准”闭环体系

让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26

听雨

2026-04-06

23:30:59

来源:

量子位

独创“诊断-生成-校准”闭环体系

ReCALL团队 投稿

量子位 | 公众号 QbitAI

生成式模型当检索器大材小用效果还不好?

当多模态大模型

(MLLM)

凭借强大的图文理解与逻辑推理能力成为AI领域的核心抓手,将其应用于图像检索尤其是组合图像检索

(CIR)

任务,本应是降维打击的最优解。

然而现实却相悖:把生成式大模型强行改造为判别式检索器后,模型会出现严重的能力退化,连原本100%能精准解决的问题都频频出错,生成式与判别式的范式冲突,成为大模型向检索领域落地的核心壁垒。

如今,这一行业难题被AI国家队

紫东太初团队联合新加坡国立大学

成功攻克。其最新研究成果

ReCALL

框架,凭借独创的

“诊断-生成-校准”

闭环体系,从根本上解决了大模型从生成式到判别式的范式冲突问题,让大模型在保留原生细粒度推理能力的同时,

完美变身高效检索器

该成果已被计算机视觉顶会

CVPR 2026

正式录用,在CIRR、FashionIQ等主流基准测试中全面刷新

SOTA性能

,更开辟了大模型下游任务能力无损适配的全新路径,为多模态大模型的垂直领域落地奠定核心基础。

行业痛点:范式冲突致大模型检索“智能倒退”

为什么聪明的MLLM一做检索就容易翻车?作者团队一针见血地指出了问题的核心:

范式冲突

(Paradigm Conflict)

原生的大模型习惯于生成式范式,它通过一步步的链式思考

(Step-wise reasoning)

来理解细粒度的视觉关系。但是,现有的检索适配方法往往采用判别式范式,强行把大模型的高维思考压缩成一个单一的向量,去计算相似度。

这种暴力的转变直接导致了一个致命后果——能力退化

(Capability Degradation)

如上图左侧所示,面对“地板上的两只同品种狗”这样需要细粒度推理的查询时,原生的大模型

(F)

通过VQA问答可以轻松锁定目标。然而,经过传统微调后的检索器版本

(Rbase)

却完全丧失了这种细粒度grounding能力,找出的全是错误的图。

定量数据更令人震惊:在原生大模型原本能够100%找对的子集上,微调后的检索器在CIRR数据集上R@1暴跌至62.33%,在FashionIQ上暴跌至55.80%。模型不仅没有学到新东西,反而把原本自带的推理天赋给弄丢了!

破局之道:ReCALL四阶段校准框架

既然能力退化是因为初期的检索微调把大模型“带偏了”,那怎么把它拉回正轨?

作者提出了一个通用的框架ReCALL。它的核心思想非常巧妙:用大模型原生的推理信号,来纠正检索空间中的盲区。实际上,整个闭环被严密地划分为四个阶段,其中第一阶段完成了基础的检索器初始化并暴露出退化问题,后三个阶段则是极其优雅的“诊断-生成-打磨”校准管线:

Stage 1:基础检索适配(Baseline Adaptation)。

为了让生成式大模型具备基本的图文检索功能,研究人员首先用标准的InfoNCE损失函数,将原生大模型

(F)

微调成一个基础检索器

(Rbase)

。这一步虽然赋予了模型基础的判别与检索能力,但也正是这种暴力的单向量压缩,诱发了前文提到的“能力退化”症状。

Stage 2:自我诊断(Diagnose)。

俗话说“错题本是最好的老师”。有了基础检索器后,让它在训练集上跑一遍,专门挑出那些它“找错”的样本

(Informative Instances)

。这些能高分骗过检索器的负样本,往往和正确答案有着极细微的视觉差别,它们正是模型能力退化、认知最模糊的“盲区”。

Stage 3:生成校正(Generate)。

拿着这些挑出来的错题,作者团队并没有简单粗暴地让原生大模型

(F)

重新“看图说话”,而是精心设计了一套包含严密逻辑的链式思考

(CoT)

诱导机制。具体而言,这个“讲题”过程被巧妙地拆解为两个核心步骤:

① 意图分解与验证(Intent Decomposition & Verification):

大模型首先会将原始的修改指令拆解成一个个“原子意图”,并挨个对照参考图和找错的图进行核查,精准定位出到底哪一个细粒度意图在错图中被违背了。

② 最小编辑合成(Minimal Edit Synthesis):

在抓住了矛盾点后,大模型会保留那些依然成立的意图,仅仅重写被违背的部分,从而“打补丁”式地合成出一条全新的修改指令。

通过这种极其精巧的设计,框架自动生成了从“参考图”指向“错图”的全新纠错三元组。这种从原文本到新文本的“极小幅文字编辑”,在视觉上直接镜像了真实目标图与强干扰错图之间极其微妙的差异,从而为检索模型提供了极其显式、高密度的细粒度图文对齐监督信号。

更重要的是,这种严格遵循“最小编辑原则”的生成方式,绝非无拘无束的文本发散,它最大程度地保证了新构建的训练三元组与原始数据集在数据分布上的高度一致性。最后,再辅以VQA

(视觉问答)

级别的语义一致性过滤,剔除掉幻觉和噪音,确保送入模型微调的“纠错信号”不仅直击痛点,而且绝对高保真。

Stage 4:针对性打磨(Refine)。

有了精确的纠错指令,最后一步就是通过分组对比学习

(Grouped Contrastive Refinement)

来完成进化。框架会把原查询和对应的纠错查询打包放在同一个批次里“对冲”,配合双重优化目标,逼迫检索器去明确区分那些极其细微的视觉-语义边界,最终将原生大模型的细粒度推理能力完美内化。

通过这套组合拳,检索器不仅重新找回了丢失的细粒度推理能力,还将其完美内化到了自己的向量空间中。

实测成绩:全场景刷新SOTA,细粒度检索能力拉满

ReCALL的有效性在各大主流基准测试中得到了验证。

CIRR

开放域复杂数据集上,ReCALL创造了

55.52%

的R@1新SOTA,相较于基线模型实现了

8.38%

的相对提升!在专门考察细粒度区分能力的子集上

(R_{subset}@1)

,更是达到了恐怖的81.49%。

FashionIQ

细粒度时尚数据集上,即便面对极度相似的服装干扰项,ReCALL依然取得了最好的表现,平均R@10达到

57.04%

看看上面的实际检索案例,基线模型遇到“正视镜头”、“半袖”这种细粒度条件直接懵圈;而经过ReCALL校准后的模型,眼光毒辣,精准锁定目标!

结语

ReCALL的成功不仅在于刷新了组合图像检索的性能上限,更在于它揭示并修复了多模态大模型在向下游任务迁移时的一道隐形裂痕。

大模型做检索,不应只是粗暴地将高维的“生成式智慧”压缩降维成单一的“判别式向量”。从“盲目对齐”到“诊断—生成—内化”的逻辑闭环,大模型的检索适配正在进入一个强调保留与激发原生推理能力的新阶段。

当我们不再一味追求用海量外部数据去“喂”出一个检索器,而是教会模型用自己的思维链去剖析错题、缝合认知盲区时,它不仅找回了丢失的细粒度感知,更展示了生成与判别两大范式走向和解的可能。

这或许是大模型在诸多垂直领域真正实现“能力无损适配”的重要一步。

论⽂链接:

https://arxiv.org/abs/2602.01639

项⽬代码:

https://github.com/RemRico/Recall

版权所有,未经授权不得以任何形式转载及使用,违者必究。

AI

人工智能

听雨

北大团队改造DeepSeek注意力,速度快四倍还不丢精度

2026-04-06

Claude绝望时会勒索人类!一共171种情绪,为了生存不择手段

2026-04-03

开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端

2026-04-02

再融20亿!星海图把具身智能头部门槛抬到了200亿

2026-04-02

扫码分享至朋友圈

相关阅读

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练

Llama要做AI界的Linux

奇月

2024-12-24

AGI

人工智能

杨立昆

量子位智库报告:三分钟看懂ChatGPT | 附下载

完整了解ChatGPT的归去来

2022-12-10

ChatGPT

OpenAI

人工智能

MEET2020 | 倪光南:AI时代不能再缺芯少魂,RISC-V就是中国CPU的最好机遇

十三

2019-12-14

MEET大会

人工智能

倪光南

量子位活动合辑

助力人工智能产业发展 第三届中国人工智能大赛正式启动

大赛旨在推进国内人工智能技术创新

量子位

2021-11-01

人工智能

三星又来黑iPhone/ 骗的就是90后/ 马斯克让斯坦福摊上事儿了… 今日更多新鲜事在此

今天是9月2日星期五

梦晨

2022-09-02

AI

马斯克

高通CVPR神研究:视频处理计算量降低78%,教卷积层自己“挑像素”,卡成PPT的视频纵享丝滑

身边的“隐形”AI黑科技

萧箫

2021-06-15

人工智能

视频处理

计算机视觉

热门文章

ClawTip来了! 京东科技首发推出AI智能体的“专属自主零钱包”

2026-03-31

全球权威大模型盲测榜单公布,阿里千问3.6登顶中国最强编程模型

2026-04-03

刚刚,TRAE SOLO上线独立端:已经不满足写代码,还要跨界干活!

2026-03-31

实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码

2026-03-31

Claude绝望时会勒索人类!一共171种情绪,为了生存不择手段

2026-04-03

关于量子位

加入我们

寻求报道

商务合作

扫码关注量子位

追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司

京ICP备17005886号-1


本文来源:量子位