精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题

让生成式模型具备完整类别树认知,迈向通用视觉理解

精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题

衡宇

2026-03-21

17:48:18

来源:

量子位

让生成式模型具备完整类别树认知,迈向通用视觉理解

MIPL团队 投稿

量子位 | 公众号 QbitAI

一张蓝锥嘴雀的图片,你能认出它是“鸟”,但能认出它是“鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀”吗?

像大多数人一样,现在的多模态大模型也认不出来。

真实世界中的对象通常包含极其丰富的类别层次,形成

类别树

结构。比如蓝锥嘴雀是:动物界-脊索动物门-鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀(界-门-纲-目-科-属-种)。

区别于传统的细粒度视觉识别,

分层视觉识别

旨在预测所属的所有类别层次,而不仅仅预测最终的细粒度类别。尽管现有Finedefics、Fine-R1等生成式大模型在细粒度视觉识别任务上表现出色,但由于缺乏类别树知识,

无法从粗到细实现每一层的精准识别

同时,采用分层类别标签对比学习得到的判别式大模型(如BioCLIP、BioCLIP2、BioCAP等),其表征空间已能充分编码类别树中的类间关系与类内关系。基于上述发现,本文

利用判别式大模型的表征指导生成式大模型的学习

,为多模态大模型学习类别树提供了新路径。

本文是

北京大学彭宇新教授团队

在细粒度多模态大模型领域的最新研究成果,

相关论文已被CVPR 2026接收,并已开源

背景

尽管现有多模态大模型在细粒度视觉识别上的准确率取得明显提升,但在依赖类别树知识的分层视觉识别任务上,仍无法从粗到细实现每一层的精准识别。具体地,存在如下3点挑战:

1. 同层判别性差:

对于更粗粒度的类别层次,“类内差异大”更加突出,模型倾向于学习类别共性;对于更细粒度的类别层次,“类间差异小”更加突出,模型倾向于学习类别差异。两者的矛盾导致模型

难以从粗到细区分每一层的相似类别

2. 跨层一致性差:

由于模型缺乏类别树知识,

难以保证任意相邻层次的预测类别满足父子节点关系

。例如,预测结果为“鹦鹉目-裸鼻雀科”,但两者不满足父子节点关系,“裸鼻雀科”应该属于“雀形目”。

3. 新类泛化性差:

现有模型倾向于挖掘不同细粒度子类别的差异,忽略了对其共性的总结(用于识别其父节点的辨识性特征),

难以准确识别从未见过的新类别

△图1. 研究背景

针对上述问题,北京大学彭宇新教授团队提出了

分类感知表征对齐方法

(Taxonomy-Aware Representation Alignment,TARA),用于将类别树结构知识注入多模态大模型。通过将大模型与生物基础模型的视觉表征对齐,促进大模型提取具备完整类别树结构的视觉表征。同时,通过将大模型输出答案的首个词元表征与经生物基础模型编码后的真实类别表征对齐,促进大模型根据指定的层次,将具备完整类别树结构的视觉表征映射为对应层次的类别名称。

实验结果表明,本方法不仅能增强现有大模型的细粒度视觉识别能力,提升最终的细粒度类别的识别准确率,还能增强分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。

技术方案

为向多模态大模型注入类别树结构知识,本文提出了

分类感知表征对齐方法TARA

。如图2所示,TARA包含2个主要部分:

1. 分层视觉表征对齐:

通过将大模型中间层与生物基础模型最后一层的视觉表征对齐,促进大模型提取具备完整类别树结构的视觉表征。

2. 自由粒度类别表征对齐:

通过将大模型输出答案的首个词元表征与经生物基础模型编码后的真实类别表征对齐,促进大模型根据指定的层次,将具备完整类别树结构的视觉表征映射为对应层次的类别名称。

具体如下:

△图2. 分类感知表征对齐方法(TARA)框架图

1. 分层视觉表征对齐。

经分层类别标签训练的生物基础模型(例如, BioCLIP、BioCLIP2、BioCAP等)能提供包含分类学信息的监督信号,促进大模型提取具备完整类别树结构的视觉表征。具体地,给定输入图像I和识别特定层次类别的问题q(例如,“图中动物属于什么门/纲/目/科/属/种?从如下选项中选择:[真实类别,相似类别1,相似类别2,相似类别3]”),生物基础模型的视觉编码器εv(·)输出目标视觉特征img=εv(I)∈RN×d,其中d表示生物基础模型的特征维度。大语言模型第ℓ层的视觉表征表示为ℓimg∈RN×D,采用可学习的映射层PV(·)将其映射到生物基础模型的视觉特征空间,并最小化如下对齐损失:

2. 自由粒度类别表征对齐。

一张图像同时对应不同层次的类别标签,但用户期望识别的类别层次是不同的。例如,专家可能希望在“种”层次上将对象识别为阿卡迪亚霸鹟,而普通用户只需要在“纲”层次上将其识别为鸟。通过在同一层次上对齐生物基础模型和大模型的类别文本表征,促进大模型将具备完整类别树结构的视觉表征映射为对应层次的类别名称。具体地,生物基础模型的文本编码器ET(·)输出目标文本特征ylabel=ET(C)∈Rd,其中C表示在期望层次上的真实类别名称。大语言模型第m层的答案表征序列表示为emanswer∈RN′×D,采用可学习的映射层PT(·)将答案的首个词元表征映射到生物基础模型的文本特征空间,并最小化如下对齐损失:

最终,TARA的对齐损失定义为两者的均值:

3. 模型训练和推理:

在训练阶段,采用无需思考的强化微调(No Thinking RFT)和TARA交替优化大模型、映射层PV(·)与PT(·),促进大模型适配分层视觉识别指令的同时学习类别树知识。在推理阶段,生物基础模型和映射层PV(·)与PT(·)均不参与运算,直接由优化后的大模型进行识别。

实验结果

△表1. iNaturalist-Plant与iNaturalist-Animal分层视觉识别结果

表1展示了在iNaturalist-Plant与iNaturalist-Animal上的分层视觉识别结果。本方法不仅能增强多种大模型的细粒度视觉识别能力,提升最终的细粒度类别的识别准确率,还能增强分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。

△表2. TerraIncognita的新类别(已有类别树之外的类别)分层视觉识别结果

表2展示了在TerraIncognita的新类别(已有类别树之外的类别)的分层视觉识别结果。这部分新类别不仅是模型强化微调训练集中未见类别,更是稀有或记录极少的物种图像,

在公开数据中几乎没有或完全没有可用样本,更不可能出现在模型的预训练数据中

对于其中许多样本,很可能是科学界尚未正式描述的新物种,目前只能可靠地确定其较高层次的分类标签(如“目”和“科”)。本方法通过引入类别树先验,促进模型学习子类别的共性,从而总结出用于识别父类别的判别性特征,提升已知类别树之外的新类别的识别准确率。

△图3. 分类感知表征对齐方法(TARA)案例展示

图3的案例展示表明,相比阿里的Qwen3-VL-2B大模型,本方法能提升同层判别性与跨层一致性,既区分开同一层的相似类别,又确保相邻层次的预测类别满足父子节点关系。

项目价值

针对现有多模态大模型缺乏类别树知识,无法从粗到细实现每一层的精准识别的问题,本文提出了分类感知表征对齐方法TARA,通过对齐大模型与生物基础模型的中间表征,注入类别树结构知识,不仅能提升最终的细粒度类别的识别准确率,还能增强大模型的分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。

论文标题:

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

论文链接:

https://arxiv.org/abs/2603.00431

开源代码:

https://github.com/PKU-ICST-MIPL/TARA_CVPR2026

实验室网址:

https://www.wict.pku.edu.cn/mipl

版权所有,未经授权不得以任何形式转载及使用,违者必究。

北大

泛化

生成式模型

细粒度树

衡宇

英伟达GTC现场的隐形AI巨头:老黄机器人demo背后都是它

2026-03-21

“最美PM”宋紫薇获红杉蚂蚁投资,创业方向略有调整,转向AI护肤

2026-03-09

GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生

2026-03-06

悬赏5000刀!148局AI斗蛐蛐世界杯官方战报出炉,全球赛邀你接棒来战

2026-03-05

扫码分享至朋友圈

相关阅读

AI「领悟」有理论解释了!谷歌:两种脑回路内部竞争,训练久了突然不再死记硬背

作者:重新思考泛化

梦晨

2023-09-18

泛化

深度学习

神经网络

北大机器人当上亚运志愿者,全靠学生把多模态大模型结合具身智能

论机器人想在杭州当志愿者有多拼

衡宇

2023-10-18

具身智能

北大

多模态大模型

连肌肉颤动都清晰可见!3D人体模型自动生成算法,一作来自北大图灵班 | SIGGRAPH

利用神经融合形状补偿变形

十三

2021-05-15

北大

图灵班

计算机视觉

比发现“上帝粒子”罕见50倍!Nature报道北大物理新成果,首次观测到三玻色子联合产生

粒子物理标准模型的又一次成功。

白交

2024-03-28

Nature

北大

标准模型

粒子物理

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

随机token攻破大模型防线

明敏

2023-10-29

北大

大模型幻觉

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

代号LLaVA-o1,超越传统思维链提示

一水

2024-11-19

北大

多模态

热门文章

360发布安全龙虾系列产品:以模治模构建智能体安全体系

2026-03-14

AI 数学推理新纪元:SAIR Foundation 正式启动“数学蒸馏挑战赛”

2026-03-14

Gemini重塑谷歌地图!一句话搞定出行攻略,网友:垂直应用全完蛋

2026-03-14

不仿真不VLA不遥操:它石智航重磅发布“能干活的通用具身大模型 ”AWE3.0

2026-03-14

科技CEO用ChatGPT+基因数据定制癌症疫苗!肿瘤缩小50%

2026-03-15

关于量子位

加入我们

寻求报道

商务合作

扫码关注量子位

追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司

京ICP备17005886号-1


本文来源:量子位