行业动态

对话灵感实验室：全帧率 VLM、低成本与分层部署，业务现场不止需要炫技模型

点击查看原文>

AI_light

20 May 2026 • 39 min read

作者｜陈姚戈

编辑｜王一鹏

当多模态大模型成为显学，许多本属于 CV 领域的问题，又被重新摆到了台前。

“大部分现有模型，不管是视频生成模型，还是 VLM，都是先把视频拆成一帧一帧的图片，再用图像编码器编码，最后送进模型。”格灵深瞳旗下灵感实验室 Glint Lab 负责人冯子勇对 InfoQ 表示，“而且这些视频输入都经过抽帧。”

冯子勇所说的“抽帧”，是今天许多视频理解模型默认接受的工程选择。不管是 GPT-4o、Gemini 1.5 Pro 这样的闭源模型，还是 Video-LLaVA、InternVL2、Video-LLaMA 这样的开源模型，很多做法都是按固定间隔抽取帧，或者将长视频切分成数秒级短片段，再送入模型处理。

这么做并不难理解。

一小时视频如果按 24 FPS 计算，就包含近 9 万帧。即使每一帧只产生很少的视觉 token，全帧率输入也会迅速把上下文窗口、显存和推理成本推到难以承受的水平。更何况，视频天然存在大量冗余：相邻帧之间大部分背景、物体和场景并没有变化。把每一帧都完整编码一遍，直觉上就不经济。

因此，过去两年，不少视频编码的研究都在改进抽帧策略。例如从固定间隔采样，走向更智能的关键帧选择。

但在冯子勇看来，只要模型仍然把视频拆成一张张图片来处理，无论抽帧策略如何优化，本质上都没有真正利用视频本身的连续结构。

这条路线可行，但存在巨大浪费。

“图像只是一个瞬间，它前后的连续关系没有在前端建模起来，而是都丢给后端模型去理解。”冯子勇说，“这相当于迫使 LLM，或者中间的模型，去重新理解图和图之间的关系。这不是说不能做，但是很浪费。”

浪费来自两个层面。

第一，算力被浪费了。视频原本就是连续的，相邻帧之间天然存在关系。但在传统流程里，视频先被解码成一张张静态图片，原有的连续结构被打散，模型再用昂贵的计算把这种关系重新学回来。

第二，信息结构被浪费了。视频编码器本身早已在工程世界里存在多年。I 帧、P 帧、运动向量、残差，这些机制原本就是为了描述哪些内容稳定不变，哪些内容发生了变化。视频在被压缩和传输时，已经把很多时空关系显式编码出来了。但今天许多多模态模型的做法，是先把这些结构解开，再让模型重新发现一遍。

面对这些问题，冯子勇认为，可以换一种方式理解视频输入。

“既然视频原来已经有建模好的东西，为什么不直接用这些东西，在上面构建更 compact 的 token，或者更 compact 的表示？让这些本来就存在的信息，直接传给模型。 ”

这种思考萌发于灵感实验室成立之前，并在实验室成立后得以实现。

格灵深瞳一直关注视觉基座和视觉表征能力。出于对模型应用落地的考量，格灵深瞳认为“在后端大模型上堆计算”这件事有持续优化的空间，并且更关心前端视觉编码能否把有效信息提取出来，能否用更少 token 表达更完整的视频内容，能否在效果、成本和部署复杂度之间取得平衡。

2023 年底，随着大模型能力提升、工具链变化，以及客户对多模态能力需求的增加， 格灵深瞳成立灵感实验室 Glint Lab，给予团队更大的研究自主性。 此后，灵感实验室围绕视觉基座和视觉解码框架，先后开源了 RICE-ViT、LLaVA-OneVision-1.5、OneVision-Encoder 等模型。

LLaVA-OneVision-2.0 是最新成果。它延续了 LLaVA 系列“视觉基座—projector—LLM”的基本架构，并引入基于 codec 的密集视频输入策略，在保留全帧率感知的同时，降低视频 token 消耗。

LLaVA-OneVision-2.0 的目标，是突破长视频理解中时长、成本和细节的瓶颈。

它通过四阶段渐进式训练，把模型的视频理解能力从 30 秒短片逐步扩展到 10 到 15 分钟长视频，并进化到具备 2D/3D 空间定位和物体追踪的能力。在训练过程中，团队也借助了百度百舸开源的全模态训练框架 LoongForge，为相关训练与迭代提供支撑。

在编码方式上，它采用了 OneVision-Encoder 作为视觉底座。这是一个专门研发的、拥有 24 层结构的 ViT 模型，它负责接收图像或视频输入，通过共享时间、高度和宽度三个维度的位置编码，将其转化为带有语义和时序信息的视觉 token。

OneVision-Encoder 能利用视频 codec 中已经存在的信息结构，保留 I 帧提供的完整空间上下文，P 帧则记录相邻帧之间的运动和残差变化。模型因此可以从 P 帧中提取运动和变化更明显的 patch，不必把每一帧都当成完整图片重新编码。

左图是均匀帧采样（Uniform 128 Frames）

右图是 OneVision-Encoder 基于编解码器选择的图块采样（Codec-Selected Patches）

根据灵感实验室提供的测试结果，LLaVA-OneVision-2.0 在部分视频理解任务上接近 Qwen3-VL 的效果，同时显著降低了 token 成本。

从 CV 到多模态：为什么格灵深瞳还在做视觉基座？

InfoQ：从计算机视觉到多模态大模型，格灵深瞳团队的工作发生了哪些变化？

灵感实验室： 如果只看任务形式，变化很大。过去更多是图片分类、检测、分割和视频结构化等任务；现在可以做视觉问答、视频描述、空间理解，甚至把视频直接输入模型，让模型给出更综合的判断。

但如果看底层问题，变化没有那么大。格灵深瞳早期就在处理图像和视频理解问题，只是过去的方式通常是把视频拆成一帧一帧，对每一帧做检测、分类，再通过大量工程逻辑把结果串起来。现在有了 ViT、LLM 和多模态模型，目标变成让模型直接吃进更完整的视频输入，输出描述、判断或任务结果。工具变了，但核心仍然是理解视觉信息。

我们大的目标都是从视觉理解世界、理解视觉里蕴含的所有东西。

InfoQ：大模型时代，过去 CV 时代的积累还有价值吗？

灵感实验室： 有价值。只是很多问题换了一种说法，被放进了更大的模型框架里。

比如表征学习，以前在 CV 里就是很重要的问题：怎么训练出一个更稳定、更有效的图像表征？怎么让模型真的抓住图像里关键的信息？这些问题到现在并没有消失，只是今天大家讨论时，往往不再单独说“表征学习”，而是把它放进多模态大模型、视频生成模型、生图模型里讨论。

再比如 token 筛选或 token 裁剪，本质上也是老问题。以前做视觉识别时，大家就会关心一张大图里哪些区域是有用的，哪些区域可以忽略。比如识别一个人，天空、墙面、背景可能不是重点，真正有价值的是人、动作、物体这些区域。现在换到多模态模型里，这个问题就变成：视觉 token 那么多，哪些 token 是真正有效的？哪些可以不送进模型？

这些方向以前一直有人研究，但不能说已经被很好地解决了。尤其是现在大家更强调上规模、堆数据、堆模型参数，很多底层细节反而不再被放到第一位。大家更容易说，先把规模推上去，效果上来再说。

但我们不太一样。因为格灵深瞳不只是做研究，也长期做业务落地。业务里最关心的是能不能真正用起来，成本能不能接受，部署能不能稳定。所以我们会更关注这些看起来不那么显眼、但影响真实落地的问题，比如表征质量、token 效率、关键区域选择。

InfoQ：这里说的“表征”具体指什么？

灵感实验室： 简单说，表征就是模型内部用来理解信息的一种表达。

在图像里，表征可以理解为模型把一张图片变成一组特征，用这组特征去表示图片里有什么、哪里重要、不同部分之间是什么关系。在语言模型里也一样。文本本身是离散的 token，每个 token 进入模型前，会先变成 embedding。这个 embedding 也是一种表征。

现在很多模型训练时，更关心最后效果有没有上去，但很少仔细看这些表征在模型内部到底是什么样的：它表达了什么？不同层之间怎么变化？哪些表征真的对任务有帮助？这些问题并不是没人研究，但在当前追求规模和结果的环境里，确实容易被忽略。

我们过去做 CV 会更关注这些问题。比如一个图像特征到底有没有表达出关键视觉信息，它在识别、检索、泛化里是不是真的起作用。现在做多模态模型，我们仍然认为这些问题很重要。

InfoQ：为什么这些问题在今天反而容易被忽略？

灵感实验室： 因为现在模型规模变大了，很多东西被封装得越来越高层。

以前做视觉模型，大家会更关心算子、结构、特征、训练细节。后来框架成熟之后，很多底层工作被 PyTorch、TensorFlow 这类工具包起来了。到了大模型时代，很多团队甚至不再从底层视觉编码器开始做，而是直接拿现成的 CLIP 再接一个语言模型，重点放在数据、指令微调和效果评测上。

这当然是有效的，也让研究和应用推进得更快。但代价是，很多视觉本身的问题被隐藏起来了。比如前端视觉编码是否高效，token 是否冗余，图像和视频里的关键变化是否被准确表达，这些问题如果不解决，后面就只能靠更大的模型和更高的算力去补。

对我们来说，这些不是可以完全跳过的问题。尤其是进入视频理解以后，token 数量、上下文长度、推理成本都会迅速放大。如果前端视觉表征不够高效，后端模型压力会非常大。

InfoQ：视觉编码器和 token 效率会是灵感实验室长期关注的方向吗？

灵感实验室： 会。这一直是我们的主线之一。

我们会继续围绕视觉表征、视觉编码和有效 token 选择去做研究。因为无论是图像理解、视频理解，还是未来和具身智能相关的空间理解，本质上都需要模型用更有效的方式表达视觉信息。

大模型可以带来更强的理解和推理能力，但视觉信息怎么进入模型、哪些信息应该被保留、哪些冗余可以被压缩，这些问题仍然需要在视觉侧解决。对真实业务来说，这不仅影响模型效果，也直接影响成本、延迟和部署可行性。

InfoQ：为什么格灵深瞳要重写视觉基座，而不是直接使用现成的 CLIP 或其他 ViT？

灵感实验室：我们开始做这个方向，大概是在 2021 年 CLIP 出来时。CLIP 给行业带来的冲击很明显。它第一次让很多人看到，视觉和语言可以被放到同一个表示空间里，模型好像一下子具备了跨模态理解和检索的能力。

这对我们也有很大启发。格灵深瞳早期做人脸识别任务，在这个过程中积累了一套相对大规模的视觉训练方法。当时我们在人脸识别上的训练数据已经达到千万级图片。这样的训练规模，在当时已经需要多机多卡支持。

所以当 CLIP 这样新的技术路线出现时，我们会很自然地思考：过去在人脸识别中积累的大规模训练经验，能不能迁移到更通用的视觉表征上？

基于这个判断，我们开始做后来的 MVT 系列。这个方向大概是在 2022 年启动，2023 年形成了第一批研究成果。现在回头看，当时的方法还比较直接，可以说是把已有的大规模视觉训练经验迁移到新的视觉 - 语言表征框架里，但它也构成了后来 OneVision-Encoder 和多模态视觉基座研究的起点。

InfoQ：LLaVA 系列对灵感实验室的启发是什么？

灵感实验室： LLaVA 的启发主要有两点：架构足够简单，训练和数据构造流程相对可复现。相比一些闭源模型，LLaVA 让研究团队更容易理解它为什么有效，也更容易基于它继续扩展能力。

灵感实验室最早做的是视觉基座开源，但视觉基座本身比较偏专业，很难让外界一眼看到特点。后来团队认为，既然已经训练了高质量的视觉编码器，就需要一个视觉解码框架去验证它的能力，LLaVA 自然成为一个合适的选择。

全帧率意味着什么？

InfoQ：为什么“低成本全帧率视频理解”现在还没有被很好解决？

灵感实验室：这其实是业内和业外很大的认知差异。业外可能会觉得，视频理解都发展到今天了，全帧率理解应该已经很成熟了。但从模型底层来看，最大的问题是 token 数量。

视频不是一张图，而是一连串图像。如果一秒钟是 24 帧，就相当于一秒钟有 24 张图片。每一张图片又要被切成很多 patch，再转成视觉 token。哪怕我们用非常激进的压缩方式，比如 48 个像素块对应一个 token，一张较低分辨率的图也可能产生 100 个 token。一秒 24 帧，就是 2400 个 token。

如果一个模型有 100 万 token 的上下文窗口，听起来已经很大了，但如果全部用来放全帧率视频，也就只能容纳大约 7 分钟左右的视频。更何况，模型还要处理文本、指令和其他上下文。所以在真实场景里，比如安防、银行网点、轨交监控，一天 24 小时、多个摄像头的视频，根本不可能全部塞进模型里分析。

人看 7 分钟视频时，会自动忽略大量无关信息。我们知道什么地方该看，什么地方可以跳过。但模型并不会天然知道哪些信息该保留、哪些信息该丢掉。

如果把全帧率视频直接送进去，模型只能把所有帧都编码成 token。这样上下文很快就会被占满。即便是超长上下文模型，也很难真正 work。这就是视频理解和文本理解的差异：文本已经是高度压缩、结构化的信息，而视频的信息密度和冗余都非常高。

InfoQ：为什么抽帧不能彻底解决这个问题？

灵感实验室：抽帧确实是现在最常见、最简单的方法，但它的问题也很明显，它会丢信息。

很多视频任务的关键动作只发生在很短的一瞬间。比如我要找一个人拿起遥控器关电视的那一刻，这个动作可能只持续很短时间。如果我按固定间隔抽帧，就可能刚好没抽到。即使抽到了某一帧，也可能因为缺少前后时序，判断不出这个人在做什么。

所以全帧率很重要。尤其是做时序定位的时候，比如判断某个事件什么时候开始、什么时候结束，全帧率会更精准。我们现有实验也能看到这个结果。

自左向右分别为：原始视频、均匀帧采样（常规用法）、

运动矢量-残差显著性图、类编解码器风格的块提取

InfoQ：这对视频剪辑 Agent 也会有很大影响。

灵感实验室：是的，现在很多视频剪辑 Agent 表面上是在做剪辑，但底层仍然需要视频理解模型。它需要知道某个事件发生在什么时间点，某个动作从哪里开始、在哪里结束。

如果底层的视频理解模型只能抽帧，它就会丢信息。上层 Agent 系统再怎么优化，也无法弥补底层理解能力的不足。比如它没有办法准确定位一个动作，也就很难做出真正精准的视频剪辑。

这也是为什么 coding agent 现在表现更好，因为代码本质上是文本，而且是高质量文本；但视频 agent 面对的是长视频、密集时序和大量视觉冗余，难度完全不一样。

InfoQ：LLaVA-OneVision-2.0 的基本架构是什么？

灵感实验室： 它仍然延续“视觉编码器 + projector + 大语言模型”的架构。不同之处在于，视觉编码器从面向图像的版本升级为可同时处理图像和视频的 OneVision-Encoder，并引入基于 codec 的密集视频输入策略。

也就是说，语言模型部分并不是这次工作的重点。团队更关心的是，视觉侧能不能在进入语言模型之前，就把视频里的有效信息压缩和组织得更好。

OneVision-Encoder 方法示意图

InfoQ：LLaVA-OneVision-2.0 相比 1.5，主要迭代是在视觉编码器上吗？

灵感实验室：是的，但更准确地说，我们这次主要想解决的是视频理解的问题。我们是从视频任务反推回来的：如果我要让模型更好地理解视频，尤其是高帧率、全帧率视频，核心瓶颈是什么？我认为首先是效率问题，也就是怎么做到低成本全帧率理解。

所以这次我们没有把重点放在语言模型上。语言模型我们直接用了 Qwen。我们真正要做的是往前看，也就是视觉编码器这一层：在视觉输入进入大模型之前，能不能用更高效的方式处理视频信息。

InfoQ：技术报告中提到 LLaVA-OneVision-2.0“只需要约 1/8 的视觉 token”，这个数字怎么理解？

灵感实验室：这个数字主要来自推理阶段的测试结果，不是训练阶段的完整成本测算。它不是一个适用于所有场景的绝对数字，而是在某些测试集上测出来的平均结果。

不同视频的变化程度不一样。有些视频画面变化很多，压缩空间就小一些；有些视频画面变化较少，压缩效果就更明显。平均下来，我们在一些测试场景里能做到大约 1/8 的推理成本。

背后的原理和视频压缩类似。如果两帧画面大部分内容没变，我没有必要把两帧完整保存，也没有必要把两帧完整计算一遍。我只需要记录或计算变化的部分，就能恢复或理解后续画面。

InfoQ：这次工作是否已经解决了低成本全帧率视频理解？

灵感实验室：我不会说我们已经解决了这个问题。更准确地说，我们只是开了一个头。

我们像是打开了一个金矿，但后面还要继续挖。现在的方法肯定还有很多问题，需要继续修 bug、补能力、做优化。我们也看到，行业里其他研究团队开始关注高帧率甚至全帧率视频理解。这个方向会越来越重要。

InfoQ：开源之后，团队收到过哪些反馈？

灵感实验室：我们觉得 LLaVA-OneVision-1.5 是一个非常重要的节点。开源之后，项目获得了很多关注，这也反过来要求我们在后续工作中更加严谨。

比如每次 release 之前，我们都会更认真地复核实验结论、相关论点和表述。因为关注的人多了，我们也希望自己发布的东西不只是“做出来了”，而是真的能对业界相关研究产生启发。

比较惊喜的是，有团队会直接基于我们的数据和训练方向继续做研究。比如 Innovator-VL 项目使用了我们的数据和训练框架，同时加入特定方向的数据，针对某些任务做优化，最后训练出非常 SOTA 的结果。

我们的开源就是为了能够汇聚整个社区的资源，大家一起朝着同一个方向去前进。

视频理解的价值，与灵感实验室的技术“野心”

InfoQ：在视觉理解中，视频意味着什么？

灵感实验室： 我们之所以选择把视频作为一个重要方向，是因为视频很可能会成为未来视觉理解里最核心的形态。图像当然重要，但图像只是一个瞬间；视频不同，它天然包含时间、运动和前后连续关系。

现在很多模型处理视频的方式，仍然是把视频拆成一帧一帧的图片，再用图像编码器编码，最后送进模型。不管是做 VLM，还是做视频生成模型，大部分系统都在沿用类似路径。当然，行业里也有一些改进，但整体上，视频仍然经常被当作一组图片来处理。

我们认为这里面有一个问题：图像和图像之间的连续关系，并没有在前端被建模起来，而是被交给后端模型去理解。也就是说，模型先把视频拆散，再迫使语言模型或中间模块重新理解帧与帧之间的关系。

这并不是说这种方法不可行。它当然可以做，而且已经能做出不错的效果。但我们觉得它很浪费。

浪费主要在于，视频本身就是连续的，前后帧之间天然存在关系。更重要的是，这种关系在视频编码器里早就被建模过了。视频编码技术已经发展了很多年，I 帧、P 帧、运动向量、残差等机制，本来就是为了描述哪些内容稳定不变，哪些内容发生了变化。

但现在很多多模态模型的做法，是先把这些已经存在的结构全部解开，把视频重新变成一帧一帧的图片，再交给模型重新理解一遍。这相当于把原本已经编码好的信息打散，再用更高成本把它学回来。

所以我们的思路是，能不能回到更底层的问题：既然视频里原本就有已经建模好的结构，为什么不直接利用这些结构，在它之上构建更 compact 的 token 或表示？这样一来，本来就存在于视频里的运动、变化和连续关系，就可以更直接地传给模型。

如果这件事能做好，就不仅可以节省算力，也可以节省访存和带宽。理论上，它在效果上不应该变差，甚至有可能更好。因为模型不再需要从一组离散图片里重新推断视频关系，而是可以直接利用视频本身已经存在的信息结构。

InfoQ：灵感实验室如何看待具身智能方向？VLM 是否有机会成为具身大脑 backbone？

灵感实验室： 具身智能会是 AI 的重要应用场景之一，而具身系统天然需要大量视觉任务。现在很多具身模型还处于 demo 阶段，一个重要原因是计算量、功耗、传输和速度还没有解决好。

VLM 如果能够更高效地处理连续视频、空间关系和目标变化，就可能成为具身系统里的主干模型。

InfoQ：除了延续 OneVision-Encoder 的方向继续优化全帧率理解，你们后面还会做什么？

灵感实验室：一个重要方向是流式理解。

现在很多视频理解还是 offline 的：用户把一段视频扔进来，模型分析完再给结果。但真实业务里，很多视频是实时产生的。比如监控、直播、交互式视频系统，都需要模型一帧一帧，或者几帧一个小片段地实时理解。

所以我们后面会尝试流式视频理解。也就是说，模型不是等整个视频结束后再分析，而是在视频不断进入的时候持续理解、持续判断。

另一个更大的方向是理解生成一体。

InfoQ：为什么要考虑“理解生成一体”？

灵感实验室：这个方向有一部分来自技术人的执念。语言模型天然是理解和生成一体的：输入是语言，输出也是语言。但图像和视频不一样。图像理解和图像生成，通常是两套模型；视频理解和视频生成，也往往是两套系统。

所以大家会想，视觉领域能不能也做到理解和生成一体？比如输入一张图，模型不仅能理解它，还能直接生成或编辑图像；输入一段视频，模型不仅能分析它，还能直接做视频编辑。

但这个方向现在还比较早。学术界做得不算多，应用层面也少。我们目前更聚焦的是理解，因为视频理解本身还远远没有被解决。如果理解能力做得足够好，后面的生成、编辑和 Agent 应用都会受益。

理解这件事本身还没有被很好解决。 如果我们现在直接跟进理解生成一体，可能只能做出一个比较中庸的模型，特色不明显。但如果我们把视频理解、图像理解、分割、定位这些基础能力做得更扎实，其他做生成和编辑的人也可以用我们的能力。这样反而更有价值。

理解是底座。只有底座足够好，上层的“生成”和“理解”才能拥有更高的上限。

InfoQ：我在灵感官网发现一个操作体验，可以把某个水果从背景和其他水果里单独分割出来。这个能力看起来很基础，但现在很多 AI 修图产品反而做不好，像分图层、精细分割这样的能力，到了多模态大模型和 AI 修图时代，反而还没有被很好解决？

灵感实验室：我觉得也不能简单说它们做不好。更准确地说，可能技术层面在某个具体的小任务上做得还可以，但到了产品层面，还有很多额外工作要做。不是一个模型做好了，产品就自然解决了。不同产品场景里，可能还有别的需求、别的流程。

但你提到的这个问题，确实对应了一个更底层的问题：从传统 CV 到多模态大模型，有些能力并没有被完全解决。

现在的多模态大模型更偏向语言对齐。也就是说，它更擅长把图像内容转成语言描述，或者围绕图像做问答。但传统 CV 里有很多具体任务，比如检测、分割，这些任务不一定容易被语言表达。

检测还相对容易一些，因为检测结果可以映射成语言或者坐标，比如告诉你某个物体在哪里。但分割更难。分割有明确的像素边界，你很难用语言准确表达“哪些像素属于哪个物体”。

所以，分割不是简单的视觉问答问题。它需要模型理解非常细的边界和区域关系。多模态大模型可能具备一些这方面能力，但不一定特别强。因为如果把检测、分割这类能力强化得太多，模型原本的通用视觉问答能力可能又会下降。

所以现在真正要做检测时，很多人还是会用传统检测器。分割也是类似道理。多模态大模型一路往前走，形成的是一种新的范式，但很多细节能力还没有完全覆盖。这些能力仍然需要更底层的视觉基座继续补上，之后再帮助多模态模型进一步提高。

从技术研究到产品落地

InfoQ：格灵 2026 年推出了新产品“视觉智能工坊”，请为大家简单介绍一下。

灵感实验室：视觉智能工坊不是一个单独的软件或硬件，而是一套软硬一体的视觉智能系统。它有三个子产品：算法训练中心、算法运营中心和边缘哨兵。

边缘哨兵部署在边缘端，接入摄像头，负责实时视频分析和初步感知；算法运营中心负责业务落地，比如复杂业务编排、以文搜图、模型快标快训、项目运营等；算法训练中心则面向算法生产，解决不同场景、不同客户需求下的模型训练和更新问题。

InfoQ：为什么不能把所有视频都上传到云端分析？

灵感实验室： 因为真实场景会受到网络、电力、算力、延迟和成本限制。比如银行网点有大量摄像头，如果所有原始视频都实时上传到私有云或者数据中心，网络带宽和处理延迟都很难满足要求。

边缘哨兵的作用，是先在现场把原始视频解析成结构化信息，筛掉大量无效数据，再把更小、更有价值的信息传给上一级系统。

InfoQ：算法运营中心解决什么问题？

灵感实验室： 算法运营中心主要解决 AI 真实业务落地的问题，一般部署在中心机房里。它会对边缘侧传上来的结果做二次识别和复核，也承担报警管理、模型迭代、业务编排和项目管理等工作。

比如边缘哨兵判断某个人“疑似倒地”，但因为边缘侧算力有限，结果可能不够精准。到了运营中心，可以用更强的算力再判断一次：这个人到底是不是真的倒地，是否需要报警，是否要进入业务流程。

InfoQ：银行场景里，视觉系统主要解决哪些需求？

灵感实验室： 银行场景大致分为两类需求。

一类是安保类需求，比如倒地、尾随、抢劫、异常聚集、危险行为等。这些需求更接近传统安防。

另一类是运营和合规类需求。比如金库取钱时，银行规定必须两个人一起进入。过去这类合规动作主要靠人工抽查监控视频，现在系统可以实时识别，一旦发现只有一个人进入，就自动报警。

所以银行的视觉需求并不只是“看有没有危险”，也包括检查员工是否按流程履职、业务操作是否符合规范。

InfoQ：算法训练中心为什么必要？

灵感实验室： 因为很多视觉算法无法一次训练后到处通用。不同客户、不同地区、不同业务线，对同一个事件的定义可能并不一样。

这些差异会导致同一个算法版本无法适配所有场景，因此需要不断重新训练和调整。但金融、能源、政务等行业的数据往往不能离开客户体系，所以算法训练中心会私有化部署到客户自己的数据中心里，在客户体系内部完成算法生产。

InfoQ：算法训练一开始由谁完成？

灵感实验室： 早期一般由格灵深瞳的算法专家参与。但随着工具越来越完善，客户自己的技术人员、业务人员或运维人员也可以参与训练和调整。

这也是视觉智能工坊希望实现的方向：过去训练一个算法高度依赖算法专家，现在通过工具化和自动化，让客户在自己的体系内也能完成一部分算法生产和迭代。

InfoQ：“一句话生成算法”具体是什么意思？

灵感实验室： 它不是指大模型凭空生成一个可以直接上线的算法，而是把过去复杂的算法生产流程自动串起来。

以前训练一个新算法，可能需要数据工程师、算法工程师、Infra 工程师分别参与，流程包括需求定义、数据准备、数据筛选、数据合成、模型训练、参数调整、部署验证等多个环节。现在格灵深瞳希望把这些能力工具化、skill 化，再由 Agent 统一调度。

用户提出需求后，Agent 可以调用已有的数据检索、数据合成、AutoML、训练和部署工具，自动完成一套算法生产流程。

InfoQ：Agent 在算法生产中具体做什么？

灵感实验室： Agent 更像一个“调度者”。它本身不一定替代每一个专业工具，而是负责调用这些工具，并把流程串起来。

比如算法生产的第一步通常是数据准备。过去数据工程师要根据算法定义，从海量视频中找到相关数据。现在 Agent 可以根据文本需求做跨模态检索，自动筛选相关数据。如果数据不够，还可以调用数据合成工具补齐一部分训练样本。

之后，系统可以基于已有视觉基座和 AutoML 能力完成自动训练和参数选择。这样，算法生产不再完全依赖人工逐步操作。

InfoQ：人还需要参与吗？

灵感实验室： 需要。尤其是在上线部署前，人必须确认结果。

视觉智能工坊可以自动生成算法流程和阶段性结果，但模型仍然可能走偏。对银行、能源、核电、水利、城市治理这类高要求场景来说，最终部署前必须有人审核，确认结果符合业务定义和安全要求。

InfoQ：客户需求是高度非标的，这时格灵深瞳如何落地？

灵感实验室：格灵深瞳把一个新视觉需求的落地过程拆成三个阶段：冷启动、快速迭代和规模化部署。

第一阶段用多模态大模型解决冷启动。比如客户提出“非法垂钓”识别需求，但现场还没有训练数据。多模态模型可以先根据文字定义和实时视频做判断，让客户先看到效果。

第二阶段用 Glint-MVT 类模型快速迭代。当现场积累了一部分数据后，就可以用更低成本的视觉模型快速调整版本。相比大模型，这类模型的推理成本可以下降大约一个数量级。比如原来需要 2000 张卡的任务，可能降到 200 张卡左右。并且，现在运营中心可以做到分钟级迭代一个版本。

第三阶段用小模型规模化部署。当业务规则稳定、数据积累足够后，就可以训练更小、更便宜、更确定的小模型长期运行。

InfoQ：为什么最终还是要回到小模型？

灵感实验室： 因为大模型成本高。大模型适合解决冷启动和泛化问题，但如果要在几百、几千路摄像头上长期实时运行，成本很难承受。

如果用大模型做实时视频分析，一张算力卡可能只能支撑几路视频；但一个客户现场可能有 2000 个摄像头，如果都使用大模型，成本会非常高。

所以更现实的路径是：先用大模型打开场景，再用中等规模模型快速迭代，最后用小模型规模化部署。大模型负责“从无到有”，小模型负责“长期低成本运行”。

InfoQ：如果小模型效果不够怎么办？

灵感实验室： 可以采用组合式方案。比如小模型先做初筛，把疑似事件筛出来，再交给 Glint-MVT 视觉基础模型或多模态模型做复核。

这样既能控制成本，也能保证复杂场景下的识别精度。格灵深瞳把这类工程化能力放进算法运营中心里，让客户可以根据业务要求配置不同模型之间的协作关系。

InfoQ：随着模型能力的提升，安防和金融这类场景的需求是否变得更加多样？

灵感实验室： 安防、金融等确实是之前视觉 AI 落地做得比较好的场景。

之前主要还是解决一些高频通用的问题，但现在客户的需求开始进入长尾阶段，会提出更细、更碎、更具体的识别需求。过去，为这种低频长尾需求单独训练算法，成本太高。

视觉智能工坊想解决的就是这类长尾算法的快速构建问题。

本文来源：InfoQ

对话灵感实验室：全帧率 VLM、低成本与分层部署，业务现场不止需要炫技模型

AI_light

从 CV 到多模态：为什么格灵深瞳还在做视觉基座？

全帧率意味着什么？

视频理解的价值，与灵感实验室的技术“野心”

从技术研究到产品落地

Sign up for more like this.

Snowflake Intelligence 合作伙伴生态：把 AI 能力带入千行百业｜技术趋势

Anthropic 推出 Routines for Claude Code

10 天 3000 元，一人造出全球 AI 爆款！好莱坞导演抢人、游戏版引爆期待，合作细节首次披露