行业动态

英伟达甩出物理AI王炸！Cosmos 3全模态模型开源，Agent Tookit补齐工具短板

点击查看原文>

AI_light

02 Jun 2026 • 8 min read

大模型的竞争，正从纯文本、多模态内容生成，彻底转向物理世界的智能落地。

昨天，在 2026 中国台北 GTC 大会上，英伟达正式官宣重磅产品——NVIDIA Cosmos 3，这款面向物理 AI 的开放世界基础模型，凭借全新混合 Transformer 架构，打通视觉推理、世界生成、动作预测三大核心能力，成为全球首款完全开放的全模态物理 AI 模型。与此同时，英伟达牵头成立全球开发者协作联盟，正式拉起物理 AI 生态阵营，宣告物理 AI 规模化落地时代加速到来。

不同于当下主流聚焦内容创作的多模态大模型，Cosmos 3 的核心定位精准锚定真实物理世界，原生支持文本、图像、视频、环境音、动作五大模态的理解与生成，且具备顶尖的物理规律精准度。

最关键的是，它彻底重构了物理 AI 的开发效率，将行业传统数月的训练、评估周期，直接压缩至数天，为机器人、智能汽车、工业视觉 AI 等领域带来代际升级可能。

架构革新：破解物理 AI 落地核心痛点

长期以来，物理 AI 落地始终受制于两大行业难题：一是真实场景训练数据稀缺，二是仿真系统碎片化，导致模型难以在复杂现实环境中泛化适配，无法稳定落地。而 Cosmos 3 的核心价值，正是通过架构创新破解这一行业瓶颈。

此次全新搭载的混合 Transformer（Mixture-of-Transformers）架构，是英伟达的突破性技术沉淀。该架构创新性融合推理 Transformer 与专家生成 Transformer 双模块，先通过推理模块精准解析现实场景中物体交互、时空运动、环境关联等核心物理逻辑，再依托生成模块输出贴合物理规律的视频画面与动作轨迹，彻底改变了传统模型“生成优先、逻辑缺失”的弊端。

训练层面，Cosmos 3 依托海量高质量数据集完成迭代，囊括数十亿条文本、图像、视频、环境音及机器人动作轨迹样本，构建起完备的物理世界知识体系。对开发者而言，这意味着无需海量定制化数据、无需高额训练算力成本，就能基于预训练模型快速搭建稳定、可泛化的物理 AI 系统，大幅降低行业落地门槛。

凭借硬核技术实力，Cosmos 3 已拿下多项权威基准测试榜首。

在开放模型赛道中，其包揽 Artificial Analysis、Physics-IQ 等榜单的世界生成精度第一，RoboLab、RoboArena 动作策略测评第一，以及 VANTAGE-Bench、TAR 视觉理解排行榜首位，全方位领跑物理 AI 核心能力。

为适配不同开发者、不同落地场景的差异化需求，英伟达推出分层版 Cosmos 3 产品矩阵，覆盖高精度研发、快速迭代、边缘实时推理全流程：

Cosmos 3 Super：定位高端高精度场景，主打极致物理仿真精度与生成质量，适配机器人、智能汽车等对安全性、精准度要求严苛的模型后训练研发场景；

Cosmos 3 Nano：主打轻量化高效迭代，可在极短时间内完成高质量视频生成与动作推理，适合开发者快速验证算法、迭代原型方案；

Cosmos 3 Edge（即将上线）：聚焦终端落地，专为实时边缘推理优化，将打通物理 AI 从云端训练到终端部署的最后一环。

功能层面，Cosmos 3 可一站式充当三大核心工具：具备全模态跨维度推理的视觉语言模型、可模拟物理环境、预测世界状态的仿真训练模型、支撑机器人定制任务训练的动作骨干网络，全方位覆盖物理 AI 开发全流程。

技术突破之外，英伟达同步祭出生态大招，正式成立 NVIDIA Cosmos Coalition 全球协作联盟，集结全球顶尖世界模型研发团队与 AI 开发者，共同推动下一代开放世界模型的技术迭代与落地普及。

首批创始成员阵容堪称行业顶配，涵盖 Agile Robots、Black Forest Labs、Runway、Skild AI 等全球知名 AI 与机器人企业。联盟将搭建开放共享的技术生态，成员可双向输出模型、算法与测评技术，同时共享 Cosmos 3 核心技术、专属训练工具与 NVIDIA DGX Cloud 云端算力基础设施，开展大规模模型训练与迭代。

这种开放协作模式，将有效解决当前物理 AI 行业技术分散、兼容性差、迭代缓慢的痛点，通过生态合力加速技术创新，统一行业技术标准，推动物理 AI 从单点技术突破走向规模化落地。

目前，英伟达 Cosmos 平台已形成成熟的产业落地能力，平台内置机器人动力学、人体运动、辅助驾驶、空间推理等多领域专项数据集，同时搭载神经场景重建、缺陷图像生成、视频增强等全新 AI 智能体技能，全面赋能工业、出行、机器人等场景。

产业端已有大量头部企业率先入局落地：机器人领域集结三星、LG 电子、Doosan Robotics、Agile Robots 等知名厂商；智能汽车领域，理想汽车已依托该平台开展相关技术研发；视觉 AI 领域，Centific、Milestone Systems 等企业已基于其搭建工业 AI 与智能空间应用方案，物理 AI 的商业化图景愈发清晰。

补齐工具短板，推出开源 Agent Toolkit

基础模型之外，英伟达进一步补齐开发工具短板，正式推出 NVIDIA 物理 AI 智能体技能（归入 NVIDIA Agent Toolkit 体系），完成“基础模型+自动化开发工具”的双层布局。随着 AI 智能体从单纯编写代码，升级为统筹全流程开发任务的核心载体，这套工具链让智能体可直接调用英伟达全系技术资产，实现物理 AI 开发全链路自动化。

NVIDIA 创始人兼 CEO 黄仁勋对此表示：“AI 智能体正在彻底改变软件开发，而这一转变正迈向物理 AI，并进一步扩展到那些将改变交通、制造、医疗和机器人技术的系统中。当智能体可以直接使用 NVIDIA 库、模型和框架时，物理 AI 开发速度将大幅提升，使开发者能够以惊人的速度构建未来的机器人、智能汽车和工业系统。”

英伟达已完成全栈物理 AI 技术的“智能体适配改造”，构建起一套可被 AI 智能体调用的完整技术矩阵：以 Cosmos 世界基础模型承载物理推理与场景生成，以 Omniverse 支撑仿真与数字孪生，以 Isaac 赋能机器人仿真与学习，以 Metropolis 赋能视觉 AI、Alpamayo 适配辅助驾驶场景，再结合 Jetson 平台打通边缘 AI 部署，形成端到端技术闭环。

此次全新上线的物理 AI 智能体技能，核心价值是标准化、自动化工作流。它将复杂的物理 AI 开发流程，拆解为 AI 智能体可重复执行的标准化指令，明确工具调用规则、输出标准与验证逻辑，无需人工反复调试。同时，开发者可依托 NVIDIA NemoClaw 蓝图与 OpenShell 运行时，安全搭建、部署自主智能体，依托本地与云端的策略管控机制，保障开发过程的安全与隐私合规。

英伟达锁定物理 AI 时代话语权

从底层 Cosmos 3 世界基础模型，到 Agent Toolkit 智能体自动化工具链，再到 Omniverse、Isaac、Jetson 等全栈技术底座，叠加全球开发者联盟生态与各行业头部企业的落地实践，英伟达已构建起完整的物理 AI 产业闭环。

当行业还在聚焦多模态内容生成、虚拟 AI 迭代时，英伟达已经完成物理 AI 从技术理论、模型创新、工具赋能到产业落地的全链条布局。这套开放、高效、可规模化的解决方案，将推动 AI 彻底走出虚拟场景，深度融入制造、交通、医疗、机器人等实体产业，开启具身智能赋能实体经济的全新周期。

本文来源：InfoQ

英伟达甩出物理AI王炸！Cosmos 3全模态模型开源，Agent Tookit补齐工具短板

AI_light

架构革新：破解物理 AI 落地核心痛点

补齐工具短板，推出开源 Agent Toolkit

英伟达锁定物理 AI 时代话语权

Sign up for more like this.

不会写代码的“鲸鱼哥”，被 DeepSeek 改写人生 | 专访 Hunter Bown

Token 卖疯了挣的也是小钱，Snowflake 盯上了 AI 时代最贵的资产

Codex 500万用户福利被怼“作秀”！Claude Code 吃掉近九成 Token，OpenAI 抢用户败在“小气”上？