行业动态

阿里“快乐马”团队再出手！世界模型 HappyOyster 来了，正面叫板谷歌 Genie 3

点击查看原文>

AI_light

16 Apr 2026 • 4 min read

4 月 16 日，阿里发布可实时构建和交互的世界模型产品 HappyOyster（快乐生蚝）。该产品由阿里 ATH 创新事业部团队研发，与此前爆火的 HappyHorse 同属一个团队。

先看下实际效果：

漫游模式畅游世界名画

HappyOyster 基于原生多模态架构而建，支持多模态理解与音视频联合生成。目前产品可实现“漫游（Wander）”和“导演（Direct）”两大核心能力，用户可以实时构建可互动、可演绎、可探索的 AI 数字世界。同时，用户生成的数字世界，不仅能被完整保存，还能开放给其他用户进行二次创作。

相比大语言模型相对成熟的模型架构和技术范式，世界模型仍属于前沿探索领域。阿里的 HappyOyster 与谷歌的 Genie3 同属于世界模拟器流派。

区别于传统文生视频模型输入提示词、等待渲染、获得成片的被动流程，这一流派采用长时间跨度上的世界演化建模方式。通过学习海量长视频数据，以及文本、动作指令、图像参考等多样控制信号，模型能够主动理解空间、物理与因果规律，预测情节和画面的演变，从而把“被动生成内容”转变为“主动模拟世界演化”，为构建可交互的通用世界模拟器提供了关键技术路径。

Google DeepMind 团队在 2024 年提出的一篇世界模型论文中提到，Genie 包含三大部分：

时空视频 tokenizer，把原始视频序列压缩为离散 token，实现高效建模。
自回归 dynamics 模型，在 token 空间里，按时间步预测未来帧，用类似大语言模型的自回归方式建模世界演化。
隐式动作（latent action）模型，学习一个低维、离散的“动作空间”，让智能体的操作在这个空间中被解释，从而实现“按键→画面变化”的可控交互。

整个系统在训练阶段不需要任何显式动作标签或环境规则，只依赖海量未标注视频，以无监督方式学习“如果这样动，世界会怎样变化”的隐含规律。最终，Genie 可以不依赖特定游戏引擎，从多模态提示生成可玩世界，并实现逐帧交互。这些特性使 Genie 被视为早期的世界模拟器。

而这次阿里发布的 HappyOyster 也直指谷歌 Genie 3。官方表示，HappyOyster 采用了时间跨度更长的世界演化建模方式，使得模型能够保持高保真、长时序的动态场景生成。同时在建模初始就设计了多样的控制信号，使模型能够在统一的时序框架下同时实现生成质量、长时序与实时可控性的协同优化。

在产品能力上，HappyOyster 呈现出差异化优势。不仅能支持 Wander 漫游探索，还独家提供实时导演功能，用户可通过自然语言指令随时介入世界演化、调度角色事件，实现从被动探索到主动创作的跨越。在视觉表现上，HappyOyster 漫游模式的画面质量更高，风格泛化能力更强，动态性更好。

漫游模式控制人物运动

当前，在漫游模式中，用户仅需一句话或一张图，即可生成具备物理一致性的完整空间，物体位置稳定、场景持久存在，视角与光照也能跟随第一人称视角持续移动；此外，用户能自由切换方向与镜头运动，突破初始画框的边界，体验无限延展的探索乐趣。目前 Happy Oyster 支持长达 1 分钟的连续实时位移与镜头控制，并支持多样化的风格切换。

导演模式可在任意节点改变剧情走向

在导演模式下，用户能够在视频的任意节点，通过文字、语音或图像等多模态输入，随时实现镜头切换、剧情改写、角色调度，在充分的交互中生成一个光照、重力、角色动作与场景因果持续演化的世界，并能选择题材风格。导演模式支持连续生成 3 分钟以上的 480p 或 720p 实时画面。

不过，当前漫游与导演两大模式尚未完全打通，但未来用户有望在漫游过程中直接与世界深度互动、实时改写场景规则，真正实现边探索、边创造的无缝融合体验。

本文来源：InfoQ

阿里“快乐马”团队再出手！世界模型 HappyOyster 来了，正面叫板谷歌 Genie 3

AI_light

Sign up for more like this.

Claude 推行强制化实名认证：部分功能需提交证件和自拍

世界变了、Linus妥协了？AI代码可以进Linux内核，但出了事人来背

3分钟，这个AI帮我手搓出带货视频！前钉钉副总裁创业：有人第一个月卖了10万美元