【成都医科大学曝光推荐】DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了-精选吃瓜网- 关注文化，享受美好内容

当前所在位置:首页 >> 热点

【成都医科大学曝光推荐】DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

发布时间：2025-09-13 19:38:46 作者：pdru 点击：9756 【字体：大中小】

过去一周，没舍世界模型赛道的得开热度被推到新高。

DeepMind 刚发布的昆仑 Genie 3 展示了交互式、实时、放出长序列生成的没舍能力，让“虚拟世界随时可玩、得开成都医科大学曝光推荐可控”从概念变成了可见的昆仑产品形态。不过，放出Genie 3 虽然惊艳，没舍却并未开源，得开这让不少开发者只能停留在猜测其技术细节的昆仑阶段。

然而 DeepMind 没做到的放出事，昆仑万维做到了。没舍8 月 12 日，得开在昆仑万维启动Skywork AI技术发布周的昆仑第二天，昆仑万维推出了自研 Matrix 系列的升级版，交互式世界模型 Matrix-Game 2.0。

和 Genie 3 相比，Matrix-Game 2.0 不仅同样实现了通用场景下的实时长序列交互生成，更大胆的是，它完整开源，成为了业内首个在通用场景落地这项能力的开源世界模型。这意味着，上海师范大学爆料排名社区不仅能看到最终效果，还能复现、改进，甚至直接嵌入实际项目。

与更偏向技术演示的 Genie 3 不同，Matrix-Game 2.0 的定位更贴近产业化落地：它的目标是让这项能力可以即用即调，并直接服务于游戏引擎、具身智能、虚拟人交互等场景。

换句话说，昆仑万维是正在把世界模型从实验室，真正推向了生产线，昆仑万维过去两年大笔研发投入终于迎来了“开花结果”的阶段，技术成果持续转化为营收增长动能。

当技术飞轮和商业飞轮同频转动，昆仑万维率先拉开整个 AI 领域商业化的序幕。

虚拟世界的真实感

昆仑万维的 Matrix-Game 2.0，真正把“交互式世界模型”从纸面技术变成了可以直接上手的工具。用户只需要键盘和鼠标，就能在模型生成的世界里实时移动、转向、执行动作，画面以 25FPS 连续输出，并在分钟级长序列中保持物理逻辑和细节稳定。

在 GTA 场景中，白天的城市主干道上，车辆和行人川流不息。玩家驾驶着轿车在车流间穿梭，转向、加速与刹车都即时体现在画面中。25FPS 的实时生成让光影、路面反射与 NPC 动作都保持稳定一致。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

在高速公路上的疾驰画面中，远处山体与天空细节清晰可见。玩家变道、提速等操作与场景变化自然衔接。模型保持了分钟级长序列的连贯性，光照切换与物理碰撞无延迟。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

同样在 MC 的像素风方块世界中，远处是起伏的山丘与树木。玩家操控角色行走、跳跃，动作指令即时转化为生成画面。模型在低纹理细节下依然保持物体位置与交互逻辑准确。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

在复杂的地形中进行攀爬，方块台阶与悬崖边缘依旧无缝衔接。25FPS 的生成速度确保了视角切换的流畅性，角色运动轨迹和地形碰撞保持物理一致。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

除此之外，在神庙逃亡这款经典游戏的场景中，高速奔跑的赛道两侧是古老的石墙与悬崖。玩家连续执行转弯、跳跃、下蹲等操作，模型即时生成对应视角变化。动作与背景透视精准同步，完全没有拖影或卡顿。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

而在 Wild 场景里，玩家沿小路缓慢前进并调整视角，光影变化和植被细节与操作步骤依旧同步变化。分钟级生成下，环境细节在长时序中无明显漂移。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

分钟级长视频，实时可交互

Demo 之外，Matrix-Game 2.0 的技术报告也十分有看点。它的设计目标，是构建一个既可操控、又能实时响应的虚拟世界，并在长时间运行中保持流畅性与物理一致性。其技术方案可分为四个层次：核心理念、模型架构、生成机制，以及数据与任务设计。

与许多依赖文本提示的生成模型不同，Matrix-Game 2.0 完全绕过语言输入，将视觉作为唯一信号。这种方式避免了语言先验可能带来的语义偏差，让模型直接从画面中学习空间结构、物体关系和物理规律，从而生成更贴近真实的虚拟场景。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

架构方面以图像为核心，由三大组件组成：3D Causal VAE 压缩结构在空间与时间两个维度对视频进行高效压缩，既保留关键信息，又降低计算成本。多模态扩散 Transformer（DiT）将视觉编码与用户的操作指令融合，逐帧生成符合物理规律的动态视频序列，再通过 3D VAE 解码成完整画面。动作控制模块借鉴 GameFactory 与 Genie 系列的交互框架，引入帧级键盘与鼠标输入，实现即时操控与世界生成的无缝衔接。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

当然，Matrix-Game 2.0 也要面对长序列视频常会遇到延迟和误差累积的问题，不过它直接通过专有的三项机制应对：

因果扩散训练将双向扩散蒸馏为因果模型，仅依赖历史帧生成当前帧，减少等待、提升推理速度。

分布匹配蒸馏（DMD）在训练中最小化学生模型与原始模型的生成分布差异，保证长时间生成下的画面稳定性，减少漂移。

KV-Cache 缓存机制保存注意力上下文，实现滚动生成，避免重复计算，即便在单 GPU 环境下也能达到 25 FPS 的实时速度。

除此之外，为保证在多场景下的表现，研究团队还基于 Unreal Engine 和 GTA5 搭建了可扩展的数据生产管线，生成了上千小时的高质量交互视频，涵盖多风格、多任务场景。

并在此基础上，训练了多个子模型：Matrix-Game Uni 适合探索多种真实感静态场景；Matrix-Game TempleRun面向跑酷类游戏，具备精准的动作响应；Matrix-Game GTA 则可模拟动态城市与车辆运行，场景中的物体具备独立运动轨迹。

DeepMind 没舍得开源的 Genie 3，被昆仑万维放出来了

总的来说，结合架构与数据，Matrix-Game 2.0 在三方面表现尤为突出：高帧率长序列生成，支持分钟级的连续交互视频生成，动作流畅、响应及时；多场景泛化，无需重新训练即可适配多种风格和环境，从写实城市到艺术化场景均能生成；物理一致性增强，角色在复杂地形下的行为符合物理逻辑，显著提升沉浸感与可控性。

凭借这些特性，Matrix-Game 2.0 不仅可用于游戏内容创作，还能为具身智能训练、虚拟现实、影视制作及元宇宙内容生产提供稳定的技术支撑。雷峰网