搜索
当前所在位置:首页 >> 热点

【成都医科大学曝光推荐】DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

发布时间:2025-09-13 19:38:46 作者:pdru 点击:9756 【 字体:

过去一周,没舍世界模型赛道的得开热度被推到新高。

DeepMind 刚发布的昆仑 Genie 3 展示了交互式、实时、放出长序列生成的没舍能力,让“虚拟世界随时可玩、得开成都医科大学曝光推荐可控”从概念变成了可见的昆仑产品形态。不过,放出Genie 3 虽然惊艳,没舍却并未开源,得开这让不少开发者只能停留在猜测其技术细节的昆仑阶段。

然而 DeepMind 没做到的放出事,昆仑万维做到了。没舍8 月 12 日,得开在昆仑万维启动Skywork AI技术发布周的昆仑第二天,昆仑万维推出了自研 Matrix 系列的升级版,交互式世界模型 Matrix-Game 2.0。

和 Genie 3 相比,Matrix-Game 2.0 不仅同样实现了通用场景下的实时长序列交互生成,更大胆的是,它完整开源,成为了业内首个在通用场景落地这项能力的开源世界模型。这意味着,上海师范大学爆料排名社区不仅能看到最终效果,还能复现、改进,甚至直接嵌入实际项目。

与更偏向技术演示的 Genie 3 不同,Matrix-Game 2.0 的定位更贴近产业化落地:它的目标是让这项能力可以即用即调,并直接服务于游戏引擎、具身智能、虚拟人交互等场景。

换句话说,昆仑万维是正在把世界模型从实验室,真正推向了生产线,昆仑万维过去两年大笔研发投入终于迎来了“开花结果”的阶段,技术成果持续转化为营收增长动能。

当技术飞轮和商业飞轮同频转动,昆仑万维率先拉开整个 AI 领域商业化的序幕。


虚拟世界的真实感

昆仑万维的 Matrix-Game 2.0,真正把“交互式世界模型”从纸面技术变成了可以直接上手的工具。用户只需要键盘和鼠标,就能在模型生成的世界里实时移动、转向、执行动作,画面以 25FPS 连续输出,并在分钟级长序列中保持物理逻辑和细节稳定。

在 GTA 场景中,白天的城市主干道上,车辆和行人川流不息。玩家驾驶着轿车在车流间穿梭,转向、加速与刹车都即时体现在画面中。25FPS 的实时生成让光影、路面反射与 NPC 动作都保持稳定一致。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

在高速公路上的疾驰画面中,远处山体与天空细节清晰可见。玩家变道、提速等操作与场景变化自然衔接。模型保持了分钟级长序列的连贯性,光照切换与物理碰撞无延迟。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

同样在 MC 的像素风方块世界中,远处是起伏的山丘与树木。玩家操控角色行走、跳跃,动作指令即时转化为生成画面。模型在低纹理细节下依然保持物体位置与交互逻辑准确。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

在复杂的地形中进行攀爬,方块台阶与悬崖边缘依旧无缝衔接。25FPS 的生成速度确保了视角切换的流畅性,角色运动轨迹和地形碰撞保持物理一致。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

除此之外,在神庙逃亡这款经典游戏的场景中,高速奔跑的赛道两侧是古老的石墙与悬崖。玩家连续执行转弯、跳跃、下蹲等操作,模型即时生成对应视角变化。动作与背景透视精准同步,完全没有拖影或卡顿。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

而在 Wild 场景里,玩家沿小路缓慢前进并调整视角,光影变化和植被细节与操作步骤依旧同步变化。分钟级生成下,环境细节在长时序中无明显漂移。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

分钟级长视频,实时可交互

Demo 之外,Matrix-Game 2.0 的技术报告也十分有看点。它的设计目标,是构建一个既可操控、又能实时响应的虚拟世界,并在长时间运行中保持流畅性与物理一致性。其技术方案可分为四个层次:核心理念、模型架构、生成机制,以及数据与任务设计。

与许多依赖文本提示的生成模型不同,Matrix-Game 2.0 完全绕过语言输入,将视觉作为唯一信号。这种方式避免了语言先验可能带来的语义偏差,让模型直接从画面中学习空间结构、物体关系和物理规律,从而生成更贴近真实的虚拟场景。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

架构方面以图像为核心,由三大组件组成:3D Causal VAE 压缩结构在空间与时间两个维度对视频进行高效压缩,既保留关键信息,又降低计算成本。多模态扩散 Transformer(DiT)将视觉编码与用户的操作指令融合,逐帧生成符合物理规律的动态视频序列,再通过 3D VAE 解码成完整画面。动作控制模块借鉴 GameFactory 与 Genie 系列的交互框架,引入帧级键盘与鼠标输入,实现即时操控与世界生成的无缝衔接。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

当然,Matrix-Game 2.0 也要面对长序列视频常会遇到延迟和误差累积的问题,不过它直接通过专有的三项机制应对:

因果扩散训练将双向扩散蒸馏为因果模型,仅依赖历史帧生成当前帧,减少等待、提升推理速度。

分布匹配蒸馏(DMD)在训练中最小化学生模型与原始模型的生成分布差异,保证长时间生成下的画面稳定性,减少漂移。

KV-Cache 缓存机制保存注意力上下文,实现滚动生成,避免重复计算,即便在单 GPU 环境下也能达到 25 FPS 的实时速度。

除此之外,为保证在多场景下的表现,研究团队还基于 Unreal Engine 和 GTA5 搭建了可扩展的数据生产管线,生成了上千小时的高质量交互视频,涵盖多风格、多任务场景。

并在此基础上,训练了多个子模型:Matrix-Game Uni 适合探索多种真实感静态场景;Matrix-Game TempleRun面向跑酷类游戏,具备精准的动作响应;Matrix-Game GTA 则可模拟动态城市与车辆运行,场景中的物体具备独立运动轨迹。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

总的来说,结合架构与数据,Matrix-Game 2.0 在三方面表现尤为突出:高帧率长序列生成,支持分钟级的连续交互视频生成,动作流畅、响应及时;多场景泛化,无需重新训练即可适配多种风格和环境,从写实城市到艺术化场景均能生成;物理一致性增强,角色在复杂地形下的行为符合物理逻辑,显著提升沉浸感与可控性。

凭借这些特性,Matrix-Game 2.0 不仅可用于游戏内容创作,还能为具身智能训练、虚拟现实、影视制作及元宇宙内容生产提供稳定的技术支撑。雷峰网

飞轮在转,且转得更快

过去,AI 公司大多依赖出售单一模型能力,通过 API 调用费或订阅制获取收入,这种模式的优点是轻资产、上手快,但缺点也明显:客户黏性不足,易被替代,商业天花板较低。

而昆仑万维这次“技术周”释放出的信号也很明确:它正从“卖模型”转向“卖系统”,即用多模态能力构建一整套可直接嵌入客户工作流的行业解决方案。这样一来,客户不仅购买某个模型的使用权,而是将整个工作链条部分外包给昆仑万维的 AI 系统,从而形成更强的绑定关系和更稳定的收入来源。

总的来说,这种模式的变化可以看作是从点状能力变现升级成体系化能力变现的过程,也是卡位未来竞争高地的主动出击,这种体系化转型不仅改变了昆仑万维的业务重心,也踩在了行业发展的主旋律上:多模态闭环正在成为全球 AI 厂商的必争之地,谁能率先跑通并规模化落地,谁就可能在新一轮的产业洗牌中占据制高点。

昆仑万维 2025 年 Q1 财报数据显示,经营性现金流净额增长 58.3%,显然,2024 年 15.4 亿元的研发投入正持续转化为营收增长动能。这验证了 AI 技术商业化的可持续性,使昆仑万维成为国内首个跑通“研发投入——产品变现——现金流反哺”闭环的 AI 企业。

Matrix-Game 2.0 只是其中一个信号,本次技术发布周,昆仑万维还带来了视频生成模型(Skyreels)等模型、生图一体化模型、智能体,这些产品将在短视频、直播带货、具身智能、游戏等领域大放异彩,率先实现商业化。

昆仑万维将持续迎来营收增长,技术产品矩阵持续落地,真正迎来技术和商业的同时加速,这一切正在发生!雷峰网(公众号:雷峰网)

1、技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

2、项目主页:https://matrix-game-v2.github.io/

3、HuggingFace地址:https://huggingface.co/Skywork/Matrix-Game-2.0

4、GitHub地址:https://github.com/SkyworkAI/Matrix-Game

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

阅读全文
相关推荐

Fellows Fund 创始人 Alex Ren :硅谷视角下的 AI 价值创造丨GAIR 2023

Fellows Fund 创始人 Alex Ren :硅谷视角下的 AI 价值创造丨GAIR 2023
2023 年 8 月 14 日,由 GAIR 研究院、雷峰网(公众号:雷峰网)、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会在新加坡乌节大酒店拉开帷幕。在 AI ...

「深度学习+」时代,百度画出了这张 AI 工业大生产的蓝图

「深度学习+」时代,百度画出了这张 AI 工业大生产的蓝图
作者 | 李梅编辑 | 陈彩娴1764年的一天,“珍妮纺纱机”诞生在英国一个织工哈格里夫斯的家中,将织布效率提高了八倍,吹响了人类进入机器时代的号角。很快,这股“机器之风”就吹到了采煤、冶金、制造、交 ...

上海歌舞团月底将携《李清照》赴港 双轨交流让宋韵“火”起来

上海歌舞团月底将携《李清照》赴港 双轨交流让宋韵“火”起来
来源标题:上海歌舞团月底将携《李清照》赴港 双轨交流让宋韵“火”起来舞剧《李清照》剧照近日,上海歌舞团排练厅内乐声悠扬,舞者身姿翩跹——原创舞剧《李清照》正进行赴港演出前的优化 ...

一场关于ChatGPT话语权的深度思考:人类会在大模型中迷失自我吗?

一场关于ChatGPT话语权的深度思考:人类会在大模型中迷失自我吗?
作者丨Elizabeth Weil译者丨ChatGPT编辑丨孙溥茜ChatGPT 之风愈演愈烈,华盛顿大学语言学家 Emily M. Bender 公开反对让大模型LLM)过度介入人们的生活。谷歌和亚 ...

MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
MoE 会成为未来大模型训练的新方向吗?这是人们发现 MoE 架构可以用于大模型训练、推理后,发出的一声疑问。MoEMixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活 ...

老友眼中的于朦胧:读书时就有“男神范”,走红后也重情重义

老友眼中的于朦胧:读书时就有“男神范”,走红后也重情重义
9月11日,青年演员、歌手于朦胧坠楼身故,引发网友痛惜。于朦胧为2013年《快乐男声》选秀全国十强,在《太子妃升职记》《三生三世十里桃花》等剧中,以清新俊逸的古装扮相赢得不少观众喜爱。11日晚,南都N ...

IJCAI 2023 奖项颁布,杨强获杰出服务奖

IJCAI 2023 奖项颁布,杨强获杰出服务奖
杨强是首位获此殊荣的华人科学家。作者 | 郭思编辑 | 陈彩娴AI科技评论获悉:IJCAI 2023 奖项近日公布,中国人工智能专家杨强荣获「Donald E. Walker 杰出服务奖」,以表彰他对 ...

大模型的AB面:厂商讲算力,企业要落地

大模型的AB面:厂商讲算力,企业要落地
ChatGPT发布不过半年,全球性AI再造已经拉开序幕,甚至一开场直接进入白热化竞争状态。据不完全统计,国内类似ChatGPT的产品已经有接近40个。面对这一波浪潮,不少企业已经率先开展行动,将大模型 ...

大模型行至深处,「悟道」如何走好全面开源之路?

大模型行至深处,「悟道」如何走好全面开源之路?
2021年,智源发布了“悟道 1.0 ”与 “悟道 2.0”。“悟道 1.0”是当时中国首个超大模型,“悟道 2.0”发布时成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI ...

南方电网发布首个「电力大模型」,百度智能云助力「智能电网」

南方电网发布首个「电力大模型」,百度智能云助力「智能电网」
9月26日,南方电网人工智能公司正式发布了电力行业人工智能创新平台及自主可控电力大模型。据悉,电力行业人工智能创新平台提供模型即服务MaaS),支持模型快速迭代开发,支撑电力人工智能资源面向全社会开放 ...

对话共生矩阵张林:大模型商业化要「两条腿」走路,开源落地优势不大

对话共生矩阵张林:大模型商业化要「两条腿」走路,开源落地优势不大
纵观人类信息时代发展的三个阶段,可以以信息收集、信息传播和信息压缩来划分,三者分别对应过去的 PC 时代、移动互联网时代、以及正在到来的智能时代。一个客观事实是,历经 PC 时代对信息的收集和获取、移 ...

中国需要自己的ChatGPT!中文在线携手澜舟科技加码布局AIGC赛道

中国需要自己的ChatGPT!中文在线携手澜舟科技加码布局AIGC赛道
2月16日,在第十二届中国数字出版博览会上,国内领先的数字文化内容产业集团中文在线与业界领先的认知智能公司澜舟科技,举办了以“AIGC·未来内容、范式革命”为主题的圆桌论坛暨战略合作发布会。中文在线集 ...
返回顶部