当前所在位置:首页 >> 综合

【高校后台泄露未删减】拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？

发布时间：2025-09-13 17:23:01 作者：osr 点击：3 【字体：大中小】

拳打可灵，拳打脚踢 Veo 3，可灵谁是脚踢界物理世界的「懂王」？

一个优秀的多模态视频生成大模型永远是一套复杂的系统级工程，它包括但不限于：跨模态理解与对齐能力，理世时序一致性的懂王控制能力，精细化的拳打高校后台泄露未删减编辑和修正能力，以及高效计算和成本控制的可灵能力等。这让它看起来总像是脚踢界一个巨头的游戏：字节、快手，理世谷歌、懂王OpenAI，拳打他们手握着深如湖海的可灵现金，宽似江河的脚踢界流量动员能力。

不过在这条巨龙扎堆的理世赛道上，有三两个身影站出来做点新东西。懂王MiniMax大概就是其中跑得最前，声音最响亮的团队之一。二十多天前，谷歌最新推出的Veo3，被许多产业观察者称作视频生成划时代的产品；而二十天后，在又一个万籁俱静的618里，MiniMax发布了新一代Hailuo 02，给视频生成大模型领域增添了一些实打实的“多快好省”。

Artificial Analysis视频模型评测榜显示，Hailuo 02视频模型甫一推出，其ELO得分大幅度超过谷歌 Veo 3 和快手的酒吧后区按摩服务 Kling 2.0，成为了全球排名第二的视频生成模型。

拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？

01 让复杂运动成为现实

一些用户对Hailuo 02的评价是“更具电影感”，其中很重要的原因是Hailuo 02拥有了更好的复杂场景与运动呈现的能力，也被认为是目前全球唯一能够实现此类极限物理运动视频效果的模型。

复杂的运动镜头，可以带来很好的情节张力，让观众迅速被镜头抓住而进入场景，往往出现在电影制作中最核心的高潮情节中。但相关场景的生成，对于模型的时空一致性要求非常高。稍有不慎，模型很容易发生丢失细节、违反物理规律，甚至穿模的情况。

比如在“马跃起，落地奔跑”这么一段简单的prompt测试中，模型需要让马和人保持一致性的身体姿态，才可以给观众传达出真实感。这种一致性不是简单的姿势同步，而是要呈现符合物理规律的力的传递中的层次感。

Hailuo 02很好地处理了每一个细节的物理关系，不仅是人与马的姿态协同，包括马尾、马鬃毛和人的头发飞扬都很有真实感。

Hailuo 02

相比之下，对标的测试模型便出现“马浅跳，但人高飞”的情况，起跳过程也完全发生在了障碍物以外。

可灵2.1大师版

类似的场景还有“hellokitty打网球”，大量的模型在这个prompt测试词上翻了大车。

海螺基本能实现球拍与球之间的互动：

Hailuo 02

但有些对标测试模型则出现了“精灵球”的情况，有点像哈利波特的场景，球很有自己的想法：

vidu

同样的球与拍之间出现了神秘磁场：

luma

大变活“球”：

即梦：视频3.0 pro

而对世界物理规律具体而微的理解，只是复杂动作的难点之一。在一些快速移动的运动中，往往会面临背景的快速变化。相比于人的动作，背景视野的大范围移动意味着模型优秀的空间感知能力。

其中最典型的莫过于滑雪运动：镜头固定在快速变化的人体动作的同时，雪景可能随着人的拍摄角度和速度移动而不断迁移，场地本身则会随着雪橇板的移动而掀起雪浪、留下移动轨迹。

Hailuo 02基本重建了滑雪场的环境视觉效果，滑雪板会留下仿真的雪痕，雪浪飞舞的方向与大小也随着动作和轨迹的变化而变化。

Hailuo 02

相比之下，同类模型的雪道缺乏动态，在快速移动收尾时，雪橇板会在高速运动中，出现从双脚“脱落”的穿模现象。

可灵2.1大师版

如果你看完了以上两段雪场视频，或许会发现，在第二段视频中，镜头其实是没有保持一致性的。其整个5秒视频，总计是由一段3秒和一段2秒的视频组合起来的，画面从近景切换到全景，从而达到某种类似蒙太奇的视觉效果。

这其实是由于“跨帧连贯性”是长期困扰视频生成模型的痛点，视频的连续画面每增加一秒，对于时序一致性的处理难度便会几何级地提升，更遑论保持长镜头、高强度的运动画面中的画面稳定。

这也是为何，绝大部分的大模型视频长度都被设计在10秒以内，同时在10秒的选项之外，还会给出能力更稳健、成本更友好的5秒选项。

但一些快速的运动轨迹，意味着模型必须在短时间内产生大量的动作与物体交互，这些高强度交互，相当于在有限时间内快速提高了保持视频时序一致性的难度。因此即便一些交互看起来并不复杂，但一旦频次超过阈值，模型也可能会摆烂。

例如在经典的抛多个小球的杂技场景里，Hailuo 02演示了很稳定的镜头表现。画面中六个小球的大小和颜色虽然都很相似，但观众依然可以分辨出每一个小球的运行轨迹，其中绝大部分的小球也在运动中保持了稳定的形态。

提示词：画面中人物快速抛接球体，彩带飘动落下，人物不停抛接球体——

Hailuo 02

但在测试的对标模型demo中，除了在一开始没有识别到初始图中的“杂耍”场景意图外，大量的球体和彩带交互，也出现了明显的“吞球”现象，不断有球体消失和生成，场面显得非常混乱。

可灵2.1大师版

如上，优秀的复杂运动镜头呈现，背后是一整套模型的体验优化——它除了有强大的物理渲染能力外，还需要模型能够熟悉世界的物理规律呈现方式，有很好的跨帧连贯性。

但相比于以上的技术优化，模型对画面和语言意图的理解，或许是让画面得以更加符合观众直觉的更核心的能力。

如果再回到骑马和抛接球两个场景，我们会发现，理解第一帧画面的意图是整个图生视频中最关键的一环：模型需要知道，马术前面有障碍物，其实是暗示让马越过障碍；而黑色领结+白色T恤的抛接球者，很可能是暗示杂技表演的场景。

除了画面理解外，大模型对动作的理解也需要更加符合人类的直觉。以一个很简单的测试prompt词，“运动幅度，中等”。中等是个模糊的概念，不同模型对“中等”的理解不尽相同，Hailuo 02 基本能做到脖子等大关节的移动，基本符合人对画面与prompt的直觉。

而在对标测试模型中，一些模型则出现了只有脸部活动的情况，显然与人类直觉并不匹配。

vidu

或者只摇动镜头，虽然画面实现了“中等”的“运动”，但人其实几乎不动。

luma

测试demo中一个比较极端的案例是，提示词：动画风格，画面中人物骑车穿越小镇狭窄街道，镜头稳定地侧拍她向前移动，背景快速拉动——

Hailuo 02很好地还原提示词与第一帧画面中的“导演意图”，给出了人物与生活环境的关系特写，甚至能通过一秒钟的人脸大侧写呈现出了日本动漫中常见的人物积极情绪。

Hailuo 02

在其他对标测试模型中，模型似乎错误地把前进对象理解成了“背景”，导致出现了诡异的自行车倒退的情况，而人物状态则完全隐匿在视频中。

可灵2.1大师版

02 效率总是AI与世界双向奔赴的前提

MiniMax创始人闫俊杰曾多次在接受采访中表示，多模态是AGI扩散的最佳途径，因为绝大部分人的输入和输出其实都是多模态的。与此同时，越来越多的从业者也开始将多模态作为大模型理解世界物理规则的方式。从这个角度而言，Hailuo 02的升级不止是视频能力的迭代，也是MiniMax基础模型智能对世界理解力的提升。

据了解，MiniMax 这次的 Hailuo 02 和 01 其实是两代截然不同的产品，其中最核心的变量是 Hailuo 02 几乎完全重建了模型的底层架构，推出了 Noise-aware Compute Redistribution（NCR）。

NCR将超长视频token根据噪声水平进行有规划的压缩，构成不同难度的“去噪目标”，并配合精心设计的噪声调度体系，用统一的模型进行联合学习。MiniMax这套新架构一方面大幅提高训练推理效率，另一方面也有效帮助模型扩展。

拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？