【天津高中门事件评论】推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术-精选吃瓜网- 关注文化，享受美好内容

当前所在位置:首页 >> 娱乐

【天津高中门事件评论】推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

发布时间：2025-09-13 17:33:01 作者：y 点击：27156 【字体：大中小】

2025 年 1 月 20 日 Kimi k1.5 正式发布，推特伴随着技术报告的热帖公布，有网友表示：“这应该是作团全球范围内，除 OpenAI 之外的项技公司首次实现 o1 正式版的多模态推理性能了吧！”

一时间，推特Kimi k1.5 成了话题王者。热帖天津高中门事件评论

但在一个月后的作团 2 月 24 日，X 上出现了一篇关于 Kimi k1.5 的项技技术爆料帖，博主直言 k1.5 所用到的推特强化学习算法，其实是热帖借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。

消息一出，作团瞬间吸引了数万人关注。项技

推特热帖：k1.5 很牛，推特因为借鉴了 UCLA 与 CMU 合作团队的热帖这项技术

Kimi k1.5 背后的 SPPO 技术

在这则爆料中，博主 Yue Wu 先是作团对 SPPO 进行了简单解释，并且附上了相关论文（https://arxiv.org/abs/2405.00675），简单来说，SPPO是一种自博弈算法，最初的动机来源于刻画广泛意义上的人类偏好，并且使用了如下图所示的平方损失函数：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的<strong>郑州理工大学曝光评价</strong>这项技术

值得一提的是，点开论文链接，你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

紧接着，他开始对 SPPO 技术进行解析：

通过迭代求解上式中的 theta_t，我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率（红色部分）作为奖励，并用常数近似基线（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

让我们感兴趣的是，我们发现它与 RLHF 目标的策略梯度有着深层的联系：如果我们直接用普通的策略梯度优化 RLHF （人类反馈强化学习）目标会怎样？根据策略梯度定理，策略梯度实际上也具有平方损失形式（蓝色项是策略梯度中的基线）：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

从数学上，我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体：

SPPO 中的胜率充当奖励函数（红色部分）。

分区函数项自然地成为（软）值函数（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

那么这到底意味着什么呢？

标准策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次，然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成！

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

上述分析揭示了大型语言模型（LLM）后训练阶段一个有趣的发展趋势：

离线 DPO（IPO、KTO 等）取代 RLHF（奖励模型 + 强化学习）

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

鉴于 GRPO（Deepseek-R1）和平方损失（Kimi k1.5）的成功，端到端强化学习的强大作用愈发凸显，或许在大型语言模型（LLM）后训练阶段无需额外技巧——价值函数、广义优势估计（GAE），甚至梯度裁剪都无需使用。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

另一个简单但有趣的发现是，他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

在我们后续的研究 GPO 中，我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度，但它是以迭代的方式进行的。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

SPPO 技术背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 技术外，Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授，博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授，目前以博士后研究员的身份在普林斯顿大学人工智能实验室继续着自己的科研之路。推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

除此之外，2023 年至今他一共参与发布了 9 篇 Paper，其中 3 篇均为第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

强大的学术背景之外，Wu Yue 的实习经历也非常加分。2022 年至 2024 年，他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间，Wu Yue 从事个性化联邦学习研究，并开发了一种基于混合模型的方法，该方法被 ICML 2023 接受发表；在字节美国 AI lab 时，他专注于药物发现领域的多构象生成，将分子动力学的物理先验纳入基于扩散的生成模型，相关成果被 ICML 2024 接受；来到 Meta 后，Wu Yue 又致力于词汇级别奖励建模和新架构设计，用于一般人类偏好和一般偏好优化，为生成式人工智能的发展做出了贡献。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术雷峰网(公众号：雷峰网)还了解到，与他同为第一作者的 Zhiqing Sun ，目前已经从 CMU 毕业，并在今年 2 月加入 OpenAI。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

阅读全文

猜你喜欢

GAIR 2023 正式开幕：AI 如此绽放之时，昭示着熙春已至

GAIR 2023 正式开幕：AI 如此绽放之时，昭示着熙春已至

2025-09-13 17:32

5 款好用的 AI 知识搜索引擎，揭开智能搜索新篇章丨AI 情报局

5 款好用的 AI 知识搜索引擎，揭开智能搜索新篇章丨AI 情报局

2025-09-13 17:04

「焦虑」的体育教育，「救场」的AI体育

「焦虑」的体育教育，「救场」的AI体育

2025-09-13 16:38

AI医疗应用又有新进展，支付宝开放“AI就医助理”解决方案

AI医疗应用又有新进展，支付宝开放“AI就医助理”解决方案

2025-09-13 16:13

AI的风猛吹存储芯片：美光科技、闪迪暴拉七连阳

AI的风猛吹存储芯片：美光科技、闪迪暴拉七连阳

2025-09-13 15:56

零一万物 API 上线，用户反馈多模态中文能力超过 GPT

零一万物 API 上线，用户反馈多模态中文能力超过 GPT

2025-09-13 15:52

Pieter Abbeel 新工作“大世界模型”：轻松玩转1小时长视频，一对一QA视频内容细节

Pieter Abbeel 新工作“大世界模型”：轻松玩转1小时长视频，一对一QA视频内容细节

2025-09-13 15:50

哀悼！中国计算机视觉领军者、商汤创始人汤晓鸥去世

哀悼！中国计算机视觉领军者、商汤创始人汤晓鸥去世

2025-09-13 15:26

Anthropic 联设 1 亿美元 AI 初创基金；OpenAI推出“小”模型GPT

Anthropic 联设 1 亿美元 AI 初创基金；OpenAI推出“小”模型GPT

2025-09-13 15:03

美图影像节：聚焦AI工作流，6款新品赋能影像设计行业

美图影像节：聚焦AI工作流，6款新品赋能影像设计行业

2025-09-13 15:00

别再声讨零一万物了

2025-09-13 14:54

通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

2025-09-13 14:47

返回顶部