搜索
当前所在位置:首页 >> 料报

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

发布时间:2025-07-12 04:36:32 作者:he 点击:79238 【 字体:

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,项工Kimi k1.5 成了话题王者。推特苏州师范大学偷拍推荐

但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出,推特瞬间吸引了数万人关注。热帖

推特热帖:k1.5 很牛,因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>重庆师范大学偷拍最新</strong>这项工艺

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着,他开始对 SPPO 工艺进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

阅读全文
相关推荐

阿里云 all in AI 的决心

阿里云 all in AI 的决心
如何抓住 AI 的机会?这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。毋庸置疑,AI 与云已经成为紧密的拍档。大模型的迭代进化离不开云计算的支撑,而大模型的落地应用,给云计算勾勒了一 ...

大模型容易忽视的安全,火山方舟早就「刻」进了基因

大模型容易忽视的安全,火山方舟早就「刻」进了基因
大模型时代,企业使用云上模型的痛点有哪些?你可能会说模型不够精准,又或者成本太高,但这些随着AI技术的快速发展,在不远的将来或许都不再是问题。比如成本,自豆包大模型首次将价格带进“厘”时代以来,行业纷 ...

阿云嘎发长文感谢《歌手》在音乐的余温里续写热爱的篇章

阿云嘎发长文感谢《歌手》在音乐的余温里续写热爱的篇章
来源标题:阿云嘎发长文感谢《歌手》在音乐的余温里续写热爱的篇章在音乐的舞台上,阿云嘎始终以他独特的魅力和对音乐的执着热爱,吸引着无数观众的目光。5月23日晚《歌手2025》第二期的舞台上,阿云嘎作为揭 ...

机器人端侧模型的十字路口

机器人端侧模型的十字路口
作者|朱可轩编辑|陈彩娴自 2023 年以来,以大模型为代表的人工智能与以具身智能为代表的机器人成为科技发展的两股重要力量。与此同时,将人工智能算法、尤其是大模型应用于进一步提升机器人智能水平也成为一 ...

突发!俄罗斯发动大规模攻击

突发!俄罗斯发动大规模攻击
当地时间10日,乌克兰首都基辅持续传出爆炸声。此前基辅拉响防空警报。此前,俄罗斯国防部9日发布战报称,俄军对乌克兰军用机场基础设施进行了集群打击。乌克兰方面同一天称,俄对乌多个城市发动新一轮大规模攻击 ...

以美育人,让童年有“戏”——我国儿童剧演出现状与发展调查

以美育人,让童年有“戏”——我国儿童剧演出现状与发展调查
来源标题:以美育人,让童年有“戏”——我国儿童剧演出现状与发展调查编者按美育是审美教育,也是情操教育和心灵教育,不仅能提升人的审美素养,还能激励人的精神,温润人的心灵。儿童剧作为融合了美术、音乐、舞蹈 ...

成都市武侯区领导赴山西省流行音乐协会 共探音乐产业发展新机遇

成都市武侯区领导赴山西省流行音乐协会 共探音乐产业发展新机遇
来源标题:成都市武侯区领导赴山西省流行音乐协会 共探音乐产业发展新机遇5月23日,成都市武侯区区委常委、统战部部长雷晓鹏率队莅临山西省流行音乐协会开展交流指导活动。武侯区成都音乐文创园管委会副主任陈甜 ...

超4.42亿!端午档票房很给力

超4.42亿!端午档票房很给力
来源标题:超4.42亿!端午档票房很给力根据猫眼专业版数据,截至6月2日18时,2025年端午档5月31日至6月2日)电影票房超过4.42亿元,较去年热度提升,为今年暑期档开了一个好头。票房方面,《碟 ...

阿里云 all in AI 的决心

阿里云 all in AI 的决心
如何抓住 AI 的机会?这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。毋庸置疑,AI 与云已经成为紧密的拍档。大模型的迭代进化离不开云计算的支撑,而大模型的落地应用,给云计算勾勒了一 ...

几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的
试想一个场景,职场中接到一个香港客户的单子,但是在交付的过程中耽搁了时间,现在要进行线上沟通解释,那么你面对的情况大致是这样的:如果不对这段音频进行标注,可能大部分人会认为这一粤语、英语混用的片段是真 ...

智源线虫登上Nature子刊封面,具身元年尾声深长

智源线虫登上Nature子刊封面,具身元年尾声深长
智源研究院提出了BAAIWorm天宝--一个全新的、基于数据驱动的生物智能模拟系统,首次实现秀丽线虫神经系统、身体与环境的闭环仿真。BAAIWorm天宝通过构建线虫的精细神经系统、身体和环境模型,为探 ...

618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事

618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事
来源标题: 618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事一直以来,意大利多曼尼都是家居设计师圈里疯狂推荐的居家艺术品。从设计风格上看,多曼尼延续了意大利人热衷于将科技与艺术融合的D ...
返回顶部