搜索
当前所在位置:首页 >> 风报闻

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

发布时间:2025-07-12 08:57:08 作者:mvcdi 点击:16127 【 字体:

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,项工Kimi k1.5 成了话题王者。推特女助理家庭聚会情感爆料合集

但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出,推特瞬间吸引了数万人关注。热帖

推特热帖:k1.5 很牛,因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>家庭后台泄露记录全本</strong>这项工艺

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着,他开始对 SPPO 工艺进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

阅读全文
相关推荐

华熙国际赵燕引领华熙 LIVE,一城一特色书写城市商圈新篇章

华熙国际赵燕引领华熙 LIVE,一城一特色书写城市商圈新篇章
来源标题:华熙国际赵燕引领华熙 LIVE,一城一特色书写城市商圈新篇章2025年6月,刀郎“山歌响起的地方”巡演重庆站在华熙LIVE・鱼洞掀起热潮,这座西南文体地标以&ldqu ...

掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海

掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海
来源标题:掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海近日,由掌阅科技出品的仙侠题材短剧《遮天》上线海外短剧平台iDrama。据了解,该剧已于6月20日在国内首播,主打AI技术与 ...

对话制片人钟楚渝:揭秘数据分析的影视应用

对话制片人钟楚渝:揭秘数据分析的影视应用
来源标题:对话制片人钟楚渝:揭秘数据分析的影视应用在影视行业的激烈竞争中,制片人钟楚渝以独特的数据分析视角脱颖而出。当多数从业者仍在依赖经验与直觉时,她却用数据为项目精准导航。带着对这份专业能力的好奇 ...

《这是我的西游》历尽试炼万重险,书写不灭西行志

《这是我的西游》历尽试炼万重险,书写不灭西行志
来源标题:《这是我的西游》历尽试炼万重险,书写不灭西行志由优酷出品的全明星爆笑闯关奇幻冒险真人秀《这是我的西游》第十期于今日上线!西游团踏过重重难关,在修炼中不断领悟猴王不屈不挠、永不言败的精神,并在 ...

乌克兰声称已拘留两名中国公民 外交部回应

乌克兰声称已拘留两名中国公民 外交部回应
财联社7月10日电,据环球时报,有记者提问称,乌克兰昨天表示已拘留两名中国公民,指控他们试图将导弹技术走私出境,请问中方对此有何评论?对此,发言人毛宁表示,我们还在核实了解有关情况,如果涉及中国公民, ...

鱼你在一起曼谷首店引爆!POND明星效应+本土化营销打造中餐出海标杆

鱼你在一起曼谷首店引爆!POND明星效应+本土化营销打造中餐出海标杆
来源标题:鱼你在一起曼谷首店引爆!POND明星效应+本土化营销打造中餐出海标杆中餐出海加速期,明星营销成为撬动本土市场的关键杠杆。6月21日,中国酸菜鱼头部品牌鱼你在一起正式登陆泰国,首店在曼谷Cen ...

学生专属特惠!仅需12元/月畅享爱奇艺《临江仙》《种地吧3》等海量精彩内容

学生专属特惠!仅需12元/月畅享爱奇艺《临江仙》《种地吧3》等海量精彩内容
来源标题:学生专属特惠!仅需12元/月畅享爱奇艺《临江仙》《种地吧3》等海量精彩内容随着2025年毕业季及暑期开启,爱奇艺面向16-24岁学生用户推出超值会员订阅特惠,助力年轻用户在暑期实现追剧补番自 ...

金鹰卡通《三孩来了 3》:唐九洲谈原生家庭,井胧助力萌娃传递爱意

金鹰卡通《三孩来了 3》:唐九洲谈原生家庭,井胧助力萌娃传递爱意
来源标题:金鹰卡通《三孩来了 3》:唐九洲谈原生家庭,井胧助力萌娃传递爱意爱,是家庭永恒的底色,不同的家庭有着不同的爱的表达方式。金鹰卡通宜品纯羊奶粉《三孩来了 3》本期 “爱的表达式&r ...

一家五口被同村邻居杀害 事发前两家曾因过道吵架

一家五口被同村邻居杀害 事发前两家曾因过道吵架
来源:扬子晚报#一家五口被杀前与邻居曾因过道吵架#【#当地回应一家五口被同村邻居杀害#:在对家属心理疏导】近日,有网友爆料称河北省邢台市隆尧县有一家五口被同村邻居残忍杀害。@扬子晚报 记者联系到被害一 ...

乌兰图雅唱响聊城非遗之夜 草原歌声激荡运河千年古韵

乌兰图雅唱响聊城非遗之夜 草原歌声激荡运河千年古韵
来源标题:乌兰图雅唱响聊城非遗之夜 草原歌声激荡运河千年古韵6月27日晚,“2025大运河非遗旅游大会暨河和之契:黄河流域、大运河沿线非遗交流展示周活动”盛大开幕,著名歌手、音 ...

萧纤纤获全球国际小姐冠军,闪耀演艺界时尚界

萧纤纤获全球国际小姐冠军,闪耀演艺界时尚界
来源标题:萧纤纤获全球国际小姐冠军,闪耀演艺界时尚界近期,演艺圈与时尚界的双栖艺人萧纤纤再创辉煌。萧纤纤在世界顶级选美赛事全球国际小姐大赛中,斩获全球国际小姐冠军,成为当之无愧的焦点人物。萧纤纤凭借卓 ...

与经典相逢,绘光影未来!“2025中国影视之夜”邀您赴约

与经典相逢,绘光影未来!“2025中国影视之夜”邀您赴约
来源标题:与经典相逢,绘光影未来!“2025中国影视之夜”邀您赴约筑梦光影世界,讲好中国故事。6月28日21:00,由中央广播电视总台上海总站与央视频联合主办、茅台1935独家冠名的“20 ...
返回顶部