搜索
当前所在位置:首页 >> 娱乐

【天津高中门事件评论】推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

发布时间:2025-09-13 17:33:01 作者:y 点击:27156 【 字体:

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着技术报告的热帖公布,有网友表示:“这应该是作团全球范围内,除 OpenAI 之外的项技公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,推特Kimi k1.5 成了话题王者。热帖天津高中门事件评论

但在一个月后的作团 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的项技技术爆料帖,博主直言 k1.5 所用到的推特强化学习算法,其实是热帖借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。

消息一出,作团瞬间吸引了数万人关注。项技

推特热帖:k1.5 很牛,推特因为借鉴了 UCLA 与 CMU 合作团队的热帖这项技术

Kimi k1.5 背后的 SPPO 技术

在这则爆料中,博主 Yue Wu 先是作团对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈算法,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>郑州理工大学曝光评价</strong>这项技术

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

紧接着,他开始对 SPPO 技术进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的发展趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

SPPO 技术背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 技术外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学人工智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药物发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式人工智能的发展做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

阅读全文
相关推荐

独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元

独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
近日,关于字节跳动大语言模型研发技术专家杨红霞离职创业的事情,坊间传得沸沸扬扬。雷峰网独家获悉,杨红霞已于 5 月下旬正式从字节跳动离职,开始筹备 AI 创业项目。不过,杨红霞不做“大”模型,而是将方 ...

「焦虑」的体育教育,「救场」的AI体育

「焦虑」的体育教育,「救场」的AI体育
人工智能正迈入一个崭新的细分时代。随着技术不断成熟,应用日渐规范,以普惠之姿出现的AI,已成为各行各业的关键驱动力,其中AI之于教育,是一个令人兴奋的话题。教育事关国家未来的根基,AI技术的应用,在促 ...

大模型疯狂 Rush,上海 AI Lab 回归语言建模本质

大模型疯狂 Rush,上海 AI Lab 回归语言建模本质
2023 年,是国内外大模型疯狂 rush 的一年。在这场白热化的竞争中,大模型过剩带来的市场挤压感正时刻提醒着参与者所面临的行业洗牌风险。各厂商深知,基础通用大模型,注定是少数人的游戏。为了赢得这场 ...

浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力

浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力
去年以来,ChatGPT引爆了新一轮的AI浪潮,随后国内大模型进入“百模大战”的热闹中。如今,一年多过去,国内外的大模型开启了不同的叙事方式,OpenAI已在酝酿GPT5,继续探求通往AGI的路径,而 ...

2024 生成式 AI 市场报告:企业支出增长率超 600%,安全性和 ROI 成关键决策点

2024 生成式 AI 市场报告:企业支出增长率超 600%,安全性和 ROI 成关键决策点
最近,Menlo Ventures 针对拥有 50 名以上员工的公司的 600 名企业 IT 决策者进行调查,发布了一份名为《2024 年生成式 AI 现状》的企业市场报告。2024 年,生成式 AI ...

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑
作者:赖文昕编辑:郭思、陈彩娴说起扩散模型生成的东西,你会立刻想到什么?是OpenAI的经典牛油果椅子?是英伟达Magic3D生成的蓝色箭毒蛙?还是斯坦福大学和微软Folding Diffusion生 ...

百川智能发布Baichuan2—Turbo系列API,开启企业定制化新生态

百川智能发布Baichuan2—Turbo系列API,开启企业定制化新生态
【雷峰网(公众号:雷峰网)消息】12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K 及Baichuan2-Turbo。在 ...

徐凌杰创立魔形智能,国际头部GPU高管加盟

徐凌杰创立魔形智能,国际头部GPU高管加盟
导语:创业方向是做大模型基础设施。作者丨马蕊蕾编辑丨陈彩娴近日,前「壁仞科技」总裁徐凌杰,离开壁仞4个月后,于2024年6月份,正式成立了上海魔形智能有限公司。据悉,徐凌杰毕业于上海交通大学电子工程系 ...

上海歌舞团月底将携《李清照》赴港 双轨交流让宋韵“火”起来

上海歌舞团月底将携《李清照》赴港 双轨交流让宋韵“火”起来
来源标题:上海歌舞团月底将携《李清照》赴港 双轨交流让宋韵“火”起来舞剧《李清照》剧照近日,上海歌舞团排练厅内乐声悠扬,舞者身姿翩跹——原创舞剧《李清照》正进行赴港演出前的优化 ...

星尘数据MorningStar正式发布!狙击“数据债”成最大看点

星尘数据MorningStar正式发布!狙击“数据债”成最大看点
3月11日,AI数据技术公司星尘数据Stardust AI)正式发布MorningStar——一款面向AI的数据闭环产品。MorningStar是目前首个专注数据价值发现的AI数据平台,基于DataO ...

比 Sora DiT 架构早两个月的 U

比 Sora DiT 架构早两个月的 U
「Sora 出来之后,团队就开始连轴转,没休息过。」这是 AI 科技评论了解到的,目前国内诸多 AIGC 创业公司的现状。Sora 的确让世界范围内的创业公司措手不及。随之而来的,有一种悲观论调和怀疑 ...

商汤即将发布“日日新5.5”,现场将签约多项重磅合作

商汤即将发布“日日新5.5”,现场将签约多项重磅合作
商汤科技将发布“日日新5.5”,混合模态能力大幅提升据消息,2024年7月5日,在世界人工智能大会WAIC 2024)上,商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本,全面升级 ...
返回顶部