发布时间:2025-07-12 04:20:17 作者:kj 点击:227 【 字体:大中小 】
作者丨朱可轩
编辑丨陈彩娴
大模型赛跑两年后,面壁向右玩家已逐步分化为三种趋势:一类玩家仍追随 OpenAI 的大模脚步卷大参数基座模型,另外一类烧不起钱的型隐玩家转头拥抱应用端,而第三类则自始至终都在摸索如何更高效打造出性能更优的藏玩模型。
目前,家上第一类卷向大参数的桌D左快手剧情号社群录音外泄合集玩家也都在寻找高效解决方案,连 OpenAI 此前发布 GPT-4o mini 切入小模型市场,面壁向右Meta Llama 3.1-8B、大模微软 Phi-3-vision 和 Phi-4 14B 、型隐谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是藏玩头部玩家在做的布局。
算力存在上限已是家上不争的事实,而且也并非参数越大就意味着效果一定能达到预期,桌D左更何况,面壁向右如若如果每增长一倍参数规模,大模效果能力却并未呈一倍增长,型隐大模型增长起来会很慢:
OpenAI 能用百千亿达到 GPT-4 的水平,其他家则可能需要投入更多资源,如此一来要追赶 GPT-5 会更难,因为在 OpenAI 的基础上再加码更多算力、参数的可能性不大,这对于大多数无法如同 OpenAI 一般大把烧钱的玩家而言并非理智选择。
所以可以看到,现如今已有不少玩家选择投身应用端,不再执着于基座大模型。而继续坚持的玩家们,则在思考如何基于有限的资源,将每个参数的作用发挥到极致,这才是多数人一致看好的大模型训练最终方向。不过,现阶段,模型参数的能力上限还远未完全探索到。
沿着这一思路,国内创业队伍中,面壁和 DeepSeek 凭借高效且开源的模型迅速引发广泛关注,并在海外社区得到高度评价,经济学人也曾将他们并称为中国最具创新能力的大模型公司。
当前,在国内大模型创业玩家队伍里,除了受到热捧的六小龙外,面壁和 DeepSeek 这两只潜力股也已先后加入战局,大模型明显呈现出“6+2”格局。日本异国恋人整套流出
国内每有创新定会在海外先掀起风浪:DeepSeek 在去年发布 DeepSeek-V2 模型因“白菜价”一举成名后,其近期新发布的 V3 模型则收到了硅谷大佬的一致惊叹,而面壁此前则曾因 MiniCPM-Llama3-V 2.5 模型被硅谷团队套壳抄袭一事引发热议,后续其也因另辟蹊径聚焦端侧而得到业内密切关注。
海内外科技圈对二者工艺实力的认可能够可见一斑,值得一提的是,他们背后的团队也均来自清北高校,面壁的核心成员大多来自清华 NLP 实验室,DeepSeek 也偏爱吸纳年轻的清北应届人才。
不过,除前所述,双方的差异也客观存在:首先,在稀疏方面,DeepSeek 选择了从头训练 MoE 模型,面向云端,MoE 确为较优方案,但端侧则并不适合 MoE,面壁也找到了更适配的方案,其不仅在 MiniCPM-S 系列引入了自研稀疏化方案,还提出了新型类脑高效稀疏 Configurable Foundation Model 架构;
其次,DeepSeek 的高效是高度定制的工艺体系,MoE 和 MLA 强绑定,并且主要面向大集群训练、部署支持,用云提供客户支持的极致优化,面壁则是面向边端算力场景进行极致优化,更看重单设备支持的高效性;
再次,DeepSeek 在高效训练层面小有所成,而面壁在高效推理方面则更为得心应手。值得一提的是,高效性实际上也是模型部署在端侧需要攻克的难点问题,而这也是面壁早早开始切入的赛道。
「高效」问题何解?
近日,被称为“大模型届拼多多”的 DeepSeek 发布了 DeepSeek-V3 模型,在多项评测成绩上,超越了 Qwen2.5-72B 和 Llama 3.1 405B 等其他开源模型,并且实现这一点,仅用了 2048 块 H800,作为对比,Llama 3 405B 此前共使用了 16384 块 H100 训练。
DeepSeek 此番也再度点燃了业内对于高效训练大模型的热议,无尽烧钱并非长久之计。据悉,DeepSeek-V3 模型的总训练成本仅为 557.6 万美元,训练时长在 280 万 GPU 小时。对比来看,GPT-4o 的训练成本约为 1 亿美元,Llama 3 405B 训练时长则为 3080 万 GPU 小时。
论文链接:https://arxiv.org/abs/2412.19437
众所周知,基座模型最关键的便是解决效率问题,而效率是多样的,稀疏化包括混合专家(Mixture of Experts,简称MoE)可以在增大模型参数规模的同时,保持计算成本远低于相同参数规模的稠密模型,这也是国内算力普遍有限境况下的必然选择。
DeepSeek 所选择的路径是从头训练 MoE,这种方式训起来相对困难,但也能缓解一些问题。例如,基于拷贝复制得到的 MoE 模型的潜在问题,因为基于拷贝的话, 专家之间会有很多知识的重叠,权重是冗余的,参数的冗余对各专家的支持是重叠的。
同时,从头训练的自由度也较高,可以避免老模型的问题,争取达到 MoE 模型上限。面向云端,MoE 确为当前最优解,但就端侧而言,MoE 则不一定为正解,所以,面壁也给出了新的稀疏化方案来解决端侧模型问题:
去年,面壁在 MiniCPM-S 系列引入了自研稀疏化方案,通过将激活函数替换为 ReLU 及通过带渐进约束的稀疏感知训练来提升大模型的稀疏性,能将 Llama、MiniCPM 稀疏度提升至接近 90%。并且也能够在保持模型原有水平的基础上,有效降低模型推理的开销,与之相比的 MoE 方案则会显著作用模型效果。
去年底,清华&面壁团队还提出了一种新型类脑高效稀疏 Configurable Foundation Model 架构。较之于 MoE,CFM 能更本质和宏观地覆盖从预训练到后训练的模块化全过程,从结果上,对于大模型“知识密度”极致提升、对于端侧模型极速低能耗推理能产生更显著作用。
据面壁官方介绍,这一架构证实了大模型本身就具有高效稀疏模块化特性——大模型神经元与人脑类似,在预训练过程中自发地产生了功能分化与分区的性质,各自负责语言、数学、代码等能力,且每次计算过程中大模型仅有这些分区的神经元被激活。
因此,CFM 将大模型拆分为预训练阶段产生的涌现模块(Emergent Brick)与后训练阶段产生的定制模块(Customized Brick),使得训练大模型可以像搭积木一样,通过模块的检索、组合、更新、增长,实现复杂能力的组合。
值得一提的是,面壁其实也是国内最早把稀疏激活这块做起来的团队。
早在 2021 年 6 月,面壁智能创始人刘知远牵头的“悟道·文源”就发布了千亿 MoE 大模型 CPM-2 ,参与成员中也包括了面壁的初始团队。
同年,面壁团队发布题为《MoEfication:Transformer Feed-forward layers are Mixtures of Experts》的论文,提出将一个稠密的模型转化为等参数量的 MoE 模型,同样能实现大幅度推理加速,也证明了只使用显贵神经网络 10% 到 30% 的参数就可以保留 95% 的性能。
论文链接:https://arxiv.org/abs/2110.01786
刘知远告诉 AI 科技评论,其创立面壁的初衷就是希望更多人能低成本使用大模型,所以那时他们也做了一套平台模型的训练微调,尽可能降低压缩、微调等环节的成本。
此后,面壁也一直在沿着降本、高效这条路径不断探索解决方案。其曾用 MiniCPM 2.4B 的小模型实现了性能对标 Llama 2 13B,而前者具体信息的配比、参数配置都是用十分之一甚至更小的模型训练、预测出的。这种以小见大的路径证明了当参数潜力被激发,小模型完全能使用更高效的训练方式实现更好的性能,找到 20B、50B 甚至更大参数模型的最优解也同样可能。
再回到 DeepSeek 和面壁选择路径的差异继续探讨,DeekSeek 在云端超大规模模型的训练过程中引入了 MoE 和多头潜在注意力(MLA)工艺,使模型能以更大的 batch size 运行,减少单个请求实际的运算量,同时也降低模型在云端 API 上的推理成本。
也有大模型从业者向 AI 科技评论分析称,“DeepSeek 的高效是高度定制的工艺体系,MoE 和 MLA 强绑定,去掉 MoE 以后 MLA 会比较废,且其 MoE 也和流水线 Infra 并行强绑定。整体而言,DeepSeek 是面向大集群训练、大集群部署支持,用云提供客户支持的极致优化。”
面壁所选择的路径则是面向边端算力场景进行极致优化,其更看重单设备支持的高效性,MiniCPM 在模型训练工艺上优化使得模型知识密度更高,继而以小参数战胜大参数模型,MiniCPM 系列端侧模型也能够直接在各种端侧设备上本地化运行,提供和云端 API 相当的智能能力,针对面壁所专注的端侧场景,DeepSeek 则还没有提供解决方案。
值得一提的是,Scaling Law 持续面临着信息和算力资源的上限难题,去年底也曾被业内质疑或将失效。此前,面壁也一直追求在同时间、同参数下能实现更优的 Scaling Law,如今正在探索其他规律。
据刘知远介绍,他发现大模型行业也有着和摩尔定律相似的规律——随着信息、算力、运算规则的协同增长,2020 年发布的 GPT-3 用 1750 亿参数达到的能力,到 2024 年 2 月只需要 24 亿参数即可达到,大模型的能力“密度”正在提升,这正意味能用更少的参数实现相同的智能水平。
据此,前段时日,刘知远和团队也提出了大模型密度定律(Densing Law)—— 模型能力密度随时间呈指数级增长。据面壁方面介绍,“能力密度”(Capability Density)为给定 LLM 的有效参数大小与实际参数大小的比率。比如一个 3B 的模型能达到 6B 参考模型的性能,那么这个 3B 模型的能力密度就是 2(6B/3B)。
而根据密度定律,面壁得出的推论主要有七点:实现相同能力的模型参数每 3.3 个月(约100天)下降一半;模型推理开销随时间指数级下降;模型训练开销随时间迅速下降;大模型能力密度呈加速增强趋势;模型小型化揭示端侧智能巨大潜力;无法通过模型压缩增强模型能力密度;密度倍增周期决定模型存在“有效期”。
端侧如何胜云侧?
这套高效优化把模型做小的逻辑,实际上也能顺理成章解决模型部署到端侧的问题。
从世界范围的算力分布上来看,OpenAI、Google、Meta 部署了很多大的云端平台,但如果算上 80 亿手机上的芯片,这是非常关键的长尾。事实上,在手机中刷影片的 APP 里并非所有需求都需要在云侧解决,有相当一部分计算是发生在本地的。
刘知远告诉 AI 科技评论,“明明一个 13B 模型的能力可以用一个 2B 的模型去做,且可以在端侧跑得非常快,没必要去实测、发请求。大模型是计算稠密的任务,从可持续增长、实际落地的角度讲,显然端侧的算力完全没有被释放,因此 MiniCPM 的效果极有可能就是未来方向。而且不是所有需求都得用GPT-4,有时 GPT-3 也可以满足。”
自 MiniCPM-V 系列开始,面壁便一直聚焦解决端侧模型多模态问题,此次,AI 科技评论注意到,其又推出了 MiniCPM-o 2.6 新模型,体验链接如下:
https://huggingface.co/openbmb/MiniCPM-o-2_6
https://github.com/OpenBMB/MiniCPM-o
据面壁官方介绍,MiniCPM-o 2.6 仅 8B 个参数。与 MiniCPM-V 2.6 相比,MiniCPM-o 2.6 不仅在视觉能力上进行了提升,如强大的 OCR 能力、可信行为、多语言支持和影片理解,也引入了实时语音对话和多模式实况的新功能,支持双语实时语音对话,声音可配置,还可实现情绪/语速/风格控制、端到端语音克隆、角色扮演等趣味功能,并首次支持在 iPad 等端侧设备上进行多模态实况。
MiniCPM-o 2.6 此次也全面对标了 GPT-4o 的“全模态实时流式影片理解+高级语音对话”,不仅支持影片、语音、文本输入以及语音、文本输出,还具备 GPT-4o 级别(人类级别)的低延迟实时交互。
不过,GPT-4o 并未部署在端侧,因此存在网络延迟、支持器带宽/高并发情况下使用可靠性等隐忧。
除此之外,和 GPT-4o 相比,MiniCPM-o 2.6 的优势体现在能听到除人声之外的背景音,比如撕纸、倒水、金属碰撞等,值得一提的是,这一点目前市面上大多数部署在云端的大模型也都还无法达成。
此外,面壁这次也特别强调了“真正”的影片大模型这一点。
AGI 本身其实不只是大模型,拆分其能力包括有推理、记忆、规划以及与外界的交互,而交互则包含感知和对工具的使用,交互本质上是多模态,需要深刻理解图片、影片和声音。
MiniCPM-o 2.6 能够感知客户提问之前的画面和声音,并持续对实时影片和音频流进行建模,这种方式更贴近人眼的自然视觉交互。而目前市场上有些宣称支持实时流式影片理解的模型或产物,其实只能算作照片大模型,其仅在客户提问后才开始对影片进行静态图片抽帧,无法捕捉客户提问之前的画面,缺乏对前文情境的感知。
AI 科技评论也从面壁方面了解到,能实现这些工艺上的突破,MiniCPM-o 2.6 背后的工艺路径主要包括以下三个方面:
一是端到端全模态流式架构。主要采用模块化全模态能力建模架构,实现全模态能力的灵活高效构建。其中核心语言基座为 MiniCPM 3.0 的 4B 模型,通过 ViT 等模型进行视觉和语音编码,语音生成通过自回归语音解码模块实现。
整体模型以端到端方式,通过连续稠密表示连接,实现端到端的联合学习,从而支撑较高的模型能力上限。具体地,视觉及语音输入中非自然语言可描述的模态信息,可通过端到端方式传递到语音生成内容中,从而实现生成内容的较高自然度和可控性。
二是低延迟模态并发工艺。通过模态多路时分复用工艺,实现低延迟的模态并发。将时间域切分成为周期循环的时间切片,在每个时间切片中,分别对视觉和音频输入信号进行流式编码,并对主动输出语义时机进行判断。为最大程度降低响应延迟,通过基座模型对客户语音结束时机进行高级语义判断,从而避免语音活性检测引入的长时间等待。
三是端到端全模态流式学习。在影片中学习观察多模态环境,根据人物身份,进行社会角色扮演。可以实现预训练级别的监督微调,以及“外部环境-社会意图-语言语音行为”之间的对齐关系,从而获得高级多模态语义知识,有望实现更加高级的心智水平。这有望为全模态大模型驱动具身机器人,参与人类社会活动打下基础。
面壁已经将端侧模型的工艺迭代到了新高度,但值得注意的是,把模型做小解决高效性问题是其一,小模型并不完全等同于端侧模型,模型要部署在端侧,硬件的增长也起到关键作用。
当下,端侧模型要运行在终端,存在着内存、功耗、算力三大硬件瓶颈。根据 Apple 方面的说法,70 亿半精度参数的语言模型要完全加载进终端需要超过 14 GB的 DRAM 空间,Meta 也曾指出,一个约有 5000 焦耳满电能量的 iPhone,仅支持 7B 模型在 10 tokens/秒的 AI 生成速率下对话不足 2 小时。
但行业增长近况也还算乐观,“首先,芯片在高度增长,最新芯片已经可以支持百亿参数模型,其次,模型训练工艺在提升,两三百亿的模型也能达到 GPT-3.5 水平,关键问题在于如何把芯片和模型训练接起来,这之中就需要优化,不过这块工艺已不成问题,只需等待时机。”面壁智能首席研究员韩旭告诉 AI 科技评论。
务实的理想主义者
当前,许多团队把追求实现 AGI 作为唯一卖点或奋斗目标,但如同造计算机一般,造出更强大的计算机很关键,将计算机造得低廉,能让整个社会受益,则需要兼顾应用层面,面壁所做的就是贡献其中一部分。
面壁对 AGI 的看法更像是务实的理想主义者:AI 最终还是要作为人的工具,从计算机的角度来看,AI 就是为了让计算机更智能、有理解能力,如何让 AI 更高效,把人从机械劳动里解脱出来才是应当思考的问题。
在刘知远的观点中,未来假如按照 OpenAI 的规划,五年实现超级智能有太多关键问题要解决,scaling prediction 是其中之一,超级对齐也是关键问题,即当大模型在某个任务上已经超越人类,有无办法能继续提升也还需要探索解法。
而继续追赶 GPT-4 也只是一个参考,跟随 OpenAI 并不一定是最正确的选择,面壁在未来不会只局限于 scaling prediction,更不会把某一问题当做全部,换言之,实现 AGI 必须要坚持自身独到路线。雷峰网(公众号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
MediaTek 举办天玑开发者大会 MDDC2024,携手产业伙伴共创生成式 AI 新生态
零一万物 API 上线,用户反馈多模态中文能力超过 GPT
别再声讨零一万物了
问鼎「AI 之巅」,第四届全国人工智能大赛决赛在深举行
产业跑进数字世界,要先迈过安全这道坎
体育中考「上难度」,视觉 AI 下场「减负」
大模型助力企业数据驱动,火山引擎数智平台发布 AI 助手
苹果发布多模态模型 Ferret
首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读
大模型生产力的头场变革,从英特尔商用 AI PC 说起
SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展
谁将替代 Transformer?
SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展
开源启智,筑梦未来!第四届OpenI/O启智开发者大会开幕
昆仑万维开源「天工」13B系列大模型,0门槛商用
中国正大步迈向全球创新中心
若愚科技:基于多模态大模型的机器人“大脑”领导者
当「养老」遇上 AI 大模型
实测:ChatGPT的翻译能力怎么样?
匈牙利总理:欧洲领导人必须承认对乌克兰的战略错误
独家|前百度搜索老将赵世奇从华为离职,回归百度
Lydia 动作大模型亮相,虚拟动点助力“利亚德集团2024年生态合作伙伴大会”
Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节
非法收受财物2.29亿余元 窦万贵一审被判死缓
别再声讨零一万物了
蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO
独家丨前微软 NLP 大牛姜大昕创立新公司「阶跃星辰」
“丹娜丝”携强降雨继续作用南方 北方闷热“上线”
哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世
独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
李彦宏在百度世界2023:我们即将进入一个AI原生的时代
“丹娜丝”携强降雨继续作用南方 北方闷热“上线”
AI Infra 往事之异构计算篇:吴韧与他的学生们
首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读
若愚科技:基于多模态大模型的机器人“大脑”领导者