搜索
当前所在位置:首页 >> 知识

【美容院隐私外泄合集】元象发布中国最大MoE开源大模型 落地应用登顶港台榜

发布时间:2025-09-13 17:22:29 作者:njmrh 点击:1658 【 字体:

元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,发布将国产开源提升至国际领先水平。中国最该模型总参数255B,模型激活参数36B,落地达到100B模型性能的登顶美容院隐私外泄合集「跨级」跃升,同时训练时间减少30%,港台推理性能提升100%,元象源大应用使每token成本大幅下降。发布

元象「高性能全家桶」系列全部开源,中国最无条件免费商用,模型让海量中小企业、落地研究者和开发者能按需选择。登顶

元象发布中国最大MoE开源大模型 落地应用登顶港台榜 MoE(Mixture of Experts)是业界最前沿的混合专家模型架构 ,将多个细分领域的元象源大应用专家模型组合成一个超级模型,打破了传统扩展定律(Scaling Law)的局限,可在扩大模型规模时,不显著增加训练和推理的计算成本,保持模型性能最大化。日本旅游妹视频出于这个原因,行业前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、马斯克旗下xAI公司的Grok等大模型都使用了 MoE。

在多个权威评测中,元象MoE效果大幅超越多个同类模型,包括国内千亿MoE模型 Skywork-MoE、传统MoE霸主Mixtral-8x22B 以及3140亿参数的MoE开源模型Grok-1-A86B等。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜 

免费下载大模型

Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B

魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

Github:https://github.com/xverse-ai/XVERSE-MoE-A36B

官网:chat.xverse.cn

 

落地应用好且省 登顶港台娱乐应用榜


元象此次开源,不仅填补国内空白,也在商业应用上更进一步。

元象基于MoE模型自主研发的AI角色扮演与互动网文APP Saylo,通过逼真的AI角色扮演和有趣的开放剧情,火遍港台,下载量在中国台湾和香港娱乐榜分别位列第一和第三。

MoE训练范式具有「更高性能、更低成本」优势,元象在通用预训练基础上,使用海量剧本数据「继续预训练」(Continue Pre-training),并与传统SFT(监督微调)或RLHF(基于人类反馈的强化学习)不同,采用了大规模语料知识注入,让模型既保持了强大的通用语言理解能力,又大幅提升「剧本」这一特定应用领域的表现。  元象发布中国最大MoE开源大模型 落地应用登顶港台榜


高性能「开源标杆」

 

元象是国内领先的AI与3D公司,秉持「通用人工智能 AGI」信仰,持续打造「高性能开源全家桶」,不仅填补国产开源空白,更将其推向了国际领先水平。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

2023年11月,此前国内大部分开源参数多在7B到13B,而行业共识是模型达到50到60B参数门槛,大模型才能“智能涌现”,生态亟需“大”模型时,元象率先开源了XVERSE-65B,是当时中国最大参数开源。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

2024年1月,元象又开源全球最长上下文窗口大模型,支持输入25万汉字,还附手把手训练教程,让大模型应用一举进入“长文本时代”。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

此次国内最大参数MoE开源,又是给生态贡献了一个助推低成本AI应用利器。

 

引领文娱应用

 

借助在AI和3D领域的客户积累,元象也迅速将大模型推向商用。

2023年11月,元象成为全国最早一批、广东省前五获得《生成式人工智能服务管理暂行办法》国家备案的大模型,具备向全社会开放的产品能力。 

而在更早的10月,元象与腾讯音乐联合推出lyraXVERSE加速大模型,并借助该技术全面升级音乐助手“AI小琴”的问答、聊天与创作能力,让她情商与智商双高,为用户提供个性化、更深入、陪伴感十足的音乐互动体验。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

元象大模型陆续与QQ音乐、虎牙直播、全民K歌、腾讯云等深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的用户体验。  元象发布中国最大MoE开源大模型 落地应用登顶港台榜


MoE技术自研与创新

 

MoE是目前业界最前沿的模型框架,由于技术较新,国内开源模型或学术研究尚未普及。元象自研MoE的高效训练和推理框架,并持续推动技术创新。

2024年4月推出的XVERSE-MoE-A4.2B中,元象推动MoE专家架构革新。与传统MoE(如Mixtral 8x7B)将每个专家大小等同于标准FFN不同,元象采用更细粒度的专家设计,每个专家大小仅为标准FFN的四分之一,提高了模型灵活性与性能;还将专家分为共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类。共享专家在计算过程中始终保持激活状态,而非共享专家则根据需要选择性激活。这种设计有利于将通用知识压缩至共享专家参数中,减少非共享专家参数间的知识冗余。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

此次推出XVERSE-MoE-A36B,继续在MoE效率和效果方面进行技术创新。

(1)效率方面

MoE架构与4D拓扑设计:MoE架构的关键特性是由多个专家组成。由于专家之间需要大量的信息交换,通信负担极重。为了解决这个问题,我们采用了4D拓扑架构,平衡了通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径,提高了整体计算效率。

专家路由与预丢弃策略:MoE的另一个特点是“专家路由机制”,即需要对不同的输入进行分配,并丢弃一些超出专家计算容量的冗余数据。为此团队设计一套预丢弃策略,减少不必要的计算和传输。同时在计算流程中实现了高效的算子融合,进一步提升模型的训练性能。

通信与计算重叠:由于MoE架构的专家之间需要大量通信,会影响整体计算效率。为此团队设计了“多维度的通信与计算重叠”机制,即在进行参数通信的同时,最大比例并行地执行计算任务,从而减少通信等待时间。

(2)效果方面

专家权重:MoE 中的专家总数为 N ,每个 token 会选择 topK 个专家参与后续的计算,由于专家容量的限制,每个 token 实际选择到的专家数为 M,M<=K<N。被选择到的专家计算完之后,会通过加权平均的方式汇总得到每个 token 的计算结果。这里专家的权重如何设置是一个问题,我们通过对比实验的方式来进行选择。根据对比实验的效果,我们选择实验2的设置进行正式实验。

实验1:权重在 topM 范围内归一化

实验2:权重在 topK 范围内归一化

实验3:权重在 topN 范围内归一化

实验4:权重都为 1 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

对比实验结果

举例说明,假设N=8,K=4,M=3(2号专家上token被丢弃),不同专家权重的计算方式所得的权重如下图: 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

数据动态切换:元象以往开源的模型,往往在训练前就锁定了训练数据集,并在整个训练过程中保持不变。这种做法虽然简单,但会受制于初始数据的质量和覆盖面。此次MoE模型的训练借鉴了"课程学习"理念,在训练过程中实现了动态数据切换,在不同阶段多次引入新处理的高质量数据,并动态调整数据采样比例。

这让模型不再被初始语料集所限制,而是能够持续学习新引入的高质量数据,提升了语料覆盖面和泛化能力。同时通过调整采样比例,也有助于平衡不同数据源对模型性能的影响。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

不同数据版本的效果曲线图

学习率调度策略(LR Scheduler):在训练过程中动态切换数据集,虽有助于持续引入新知识,但也给模型带来了新的适应挑战。为了确保模型能快速且充分地学习新进数据,团队对学习率调度器进行了优化调整,在每次数据切换时会根据模型收敛状态,相应调整学习率。实验表明,这一策略有效提升了模型在数据切换后的学习速度和整体训练效果。

下图是整个训练过程中 MMLU、HumanEval 两个评测数据集的效果曲线图。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

训练过程中MMLU、HumanEval的性能曲线持续拔高

通过设计与优化,元象MoE模型与其Dense模型XVERSE-65B-2相比,训练时间减少30%、推理性能提升100%,模型效果更佳。雷峰网雷峰网(公众号:雷峰网)




雷峰网原创文章,未经授权禁止转载。详情见转载须知。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

阅读全文
相关推荐

蚂蚁武威:下一代「推理」模型范式大猜想

蚂蚁武威:下一代「推理」模型范式大猜想
R1 之后,长思维链成为研究下一代基础模型中 “推理”Reasoning)能力的热门方向。一方面,R1 证明了大模型深度思考的可行性;与此同时,尽管 R1 展现出了强大的性能,大模型推理的序幕实则才刚 ...

枫清科技高雪峰:从数据到知识,跨越生成式AI与决策智能间的鸿沟

枫清科技高雪峰:从数据到知识,跨越生成式AI与决策智能间的鸿沟
12月5日,“2024中国生成式AI大会”在上海开幕,全球AI领域的顶尖专家、行业领袖与技术创新者汇聚一堂。会上,枫清科技Fabarta)创始人兼CEO高雪峰深入探讨了人工智能在企业智能化转型中的关键 ...

阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一

阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一
近日,斯坦福大学人工智能研究所发布了最新一期《2025年人工智能指数报告》。研究报告显示,在2024年度全球重要大模型中,中国贡献15项。从具体机构分布来看,谷歌与OpenAI各占7席并列榜首,阿里巴 ...

DeepSeek 反思潮:AGI 既被重新审视,又被持续低估

DeepSeek 反思潮:AGI 既被重新审视,又被持续低估
2 月很有意思。一、DeepSeek 反思潮在 DeepSeek 的集体反思潮中,无论是大厂内部的“AGI 创业团队”、还是 AGI 的明星创业公司,都进行了战略调整。很显然,DeepSeek 的暴击 ...

专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路

专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路
作者丨饶舒玮编辑丨岑峰“既要又要”是何泰然的野心,也是决心。在谈到人形机器人遥操作的可行路径时,何泰然表示他既可以实现机器人的全身控制,还可以用强化学习来实现这一点。在他所探索的这条路上,不必因为技术 ...

解读:物理诺贝尔奖为何颁给了HNN之父和深度学习之父?

解读:物理诺贝尔奖为何颁给了HNN之父和深度学习之父?
就在刚刚,瑞典皇家科学院决定将 2024 年诺贝尔物理学奖授予约翰·J·霍普菲尔德 (John J. Hopfield) 和杰弗里·E·辛顿 (Geoffrey E. Hinton),“表彰他们通过人 ...

AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
Manus 的出现将智能体推入当下 AI 格局的前列,使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议,认为 Manus 没有底层技术创新力,更多的是将现有技术融合从而在 ...

欧洲“DeepSeek”发布了全世界最好的 OCR,网友:蹲蹲中国的免费开源版

欧洲“DeepSeek”发布了全世界最好的 OCR,网友:蹲蹲中国的免费开源版
就在刚刚,那个曾经开源了首个 MoE 模型的欧洲初创公司 Mistral AI 在沉寂一段时间之后又出新活。Mistral 团队发布了一个号称“全世界最好的 OCR”的产品 —— Mistral OC ...

OPPO「小布」的主动式智能进化

OPPO「小布」的主动式智能进化
作者丨王晓然编辑丨陈彩娴1智能助手,是AI的天然训练场如果要总结2022年AI领域十大关键词,「主动智能」必然上榜,且提及的高频场景一定聚焦于:智能家居、车机、手机。而穿插在这三个场景之间的,有一个无 ...

Hammerspace携手驿心科技,为中国打造超大规模AI存储解决方案

Hammerspace携手驿心科技,为中国打造超大规模AI存储解决方案
Hammerspace今日宣布与中国领先企业北京驿心科技有限公司Yition.ai)达成战略合作。驿心科技致力于让超大规模 AI 基础设施更加易于访问与高效运作。此次合作将 Hammerspace 成 ...

第一个走入全面AI化的行业,正在经历一次「系统升级」

第一个走入全面AI化的行业,正在经历一次「系统升级」
一年前,阿里巴巴国际站首次发布AI外贸产品时,AI行业还刚刚陷入“模型还是应用”的大辩论中。在彼时的采访中,阿里国际站总裁张阔对此没有丝毫迟疑:“模型不是稀缺的,真正稀缺的是好的应用。”这一判断下,仅 ...

阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈

阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈
作者 | 赖文昕编辑 | 陈彩娴2018 年 6 月,在澳大利亚机器人视觉研究中心ACRV)做博士后研究员的吴琦和博士生 Peter Anderson 首次将 VL视觉-语言)和彼时机器人领域主流的导 ...
返回顶部