搜索
当前所在位置:首页 >> 综合

【陈某艳照流出高清内容】彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

发布时间:2025-09-13 13:56:31 作者:acyrr 点击:134 【 字体:

自2017年Transformer架构诞生之后,科技到现在为止其仍然是模型人工智能领域研究和应用的基础,鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的架构成效。一方面是发布由于Transformer确实好用;另一方面,在最底层上做突破并非易事。效率

然而,两倍陈某艳照流出高清内容彩云科技是科技那个反共识者。2024年5月22日,模型彩云科技发布了全新通用模型结构DCFormer,架构其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》(https://arxiv.org/abs/2405.08553)将在第41届国际机器学习大会ICML 2024正式发表。发布

在论文中,效率彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,两倍DCFormer效率是科技Transformer的两倍。据一位评委透露,模型今年录用论文的架构平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分。

ICML是商场群聊截图外泄全集国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性(详见论文表格)。

DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。

彩云科技DCFormer模型架构发布,效率是Transformer的两倍! 

 彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

彩云科技CEO袁行远说:"如果底层模型没有突破,人工智能的进步终将停滞不前。人人都说神经网络是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"雷峰网(公众号:雷峰网)雷峰网雷峰网

通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果 GPT-4o 能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer 模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用人工智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练数据集(https://github.com/Caiyun-AI/DCFormer),将该模型开源给全世界。

未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app,并将进一步发展彩云小梦,加速提升AI续写能力。袁行远说,"AI交互是前所未有的交互形式,也因此让我们有机会在AI的帮助下,建立每个人自己的'次元宇宙',而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦,帮助更多人实现现实生活中无法实现的梦想。"


雷峰网版权文章,未经授权禁止转载。详情见转载须知。

彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

阅读全文
相关推荐

边缘人工智能提供商 Gcore 获 6000 万美元融资;马斯克开训最大 AI 集群,目标年底开发全球最强 AI丨AI情报局

边缘人工智能提供商 Gcore 获 6000 万美元融资;马斯克开训最大 AI 集群,目标年底开发全球最强 AI丨AI情报局
今日融资快报边缘人工智能、云、网络和安全解决方案提供商Gcore获6000万美元A轮融资Gcore 的云基础设施专为边缘而构建,为边缘的 LLM 训练和人工智能应用程序的推理提供支持。融资由Warga ...

独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek

独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
AI 科技评论独家获悉,近日盛大网络挖角清华大学电子工程系副教授代季锋,正在筹备一家新的 AGI 公司,号称“对标 DeepSeek”,已有多位技术人才被猎头接触、介绍该团队的工作机会。目前,该项目正 ...

独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入

独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入
雷峰网(公众号:雷峰网)AI科技评论独家获悉,小鹏机器人团队正“广招兵马”,原 Seed 强化学习大佬陈杰已加入。陈杰,在香港大学取得博士学位,后在哈佛大学做博士后,毕业后加入Momenta工作,随后 ...

百度沈抖:一个企业可以只有一个官网,但一定会有大量的Agents

百度沈抖:一个企业可以只有一个官网,但一定会有大量的Agents
“智能经济时代,一定要有新的基础设施来支撑,这就是智能优先的AI云。”8月28日的2025百度云智大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖给出了云厂商在AI原生时代的新定位。从个人调用AI ...

ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live

ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live
自 GPT-4 发布至今已有两年,但对大语言模型的研究并没有放缓,我们仍处在一个技术进步涌现的时代。Anthropic 于 2024 年11月发布 MCP,成为接通 AI 生态的桥梁,自主的 Agen ...

群核科技发布空间大模型,或解决视频生成时空一致性难题

群核科技发布空间大模型,或解决视频生成时空一致性难题
8月25日,群核科技在首届技术开放日TechDay)上正式发布其空间大模型最新成果:新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,并在现场分享了新模型后续的开源节奏。 ...

突发!恒大物业:12日9点复牌!公司上半年净赚超4亿元,市值不足100亿元,实控人仍是许家印

突发!恒大物业:12日9点复牌!公司上半年净赚超4亿元,市值不足100亿元,实控人仍是许家印
9月11日晚,恒大物业06666.HK)公告,公司于2025年9月10日收到中国恒大集团及CEGHoldingsLimited的共同及个别清盘人发出的接洽函。该接洽函载明,清盘人一直寻求机会出售中国恒 ...

AI 陪伴赛道,会诞生下一个“泡泡玛特”吗?

AI 陪伴赛道,会诞生下一个“泡泡玛特”吗?
AI 正在从生产工具的角色中抽身,缓慢却坚定地走向一个全新的方向——情绪陪伴。当算法不再只为效率服务,越来越多的产品开始尝试构建“有灵魂”的存在。无论是可以挂在胸前、随时回应你情绪的小型硬件,能够在家 ...

AI推理芯片,大模型「下半场」的入场券

AI推理芯片,大模型「下半场」的入场券
2023是“群模共舞”的元年。先是ChatGPT的横空出世给予众人致命震撼,随后国内诸多AI、互联网公司迅速加大资源投入“练模”。3月,百度发布文心一言,打响了“练模大战”的第一枪。在这场“模型大战” ...

从「全球销冠」到「Google首选」,XREAL创新驱动引领新一代智能终端

从「全球销冠」到「Google首选」,XREAL创新驱动引领新一代智能终端
2025年7月22日14:00,全球智能眼镜头部品牌XREAL正式发布全新旗舰产品——XREAL One Pro,并同步在京东、天猫平台开启预售。发布当日,京东平台已有2.6万人进行线上预约,未发先热 ...

Video++张奕:人工智能在消费级视频场景中的应用丨雷锋网公开课(附PPT)

Video++张奕:人工智能在消费级视频场景中的应用丨雷锋网公开课(附PPT)
雷锋网按:视频直播行业在前几年迎来了井喷式爆发,随着人工智能技术的逐渐成熟,视频的解决方案也在不断完善,例如大数据、智能追踪、直播互动、广告精准推荐等,这些都在潜移默化中提升视频的用户体验,并且也给视 ...

菲律宾抗议中国新建黄岩岛国家级自然保护区 中方回应

菲律宾抗议中国新建黄岩岛国家级自然保护区 中方回应
来源:北京青年报9月11日,外交部发言人林剑主持例行记者会。有记者提问,菲律宾外交部表示,强烈抗议中国在黄岩岛设立自然保护区的计划,并称菲律宾将对所谓中国的“非法行为”进行正式交涉。中方对此有何回应? ...
返回顶部