发布时间:2025-09-13 13:56:31 作者:acyrr 点击:134 【 字体:大中小 】
自2017年Transformer架构诞生之后,科技到现在为止其仍然是模型人工智能领域研究和应用的基础,鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的架构成效。一方面是发布由于Transformer确实好用;另一方面,在最底层上做突破并非易事。效率
然而,两倍陈某艳照流出高清内容彩云科技是科技那个反共识者。2024年5月22日,模型彩云科技发布了全新通用模型结构DCFormer,架构其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》(https://arxiv.org/abs/2405.08553)将在第41届国际机器学习大会ICML 2024正式发表。发布
在论文中,效率彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,两倍DCFormer效率是科技Transformer的两倍。据一位评委透露,模型今年录用论文的架构平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分。
ICML是商场群聊截图外泄全集国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性(详见论文表格)。
DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。
彩云科技CEO袁行远说:"如果底层模型没有突破,人工智能的进步终将停滞不前。人人都说神经网络是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"雷峰网(公众号:雷峰网)雷峰网雷峰网
通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果 GPT-4o 能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer 模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用人工智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练数据集(https://github.com/Caiyun-AI/DCFormer),将该模型开源给全世界。
未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app,并将进一步发展彩云小梦,加速提升AI续写能力。袁行远说,"AI交互是前所未有的交互形式,也因此让我们有机会在AI的帮助下,建立每个人自己的'次元宇宙',而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦,帮助更多人实现现实生活中无法实现的梦想。"
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
5 款好用的 AI 知识搜索引擎,揭开智能搜索新篇章丨AI 情报局
在美被捕韩国公民获释 将乘包机返回韩国
遭两家投行下调评级,苹果陷五年来华尔街最大冷遇
在美被捕韩国公民获释 将乘包机返回韩国
在海外,Sora 正在被可灵替代
机器人“梅西”的养成:干活之前,得先学踢足球
大模型热度退潮,真正的技术创新者开始被「看见」
独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入
指数科技AFH技术打造AI生成硬件范式,做垂直领域“刚需”
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
代码大模型+金融场景:aiXcoder入选TiD 2025年度软件研发优秀案例
PixVerse V5入围Artificial Analysis第一梯队,上线首日全球超百万用户更新并体验
闷声狂奔一年,字节大模型的进阶之路
董军同美国国防部长影片通话
PixVerse V5入围Artificial Analysis第一梯队,上线首日全球超百万用户更新并体验
从「全球销冠」到「Google首选」,XREAL创新驱动引领新一代智能终端
【ICIG 2023】聚力创新,共赢未来,第十二届国际图象图形学学术会议圆满落幕
DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了
美国西南航空一波音客机因引擎故障紧急转降
中国等国能否说服俄罗斯谈判?外交部回应
斯坦福 AI 指数报告发布:2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍
香港首个商业AI展「AI+ Power 2025」盛大开幕,本地及海外行业精英齐聚共探AI发展
WAIC最强亮点:非Transformer离线AI大模型已大规模量产,大模型商业比我们想得更快
一场「狼人杀」,考倒了一堆大模型
边缘人工智能提供商 Gcore 获 6000 万美元融资;马斯克开训最大 AI 集群,目标年底开发全球最强 AI丨AI情报局
独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入
百度沈抖:一个企业可以只有一个官网,但一定会有大量的Agents
ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live
群核科技发布空间大模型,或解决视频生成时空一致性难题
突发!恒大物业:12日9点复牌!公司上半年净赚超4亿元,市值不足100亿元,实控人仍是许家印
AI 陪伴赛道,会诞生下一个“泡泡玛特”吗?
AI推理芯片,大模型「下半场」的入场券
从「全球销冠」到「Google首选」,XREAL创新驱动引领新一代智能终端
Video++张奕:人工智能在消费级视频场景中的应用丨雷锋网公开课(附PPT)
菲律宾抗议中国新建黄岩岛国家级自然保护区 中方回应