搜索
当前所在位置:首页 >> 百科

【杭州中学偷拍排名】谁将替代 Transformer?

发布时间:2025-09-13 17:28:40 作者:r 点击:47 【 字体:

【雷峰网(公众号:雷峰网)】2017年谷歌发表的将替论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的将替人工智能热潮都可以直接追溯到 Transformer 的发明。

Transformer 由于其处理局部和长程依赖关系的将替能力以及可并行化训练的特点,一经问世,将替逐步取代了过去的将替 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的将替杭州中学偷拍排名标准范式。

今天主流的将替 AI 模型和产品——OpenAI 的ChatGPT、谷歌的将替 Bard、Anthropic 的将替 Claude,Midjourney、将替Sora到国内智谱 AI 的将替 ChatGLM 大模型、百川智能的将替 Baichuan 大模型、Kimi chat 等等——都是将替基于Transformer 架构。

Transformer 已然代表了当今人工智能技术无可争议的将替黄金标准,其主导地位至今无人能撼动。将替

在Transformer 大行其道的同时,出现了一些反对的声音,如:“Transformer 的效率并不高”;“Transformer 的天花板很容易窥见”;“Transformer 是很好,但并不能实现 AGI,实现一个world model(世界模型)”。

这是因为 Transformer 的强大之处同时也是它的弱点:Transformer 中固有的自注意力机制(attention)带来了挑战,主要是由于其二次复杂度造成的,这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。

简单点说,这意味着当 Transformer 处理的序列长度(例如,段落中的单词数量或图像的大小)增加时,所需的算力就会按该序列的平方增加,从而迅速变得巨大,因此有说法认为“Transformer 效率不高”。这也是当下人工智能热潮引发了全球算力短缺的主要原因。

基于 Transformer 的局限性,许多非 Transformer 架构顺势提出,其中包括中国的 RWKV、Meta 的 Mega、微软亚研的 Retnet、Mamba、苏州高中实拍评论DeepMind 团队的 Hawk 和 Griffin 等——它们都是在 Transformer 一统大模型研发江湖之后陆续被提出来的。

他们大多在原来的 RNN 基础上,针对 Transformer 的缺陷和局限性来做改进,试图研究出所谓的「高效 Transformer」(efficient Transformer)结构,一个更像人类思考的架构。

其中 efficient Transformer 是指占用的内存更小、训练和推理过程中的计算成本更小的模型,试图来推翻Transformer 的霸权。

当前的非 Transformer 架构研究正走向何方?

现在主流的非 Transformer 研究基本都是针对 attention 机制去优化 full attention 的部分,然后想办法将这一部分变成一个 RNN 模型,以此提高推理的效率。

attention 是 Transformer 的核心——Transformer 模型之所以如此强大,是因为它抛弃了之前广泛采用的循环网络和卷积网络,而采用了一种特殊的结构——注意力机制(attention)来建模文本。

attention 使模型能够考虑单词之间的关系、不管它们相距多远,并确定段落中哪些单词和短语最值得关注。

这种机制使得 Transformer 实现了语言处理的并行化,即同时分析特定文本中的所有单词,而不是按顺序分析。Transformer 的并行化使它们对所读所写的文本有了更全面、更准确的理解,也使得它们比 RNN 具有更高的计算效率和可扩展性。

相比之下,循环神经网络(RNNs)面临梯度消失的问题,使得它们难以对长序列进行训练,此外,在训练过程中无法在时间上并行化,进而限制了其可扩展性;卷积神经网络(CNNs)只擅长捕捉局部模式,在长程依赖方面还很欠缺,而这对于许多序列处理任务至关重要。

但是 RNNs 的优势在于 RNN 模型做推理时,复杂度是恒定的,所以内存和计算需求是呈线性增长,相对于 Transformer 在序列长度上的内存和计算复杂性呈二次方增长,RNN 的内存与计算需求更低。因此,今天很多非 Transformer 研究都循着“保留 RNN 优势的同时,试图达到 Transformer 性能”的方向去努力。

基于这一目标,今天的非 Transformer 技术研究主要分为两个流派:

流派一是以 RWKV、 Mamba 和 S4 为代表,它们完全用 recurrent(循环)结构去替代 attention。这种思路是用一个固定的内存记住前面的信息,但目前看来虽然可以记住一定长度,但要达到更长的长度是有难度的。

还有一个流派是把 full attention 这种密集结构变得稀疏,例如 Meta 的 Mega,在之后的计算中不再需要算所有 attention 矩阵中的每一个元素,模型效率也随之变高。

具体分析各个非 Transformer 模型,其中 RWKV 是国产开源的首个非 Transformer 架构的大语言模型,目前已经迭代至第六代 RWKV-6。RWKV 的作者彭博在 2022 年 5 月开始训练 RWKV-2,当时只有 1 亿(100M)参数规模,后续在 2023 年 3 月又训练出了 RWKV-4 140亿(14B)的参数版本。

彭博曾告诉 AI 科技评论,为什么他要做一个跟 Transformer 架构不同的模型:

“因为这个世界本身就不是基于 Transformer 的逻辑去做推理来运转的,这个世界的运转规律是基于类似 RNN 结构的——这个世界的下一秒,不会跟你过去所有的时间、所有的信息相关联,只会跟你的上一秒相关联。而 Transformer 要辨认所有的 token,这是不合理的。”

所以 RWKV 用 linear attention(线性注意力机制) 去近似 full attention,试图结合 RNN 和 Transformer 的优点,同时规避两者的缺点,来缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时提供并行训练和可扩展性,类似于 Transformer。简而言之,主打高性能、低能耗、占用内存小。

而此前讨论较多的 Mamba,其论文作者有两位,一位是卡内基梅隆大学机器学习系助理教授 Albert Gu,另一位是Together.AI 首席科学家的 Tri Dao。

他们在论文中称,Mamba是一个新的 SSM 架构,在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美,还可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升。

一位非 Transformer  研究者告诉AI科技评论,Mamba 完全只用 recurrent(循环)结构,不用 attention,所以它在做下一个 token 的预测时,其内存大小永远固定,并不会随时间增加而增加;但它的问题在于滚动的过程中 memory 非常小,即其外推能力也比较弱。

上述研究者认为,微软亚研提出的 RetNet,走的也是完全 recurrent 思路。RetNet 引入了一种多尺度 retention 机制来替代多头注意力,它有三种计算范式:并行、循环和分块循环表征。

论文中称,RetNet 的推理成本与长度无关。对于 7B 模型和 8k 序列长度,RetNet 的解码速度是带键值缓存的 Transformers 的 8.4 倍,内存节省 70%。

在训练过程中,RetNet 也能够比标准 Transformer 节省 25-50% 的内存,实现 7 倍的加速,并在高度优化的 FlashAttention 方面具有优势。此外,RetNet 的推理延迟对批处理大小不敏感,从而实现了巨大的吞吐量。

Meta 提出的 Mega 则代表了非 Transformer 研究的第二种技术路线。Mega 的思路是把 recurrent 和变稀疏的attention 矩阵结合起来。

Mega 的核心研究人员之一 Max 告诉 AI 科技评论,attention 有它不可替代的作用,只要把它的复杂度限制在一定范围内,就能达到想要的效果。Mega 用了很长时间研究如何把 recurrent 和 attention 结合在一起才能最高效。

所以 Mega 还是采用了 attention 结构,只不过把 attention 限制在了一个固定的 window(窗口)范围内,同时结合了类似 Mamba 的滚动记忆形式,只不过 Mega 的滚动形式要简化许多,所以整个计算速度很快。

「滚动记忆」是指,所有的 efficient Transformer 都是把 recurrent 循环结构引入到 Transformer 中,类似于模型先看一段历史、记住,再看下一段历史,更新记忆,可能第一段历史记忆就没必要都记住了,忘掉一些,再把第二段需要记住的加到整个历史中,以此不断往前滚动着记忆。

这样记忆的好处是模型可以有一个固定长度的滚动记忆,不会随着时间增加而让 memory 也要增加,但它的问题是很多时候,某些特殊任务在最后时刻都不知道前面记忆中有哪些是有用的、哪些是没用的,这种滚动式记忆就很难完成。

Mega 在跟 llama 同样的数据上训练,再跟 llama2 去做公平的比较,发现在同样的数据情况下,Mega2 的效果比llama2 要好很多。同时 Mega 预训练采用 32K 窗口大小,Transformer 用同样 32K 的窗口大小速度比 Mega2 慢很多,如果 window size 再变大,Mega 优势会越来越明显。目前 Mega2 已经训到了 7B 大小。

DeepMind 团队提出的 Hawk 和 Griffin 同样认为没有 attention 是不行的,属于 gated linear RNN,跟 Mega 一样属于混合模型。

除 RWKV,国内岩芯数智也发布了非 Attention 机制的通用自然语言大模型——Yan 模型。岩芯数智 CTO 刘凡平称,Yan 跟线性的 Attention 和 RNN 没有任何关系,Yan 架构的大模型去除了 Transformer 中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,提高了建模效率和训练速度,实现了效率的提升和成本的降低。

Transformer  能否被颠覆?

虽然当下非 Transformer 研究提出的并不少,从测评效果上来看,跟同等规模大小的 Transformer  相比,表现普遍超过 Transformer,但它们共同面临的考验和质疑是:当它们的规模被放大到今天 Transformer 模型的大小时,是否还能继续展示出强大的性能和效率提升?

其中参数最大的 RWKV 有 140 亿参数,背靠 Meta 的 Mega 有 70 亿参数,而 GPT-3 有 1750 亿参数,GPT-4 传闻有 1.8 万亿参数,这意味着非 Transformer 急需训练出一个千亿模型来证明自己。

非 Transformer 研究中最具代表性的 RWKV,已经走得非常靠前——其背后的元始智能目前已经完成了上千万元的种子轮融资;据了解国内已经有一些公司在尝试用 RWKV 来训练模型;过去的一年里,RWKV 在 To C、To B 也有局部落地。

然而,有多位投资人告诉 AI 科技评论曾纠结是否要投 RWKV,赌一下非 Transformer 时,因为内部分歧太大——不敢坚信非 Transformer 能跑出来,最后都放弃了。

现阶段来看,基于现有硬件的算力基础,用 Transformer 去做端侧大模型的难度很高,还是需要在云上完成计算推理等工作,而且应答速度不如人意,终端用户很难接受。

有业内人士告诉 AI 科技评论,“在端侧,RWKV并不一定是最优解,因为随着半导体发展,AI 芯片越来越进化,未来在硬件、算力、能源上的成本,最终都会被摊平,未来大模型可以轻松地直接跑在终端上,不再需要花费大力气从底层架构来做出改变。未来有一天会达到这样一个临界点的。”

RWKV 的方式是从框架层操作,把框架轻量化了以后,可以让模型在本地运算。但也有一位投资人提出观点,认为非 Transformer 的理想状态是必须达到 OpenAI 的水平再来讲轻量化,“而不是为了小而小,为了本地化而本地化”。

上述投资人评价 RWKV “麻雀虽小,五脏俱全”,总体体验感能达到 GPT-3.5 的 60 分,但并不知道最后能否达到 GPT 的 80 分、90 分。这也是非 Transformer 的问题所在,即如果舍弃了框架的复杂度、可能会牺牲上限的天花板。

有接近 OpenAI 的人士告诉 AI 科技评论,OpenAI 内部其实曾经测试过 RWKV,但后面还是放弃了这一路线,因为“可能从长期来看它的天花板还未显现,实现 AGI 的可能性不大”。

证明自己的天花板有多高,成为了所有非Transformer 架构需要共同面临的考验。

一些模型研究人员称,Transformer 做文本大模型还没有达到它的天花板,毕竟 scaling law 还没有失效,Transformer 的瓶颈或许还是在生成序列长度更长的领域,例如在视频生成的多模态领域,而多模态是未来实现 AGI 的必经之路,如此看来,上下文窗口依然是 Transformer 的一个瓶颈。

如果像 OpenAI 一样不怕花钱,可以继续推高 Transformer 的 scaling law,但问题在于序列每长两倍就要花四倍的钱,花的时间也是四倍,平方级别的增长使 Transformer 在长序列问题的处理上效率太低,而且资源有上限。

据了解,国内前列的大模型公司,基本用的都是 Transformer。但也有猜测称,GPT-5 是否还是沿用 Transformer  架构是个未知,理由是从 GPT-2 之后没再继续开源。但大家更愿意相信 Transformer 的天花板还远。所以国内想要继续追赶 GPT-4、GPT-5,走Transformer 这条路也未必是错的。大模型时代,大家都在赌。

但实现 AGI,Transformer 是否是唯一的路径,也未可知。目前能够确定的,是 Transformer 形成的垄断很难被打破,无论是从资源还是生态,当下的非 Transformer 研究都比不过。

据了解,目前研究大模型非 Transformer 新架构的团队,要么在学术界,要么是如 RWKV 这样的创业团队,很少有大公司投入一个大的团队来研究新架构,所以在资源上,跟 Transformer 相比,非Transformer 研究的差距还很大。

此外,挡在前面最大的阻碍是 Transformer 日益坚固的生态护城河。

现在,无论是硬件、系统、应用,都是围绕 Transformer 做适配、优化,使得开发其他架构的性价比降低,导致想要开发新的架构越来越难。

在测评这块,许多测评设计任务的方式,都在偏向 Transformer 架构,意思是它设计的任务可能只有 Transformer 的模型能做出来,非Transformer 做不出来、或者难度加大。这种设计能够展示 Transformer 的优势,但对其他架构并不友好。

MIT的博士生、flash-linear-attention 项目负责人杨松霖就曾告诉 AI 科技评论,当下非 Transformer 研究面临的阻碍之一是评估方式——单纯看Perplexity(困惑度),非 transformer 其实跟 Transformer 的模型相比没有差距,但很多实际能力 (如in-context copy and retrieval)依然差距很大。她认为当前的非 Transformer 模型缺乏更全面的评估方式,方能改进与 Transformer 之间能力的差距。

毫无疑问,当下 Transformer  的地位依然无可撼动,依然是当下最强大的 AI 架构,然而,在回音室效应之外,开发下一代人工智能架构的工作正如火如荼进行着。

打破垄断固然不易,但根据科技发展的规律,很难有一个架构能永远一统江湖。未来,非 Transformer 需要继续证明自己的天花板有多高,Transformer 架构也同样如此。

本文作者(vx:zzjj752254)长期关注AI大模型领域的人、公司、商业化落地与行业动态,欢迎交流。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

谁将替代 Transformer?

阅读全文
相关推荐

香港首个商业AI展「AI+ Power 2025」盛大开幕,本地及海外行业精英齐聚共探AI发展

香港首个商业AI展「AI+ Power 2025」盛大开幕,本地及海外行业精英齐聚共探AI发展
香港,2025年6月5日)——由BUSINESS GOVirtualBGOV)主办的「AI+ Power 2025」今日在香港会议展览中心举行。作为香港首个聚焦商业AI应用的行业盛会,展会汇聚本地及海 ...

谷歌超 25 亿美金收购 Character AI;曝英伟达 AI 芯片遇重大设计缺陷,数百亿美元订单将受影响丨AI情报局

谷歌超 25 亿美金收购 Character AI;曝英伟达 AI 芯片遇重大设计缺陷,数百亿美元订单将受影响丨AI情报局
今日融资快报谷歌超 25 亿美金收购 Character AI 并收编团队Character.AI 在官方博客 C.AI 上宣布了与 Google 的并购协议。谷歌已同意支付模型授权费,并聘请其核心创 ...

腾讯元宝治好了我的信息焦虑症。

腾讯元宝治好了我的信息焦虑症。
作者:马蕊蕾 林杰鑫编辑:林杰鑫最近翻相册的时候翻到3月份的一张图片,恍惚间发现从事AI之后自己的阅读量一直在暴涨。大模型重构了很多行业工作流中的思考角色,也导致在这个行业的人一直都有信息摄取焦虑症。 ...

发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速

发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速
8月21日,火山引擎AI创新巡展在来到上海。此次巡展会,火山引擎发布了豆包大模型的一系列产品升级,并携手多点 DMALL 成立零售大模型生态联盟。火山引擎总裁谭待表示,较3个月前,最新版豆包大语言模型 ...

拓元智慧完成近亿元人民币Pre

拓元智慧完成近亿元人民币Pre
作者 | 赖文昕编辑 | 陈彩娴近日,拓元智慧X-Era AI)宣布成功完成 Pre-A 轮融资,融资金额接近一亿人民币。此轮融资由粤科金融集团、鹏城愿景基金、红鸟启航基金等投资机构共同参与。早在 2 ...

OpenAI 终于发布 GPT

OpenAI 终于发布 GPT
美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海内外引起了广泛关注。此前,OpenAI 凭借 GPT-3 开拓了 AI 模型的“暴力美学”时代,同时也以训练 ...

为人工智能赋予机器人躯体的“登月计划”项目,倒在具身智能热潮之前

为人工智能赋予机器人躯体的“登月计划”项目,倒在具身智能热潮之前
仿生人会梦见电子羊吗?或许答案就在现代机器人的世界里。Google X 前任副总裁、Everyday Robots 前任 CEO Hans Peter Brondmo 说,在 Everyday Rob ...

阿里云CTO周靖人:阿里云百炼服务客户数从9万增长至23万,涨幅超150%

阿里云CTO周靖人:阿里云百炼服务客户数从9万增长至23万,涨幅超150%
7月5日,在上海世界人工智能大会上,阿里云CTO周靖人公布近期通义大模型和阿里云百炼平台的最新进展。近2个月,通义千问开源模型下载量增长2倍,突破2000万次,阿里云百炼服务客户数从9万增长至23万, ...

第十六届信息安全高级论坛暨2024 RSAC热点研讨会圆满落幕

第十六届信息安全高级论坛暨2024 RSAC热点研讨会圆满落幕
6月7日,由中国计算机学会主办,中国计算机学会计算机安全专委会、绿盟科技集团、360集团承办的“第十六届信息安全高级论坛暨2024 RSAC热点研讨会”在北京圆满落幕。大会汇聚政、产、学、研各方力量, ...

IJCAI 2024:论文提交量增加了23.8%,但录用率并无上升

IJCAI 2024:论文提交量增加了23.8%,但录用率并无上升
作者丨张进 王悦编辑丨陈彩娴北京时间 8 月 9 日下午四点,第 33 届国际人工智能联合会议 IJCAI 正式结束,此次大会为期 7 天,于 8 月 3 日到 8 月 9 日在韩国济州岛举行,所有相 ...

图灵奖遗忘的AI之父,GAI时代再发声:Jurgen重谈AI“创业”史

图灵奖遗忘的AI之父,GAI时代再发声:Jurgen重谈AI“创业”史
最近人工智能领域战火纷飞,各种观点打架。脾气火爆的人工智能之父Jürgen Schmidhuber也不断吐槽自己“被遗忘”了,不满之余还不忘四处宣讲自己全新的人工智能发展理念,誓要夺回大众视线。不久前 ...

AI 法律公司 Clio 获 9 亿美元融资;阿里云、腾讯云推出 Llama3.1 训练推理服务;可灵国际版上线丨AI科技评论

AI 法律公司 Clio 获 9 亿美元融资;阿里云、腾讯云推出 Llama3.1 训练推理服务;可灵国际版上线丨AI科技评论
今日融资快报AI 法律公司 Clio 完成 F 轮 9 亿美元融资AI 法律科技公司 Clio 宣布完成 F 轮 9 亿美元融资,估值达到 30 亿美元。Clio 的正式名称为 Themis Solu ...
返回顶部