搜索
当前所在位置:首页 >> 综合

【韩国旅游妹艳照流出】Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

发布时间:2025-09-13 17:37:17 作者:woyxj 点击:56818 【 字体:

昨天一早,榜作弊引Meta 了放出自家用了 20 万显卡集群训练出的热议 Llama 4 系列模型,其中包括 Llama 4 Scout、卡集Llama 4 Maverick 和 Llama 4 Behemoth。榜作弊引消息一出,热议直接引爆了大模型圈。卡集韩国旅游妹艳照流出

Meta 还特意强调,榜作弊引这些模型都经过了大量未标注的热议文本、图像和视频数据的卡集训练,视觉理解能力已经到了 Next level,榜作弊引有种在大模型领域一骑绝尘的热议既视感。

Llama 4 刷榜作弊引热议,卡集20 万显卡集群就做出了个这?榜作弊引

Meta GenAI 负责人 Ahmad Al-Dahle 也表示:“我们的开放系统将产出最好的小型、中型和即将出现的热议前沿大模型。”并附上了一张 Llama 4 的卡集性能对比测试图。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

紧接着,在大模型竞技场中 Llama 4 Maverick 的宿舍群聊截图外泄全集排名直接跃升到第二名,成为了第 4 个突破 1400 分的大模型。在开放模型排行榜上更是超越了 DeepSeek,直接上桌坐“主座”。

“首次采用 MoE 架构”、“千万 token 上下文”...一时间 Llama 4 就被贴满了各种 Title。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

但在一片赞美和吹捧声中,很快就有心细的网友发现了不对劲。这位网友用头段时间在 ? 上很火的让模型直出几何程序的方式来测试 Llama 4,但最终的结果是在画六角形内含一个受重力影响球的集合图像时,Llama 4 试了 8 次也错了 8 次,而反观 DeepSeek R1 和 Gemini 2.5 pro 则是一次正确。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

也有网友表示对 Llama 4 的表现感到非常失望。按照以往惯例,更新了版本号的模型在性能上应该有很大的突破,而 Meta 憋了这么久才舍得放出来的 Llama 4 非但没有进步,在测试中的表现还不如一些现有的大模型。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

还有网友非常贴心的给出 Llama 4 系列的模型能力找了个参照物:“Llama 4 maverick 这个 402B 的大模型,大概跟 Qwen QwQ 32B 写代码水平一致,而 Llama 4 scout 则近似于 Grok2 或者 文心 4.5。”

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

Llama 4:超级刷榜选手

在官方给出的数据中,Llama 4 的能力妥妥碾压了一众大模型,但在网友们的实际测试中,Llama 4 却显得很拉跨,越测越觉得离谱的网友们不由得怀疑,扎克伯格是不是给自家模型偷偷刷榜了?

经过网友们的多方证实,最后发现,嘿!还真是刷的。

其实如果认真看 Ahmad Al-Dahle 发布的 Llama 性能对比测试图最下面一行的小字,你就会发现上面写着“Llama 4 Maverick 针对对话进行了优化”,而 Meta 其实早就给自己留了个“图片仅供参考,一切以实物为准”的心眼。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除了破解 Meta 官方的字谜游戏外,网友们也带着 Llama 4 进出于各大测试榜单中。

他们先是把 Llama 4 拉到了著名的 code 测试榜单 Aider ployglot 中,最终的得分比 qwen-32B还低。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

在另一个代码评测榜单中,Llama 4 的成绩也只能排在中间位置。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除此之外,网友们发现在 EQBench 测评基准的长文章写作榜上,Llama 4 系列也是直接垫底。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

而即使是最基础的翻译任务,网友们也表示 Llama 4 的表现也是比 3.3 的 70b 还要差得多,甚至还不如 Gemma 3 的 27B。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

混乱的 Meta

正在网友们风风火火测评 Llama 4 的真实成绩时,一则发布在海外的求职平台一亩三分地上的内容更是直接给Llama 4 的作弊传闻填了一把柴。

文中提到 Llama 4 的训练存在严重问题,并且内部模型的表现仍然未能达到开源 SOTA,甚至与之相差甚远,而  Llama 4 的高分也确实是领导层为了能够在各项指标上交差所做出的“努力”。而这个则消息的爆料者,很可能来自 Meta 公司内部。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除此之外也有其他的 AI 从业者在线吐槽,表示“我们都被耍了,Llama 4 不过是一个早早被设计好的实验版本。”

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

还有前 Meta 员工站出来指出公司在产品研发方面存在巨大漏洞,并表示 Llama 系列模型的信息泄露问题其实从 Llama 1 就已经存在了。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

而在 Llama 4 发布的几天前,Meta AI 研究副总裁 Joelle Pineau 就在 Linkedin 发文称自己已经申请将在 5 月份离职,不由得让人们将这件事与 Llama 4 作弊刷榜的事情联系到一起。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

不少人疑惑,为什么一向崇尚“大力出奇迹”的 Meta 这次的翻车力度这么大,明明有钱、有卡、有数据,但模型创新能力依旧不足,还要靠作弊刷榜来找存在感?

一个坊间流传的观点是,Meta内部研究人员压力过大,因为他们需要做出成果,给公司一个好的交代,因此会求稳,更加偏向于更能做出成果的事情,而真正重要的内容,比如基础设施的迭代、新算法的实验,这些需要大量时间去做出成果的内容,却往往没有人愿意去做。

这也导致了 Meta 很难在大模型市场上继续做出向 DeepSeek R1 这样轰动整个 AI 领域的东西,而还没有发布的超大杯 2T 参数模型也应证着这个观点:Meta 其实还没有更好的想法。

反观以研究为导向的 DeepSeek,其实一直在探索新的架构。DeepSeek 团队先是提出了强化学习里的神奇算法 GRPO,紧接着在 DeepSeek v2 时提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上,后来发布的全新注意力架构 NSA 更是实现了超高速长上下文训练与推理。

回到 Llama 4  这边,根据AI科技评论的了解,对大模型架构有研究的专业人士认为,Llama 4 非常缺乏技术创新,比如说,在后训练阶段还在死守DPO。而此前的一系列理论和实验都表明 DPO 的泛化能力,“比PPO差得远”。PPO在实际使用中需要调的细节很多,不易上手。在DeepSeek提出GRPO以后,越来越多的研究者开始使用GRPO及其改版。 Meta 还继续坚持用着 DPO 而不选择创新,这么来看 Llama 4 做成如此也属于意料之中。

常人没法用,专家用不着

而最让人失望的是,Llama 4 系列的模型都无法放入家用电脑,并且 Llama 4 除了一直在宣传的 10M 上下窗口外,貌似已经没有任何优势,而这一点对于大多数人来说其实并不是必需的内容。

除此之外,GPT 4o, Gemini 2.5 Pro 这些拥有生图能力的模型型号已经正式推出,而 Grok3、Gemini 2 Flash 等多模态模型也已经开始广泛开放,这也意味着更多的人没有再用 Llama 4 的理由,或者说,Llama 4 本身没有太强的市场竞争力。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

反观这次 Llama 4 的翻车事件,不难看出其实 Llama 4 系列模型很可能是 Meta 在追赶大模型潮流的战略布局中的一枚重要棋子,但却因为太过于“急功近利”而选择作弊,导致直接失去了社区的支持,进而失去了自身的竞争优势。

并且 Llama 2、Llama 3 的时代已经过去,选择 Llama 作为基座的开源模型只会越来越少,雷峰网(公众号:雷峰网)认为对于 Meta 来说,与其选择作弊刷榜博眼球,不如想想如何创新,如何提高社区适用度,能不能追上最前端的技术暂且放一边,最重要的是先把口碑先赚回来。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

阅读全文
相关推荐

WAIC最强亮点:非Transformer离线AI大模型已大规模量产,大模型商业比我们想得更快

WAIC最强亮点:非Transformer离线AI大模型已大规模量产,大模型商业比我们想得更快
Rock是石头,石头是这个世界最基本的组成元素,坚硬、基础、随处可见。RockAI希望成为智能世界的石头。01离线智能据AI科技评论了解,在发布的18个月里,已经有量产设备搭载了Yan的大模型能力,这 ...

通用3D机器视觉平台是不是伪命题?

通用3D机器视觉平台是不是伪命题?
机器视觉是工业制造向“智造”升级的重要一环。从技术发展的趋势看,工业机器视觉正在经历从2D到3D的蝶变。3D视觉的价值在于,多一维度的信息数据主要是空间坐标),能满足对体积、形状、距离等信息测量的需要 ...

多模态AI技术「涌现」,AI公司的「新机会」

多模态AI技术「涌现」,AI公司的「新机会」
ChatGPT-4的横空出世,让AI行业再一次柳暗花明。某AI企业人士如此评价GPT-4的进步:“GPT-3或3.5像一个六年级学生,而GPT-4像一个聪明的十年级学生。”即将毕业的小学生与新晋高中生 ...

超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办

超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办
9月24日,由南方科技大学、腾讯公司共同主办的第三届“青年科学家50²论坛”在深圳开幕。韩启德、窦贤康、薛其坤、潘建伟等知名科学家,超过50位两院院士,20位大学校长、副校长,50多位新基石研究员,近 ...

下注端到端:一场具身智能的谨慎豪赌

下注端到端:一场具身智能的谨慎豪赌
作者 | 赖文昕编辑 | 陈彩娴上个月末,世界机器人大会WRC 2024)在北京刚刚结束,27 款人形机器人果然成为了会场中的主角。夹爪叠衣服、做汉堡,灵巧手抓鸡蛋、演手舞,轮式进商超,双足满场逛.. ...

大模型时代的三道鸿沟:数据、成本与想象力

大模型时代的三道鸿沟:数据、成本与想象力
跨入2023年,大模型兴起、诸多公司「跑步进场」的头几个月,大模型一边倒向 C 端类 ChatGPT 的研发,对成本、效率更敏感的企业客户似乎不在关注焦点。然而近两个月,情况发生了变化。基于医疗、金融 ...

独家回应丨阿里 VP 贾扬清将离职创业,将瞄准 AI 架构方向

独家回应丨阿里 VP 贾扬清将离职创业,将瞄准 AI 架构方向
作者丨New Bing编辑丨董子博据悉,阿里巴巴集团副总裁贾扬清将于近期离职创业,他的创业方向将聚焦于人工智能架构领域,目前已获得了首轮融资意向。贾扬清是国际知名的AI科学家,来到阿里体系前,曾在谷歌 ...

山海大模型发布:11年的积累,云知声如何翻越“山海”

山海大模型发布:11年的积累,云知声如何翻越“山海”
通向大模型彼岸的方法不止一种,正如爱因斯坦在1905年就推导出质能转换公式,但中国制造原子弹的“596工程”就不是完全照搬美国的“曼哈顿工程”。作者丨史林编辑丨董子博2022年,刚刚试用了ChatGP ...

四个月融两轮,千寻智能获 2 亿元天使轮融资;大模型公司卓世科技获亿元人民币 B+ 轮融资;小鹏机器手首次亮相丨AI情报局

四个月融两轮,千寻智能获 2 亿元天使轮融资;大模型公司卓世科技获亿元人民币 B+ 轮融资;小鹏机器手首次亮相丨AI情报局
今日融资快报四个月融两轮,具身智能机器人公司千寻智能获得2亿人民币天使轮融资千寻智能创始人兼CEO韩峰涛在机器人行业拥有十余年丰富经验,曾任珞石机器人联合创始人&CTO,是国内高性能轻型工业机 ...

大模型助力企业数据驱动,火山引擎数智平台发布 AI 助手

大模型助力企业数据驱动,火山引擎数智平台发布 AI 助手
9月19日,火山引擎在其举办的“V-Tech数据驱动科技峰会”上宣布,火山引擎数智平台VeDI推出“AI助手”,通过接入人工智能大模型,帮助企业提升数据处理和查询分析的效率。即使是不会写代码的运营人员 ...

对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型

对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型
作者丨王悦编辑丨董子博“今年的数字人市场迎来了天翻地覆的变化。”中科深智创始人成维忠对目前国内的数字人市场如是评价。过去,国内数字人企业真正做技术的并不多,大部分以IP打造为主。出道即巅峰的虚拟美妆达 ...

蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO

蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO
「打造中国OpenAI」,「西湖心辰」这家创立时间不到两年的小公司怎么敢夸下海口?相比于国内的其他创业团队,心辰具有以下几大优势:1.在大模型的研究和商业化落地要早一年。积累了超过百万的用户,并训练出 ...
返回顶部