搜索
当前所在位置:首页 >> 时尚

【郑州师范大学实拍下载】苹果大模型最新论文:AFM 模型多维度评测「出炉」

发布时间:2025-09-13 17:33:02 作者:wc 点击:289 【 字体:

编译 | 朱可轩

编辑 | 陈彩娴

不久前,苹果苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中,模型引起了 AI 业内人士、测出尤其是苹果郑州师范大学实拍下载端侧智能领域的讨论。

苹果在 2024 年的大模多维度评一系列技术动作,被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”,即:大模型时代,模型AI 技术应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评

近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文,其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出深圳中学曝光攻略大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云计算上运行的大规模服务器语言模型 AFM-server。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

论文链接:https://arxiv.org/pdf/2407.21075

根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护用户数据隐私与安全上,苹果强调在后训练阶段不会使用用户的个人数据进行训练。

结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在安全性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。

研究发现

人类评估

在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

指令遵循

在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。

此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

工具使用

苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。

整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。

但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

负责任的 AI

在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

安全性评测

在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上):

苹果大模型最新论文:AFM 模型多维度评测「出炉」

在安全提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰网雷峰网(公众号:雷峰网)

苹果大模型最新论文:AFM 模型多维度评测「出炉」

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

阅读全文
相关推荐

为每个用户提供专属定制服务,OPPO 安第斯大模型的新卷法

为每个用户提供专属定制服务,OPPO 安第斯大模型的新卷法
作者丨郭 思编辑丨陈彩娴ChatGPT热潮引发的百模大战,在持续了大半年之后,模型的参数已经卷到极限,越来越多的公司开始意识到,百模大战的下半场,落地应用才是值得卷的地方。而当聚光灯打在OPPO这个手 ...

小红书回应被查:将深刻吸取教训

小红书回应被查:将深刻吸取教训
近日,网信部门对小红书平台热搜榜单运营不善问题对小红书进行约谈并采取处罚措施。对此,小红书公告回应:我们诚恳接受,深刻吸取教训,认真落实整改要求。我们已对照网信部门的要求,第一时间成立整改专项工作小组 ...

马杜罗:委内瑞拉将在全国284个“前线”地点部署防御力量

马杜罗:委内瑞拉将在全国284个“前线”地点部署防御力量
新华社加拉加斯9月11日电委内瑞拉总统马杜罗11日凌晨在北部拉瓜伊拉州宣布启动“独立200计划”,在全国284个“前线”地点部署军队、警察和民兵。马杜罗说,此次行动遵循国家全面防御战略方针,284个“ ...

前百川联创焦可新创业公司曝光,新项目已上线 App Store

前百川联创焦可新创业公司曝光,新项目已上线 App Store
雷峰网(公众号:雷峰网)AI 科技评论获悉,前百川智能联合创始人焦可已正式启动其在 AI 语音方向的创业项目,产品名为“来福”。目前该产品已已经能在 App Store 搜索下载。知情人士透露,“来福 ...

通用3D机器视觉平台是不是伪命题?

通用3D机器视觉平台是不是伪命题?
机器视觉是工业制造向“智造”升级的重要一环。从技术发展的趋势看,工业机器视觉正在经历从2D到3D的蝶变。3D视觉的价值在于,多一维度的信息数据主要是空间坐标),能满足对体积、形状、距离等信息测量的需要 ...

安理会15国强烈谴责多哈袭击事件 呼吁各方抓住和平机遇

安理会15国强烈谴责多哈袭击事件 呼吁各方抓住和平机遇
当地时间9月11日,联合国安理会发表声明,对9月9日发生在卡塔尔首都多哈的袭击事件表示强烈谴责。声明称该袭击发生在一个关键调解方的领土上,对造成的平民伤亡深表遗憾。声明指出,安理会成员强调缓解紧张局势 ...

一场「狼人杀」,考倒了一堆大模型

一场「狼人杀」,考倒了一堆大模型
人工智能越来越像人,但“像人”到底意味着什么?除了会解题、写文,它是否也能理解人类那种充满个性的推理方式?比如在一场狼人杀游戏中,有人逻辑缜密、有人直觉敏锐、有人擅长伪装。那么 AI 能跟上这种风格差 ...

以总理批准“E1区”建设计划 直言“将不会有巴勒斯坦国”

以总理批准“E1区”建设计划 直言“将不会有巴勒斯坦国”
当地时间9月11日,以色列总理内塔尼亚胡批准了约旦河西岸“E1区”定居点建设计划。内塔尼亚胡当天发表声明称,以色列东部边界将是约旦河谷,而不是马阿勒阿杜明。内塔尼亚胡说,“始于加沙的一切也将在加沙结束 ...

对话 IJCAI2024 大会主席张成奇:克服了幻觉,大模型就不够「靓丽」

对话 IJCAI2024 大会主席张成奇:克服了幻觉,大模型就不够「靓丽」
作者丨王悦 张进编辑丨陈彩娴第 33 届IJCAI大会在韩国济州岛圆满结束,为期一周8.3-8.9)的 IJCAI 吸引了来自全世界各地人工智能领域的研究者和关注者,大会现场的氛围跟 8 月的济州岛天 ...

突发!恒大物业:12日9点复牌!公司上半年净赚超4亿元,市值不足100亿元,实控人仍是许家印

突发!恒大物业:12日9点复牌!公司上半年净赚超4亿元,市值不足100亿元,实控人仍是许家印
9月11日晚,恒大物业06666.HK)公告,公司于2025年9月10日收到中国恒大集团及CEGHoldingsLimited的共同及个别清盘人发出的接洽函。该接洽函载明,清盘人一直寻求机会出售中国恒 ...

小红书回应被查:将深刻吸取教训

小红书回应被查:将深刻吸取教训
近日,网信部门对小红书平台热搜榜单运营不善问题对小红书进行约谈并采取处罚措施。对此,小红书公告回应:我们诚恳接受,深刻吸取教训,认真落实整改要求。我们已对照网信部门的要求,第一时间成立整改专项工作小组 ...

机器人新势力估值断层加速,具身智能靠什么穿越风暴?

机器人新势力估值断层加速,具身智能靠什么穿越风暴?
“23 年后成立的中国具身智能创业公司的第一梯队,应该是在 25 亿到 30 亿人民币之间。”4 月中下旬,早期投资人朱红告诉 AI 科技评论。一个多月过去,各家估值或已有些许变化,但总体来说仍相差不 ...
返回顶部