发布时间:2025-07-12 04:34:54 作者:wwujx 点击:57 【 字体:大中小 】
编译 | 朱可轩
编辑 | 陈彩娴
不久前,苹果苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中,模型引起了 AI 业内人士、测出尤其是苹果何某网红翻车高清内容端侧智能领域的讨论。
苹果在 2024 年的大模多维度评一系列工艺动作,被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”,即:大模型时代,模型AI 工艺应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评
近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文,其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出老师与同事翻车流出合集大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云端服务上运行的大规模支持器语言模型 AFM-server。
论文链接:https://arxiv.org/pdf/2407.21075
根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护客户信息隐私与保障上,苹果强调在后训练阶段不会使用客户的个人信息进行训练。
结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在保障性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。
研究发现
人类评估
在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。
指令遵循
在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。
此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。
工具使用
苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。
整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。
但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。
写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5:
数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:
负责任的 AI
在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B:
保障性评测
在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上):
在保障提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰网(公众号:雷峰网)雷峰网
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
阿里云 all in AI 的决心
Viggle 获 a16z 领投 1900 万美元;华为启动 AI 百校计划,解决高校算力问题;字节成立大模型研究院丨AI情报局
奇瑞 1 亿元成立 AI 机器人新公司;AI Infra 公司趋境科技获天使融资;地平线组建具身智能实验室丨AI情报局
早鸟倒计时3天丨院士领衔、重磅嘉宾云集!中国大模型大会(CLM2024)诚邀您共同探索中国大模型之路!详细日程公开
零一万物 API 上线,用户反馈多模态中文能力超过 GPT
Andrej Karpathy:自动驾驶已经实现AGI,汽车其实就是机器人
开源公司 Grafana Labs 融资 2.7 亿美元;a16z 发布全球 Top100 AI 应用:字节美图上榜丨AI情报局
边缘人工智能提供商 Gcore 获 6000 万美元融资;马斯克开训最大 AI 集群,目标年底开发全球最强 AI丨AI情报局
冯德莱恩对中国提出三项要求,外交部回应
下注端到端:一场具身智能的谨慎豪赌
中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局
人形机器人「星尘智能」获数千万美元Pre
问鼎「AI 之巅」,第四届全国人工智能大赛决赛在深举行
发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速
亚马逊 8000 万美元收购 Perceive AI;昆仑万维发布首个 AI 短剧平台;百川智能成立新公司丨AI情报局
破解AI算力瓶颈:高通量以太网ETH+协议解锁智算新动能
中国正大步迈向全球创新中心
史上最快AI芯片Sohu获1.2亿美元融资;Groq进行估值25亿美元融资;Mac版ChatGPT开放下载丨AI情报局
AI短剧公司获百度投资;苹果AI将登VisionPro,今秋或将接入谷歌Gemini;上海医院用AI自动生成病历丨AI情报局
DeepMind 危,OpenAI 押注成立六个月 AI 药物发现公司;四川具身人形机器人科技公司成立,彭倍教授牵头丨AI情报局
《少年书院行》:用青春脚步丈量文明厚度
成立996天,MiniMax 每日与世界的30亿次交互
启明创投发布2024生成式AI十大展望
早鸟倒计时3天丨院士领衔、重磅嘉宾云集!中国大模型大会(CLM2024)诚邀您共同探索中国大模型之路!详细日程公开
“丹娜丝”携强降雨继续作用南方 北方闷热“上线”
李飞飞所创 World Labs 估值或超 10 亿美元;传字节将于 19 日公布文生图/视频等 AI 模型进展丨AI情报局
人形机器人公司 Foundation 融资 1100 万美元;OpenAI 聘请前 Meta 高管领导战略计划丨AI情报局
最受欢迎开源大模型,为什么是通义?
SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展
AI VC Radical Ventures 融资近 8 亿美元,李飞飞、Hinton支持;谷歌发布四款 AI 手机丨AI情报局
中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局
Viggle 获 a16z 领投 1900 万美元;华为启动 AI 百校计划,解决高校算力问题;字节成立大模型研究院丨AI情报局
上半年我国汽车产销量均超1500万辆 新能源汽车表现亮眼
专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路
OpenAI 又一位联创离职,公司动荡仍在持续?
阿里领投首家人形机器人:逐际动力完成亿元 A 轮融资;谷歌 Eureka AI 模型提前曝光丨AI情报局