搜索
当前所在位置:首页 >> 综合

【武汉高中实拍评论】CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

发布时间:2025-09-13 17:23:01 作者:cfhu 点击:881 【 字体:


最近谷歌发布的最i综 Gemini 格外引人注目,其号称是新研第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,合不还需Gemini 的谷歌“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的努力“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的最i综武汉高中实拍评论较量,美国卡内基梅隆大学近日展开了一项研究,新研深入探讨了谷歌 Gemini 的合不还需语言理解和生成能力,并将其与 OpenAI 的谷歌 GPT 系列作了对比,得到了有趣的努力结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,最i综谷歌还需努力

论文地址:https://arxiv.org/pdf/2312.11444.pdf


一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的合不还需这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的谷歌能力进行了第三方客观比较,并提供了可重现的努力代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、苏州理工大学门事件推荐语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)


二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

知识图谱问答能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

推理能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

数学能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

代码生成能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

机器翻译能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。


雷峰网(公众号:雷峰网)雷峰网雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

阅读全文
相关推荐

知名网红民警“江宁婆婆”谈于朦胧去世排除刑事案件

知名网红民警“江宁婆婆”谈于朦胧去世排除刑事案件
9月11日,@于朦胧工作室 称:于朦胧于2025年9月11日坠楼身故。经警方工作,已排除刑事嫌疑。9月11日晚,知名网红民警、南京市江宁区民警@江宁婆婆发文:看到了很多阴谋论,那我说一下这个事。点击进 ...

何恺明 MIT 最新演讲:未来工作将聚焦 AI for science

何恺明 MIT 最新演讲:未来工作将聚焦 AI for science
作者 | 黄楠编辑 | 陈彩娴又一名 AI 大神有了新动向!当地时间3月13日下午3点,何恺明在MIT做学术演讲。据现场网友所述,即便自己提前半小时去到现场,但仍挤不进会场,仅排队就拐了几个弯,MIT ...

基于昇腾AI的辽宁首个大模型发布:融合多模态信息,模型参数规模10亿

基于昇腾AI的辽宁首个大模型发布:融合多模态信息,模型参数规模10亿
3月11日,“创未来,享非凡”昇腾AI开发者创享日2023年全国巡回首站活动在沈阳成功举办。活动现场,会议诠释昇腾AI如何通过计算架构创新及全栈系统的协同优化,展示浑南及辽沈地区昇腾人工智能产业发展的 ...

山海大模型发布:11年的积累,云知声如何翻越“山海”

山海大模型发布:11年的积累,云知声如何翻越“山海”
通向大模型彼岸的方法不止一种,正如爱因斯坦在1905年就推导出质能转换公式,但中国制造原子弹的“596工程”就不是完全照搬美国的“曼哈顿工程”。作者丨史林编辑丨董子博2022年,刚刚试用了ChatGP ...

AI 搜索向左,搜索 OG 向右

AI 搜索向左,搜索 OG 向右
作为 AI 世界的领头羊,OpenAI 发布的 SearchGPT 再次给 AI 搜索加了一把火。这把火原本由 Perplexity 引燃,在美国烧及 Google 和微软,在中国引发了百度、360 ...

周志华当选新一任国际人工智能联合会(IJCAI)理事会主席

周志华当选新一任国际人工智能联合会(IJCAI)理事会主席
AI 科技评论获悉:8 月 21 日,在第 32 届国际人工智能联合会议IJCAI)大会举办期间,IJCAI 执行委员会选举出了新任 IJCAI 理事会理事IJCAI Trustee)及理事会主席人选 ...

做大模型时代的「Linux」, ChatGPT 仅是开端

做大模型时代的「Linux」, ChatGPT 仅是开端
作者 | 李梅编辑 | 岑峰一代人的时间里总会有几次这样的时刻:一种产品的出现将一项技术从昏暗的工程系地下室、臭气熏天的书呆子们的卧室和业余爱好者们孤独的洞穴中弹射出来,变成了连你的祖母都知道如何使用 ...

对话爱莫科技杨恒:15年数据仿真研发遇上大模型浪潮

对话爱莫科技杨恒:15年数据仿真研发遇上大模型浪潮
作者:孙溥茜编辑:陈彩娴受访人:杨恒现任深圳爱莫科技有限公司创始人&CEO剑桥⼤学博⼠后、伦敦⼤学博士、国防科大本硕复旦大学、西电、深圳大学兼职教授、校外硕士生/博士生导师深圳市海外高层次人次 ...

2023 诸葛智能春季发布会举办,三大产品全面升级助力企业数字化新经营

2023 诸葛智能春季发布会举办,三大产品全面升级助力企业数字化新经营
近年来,随着各行各业数字化转型的步伐加快,数据越来越成为企业生产与管理的核心资产,数据智能也已成为企业寻求经营变革、驱动业务增长的重要支撑。3月22日,容联云旗下敏捷开放的场景化数据智能服务商——诸葛 ...

盛邀相聚沈阳,助力数字中国建设,CNCC2023新闻发布会在京举办

盛邀相聚沈阳,助力数字中国建设,CNCC2023新闻发布会在京举办
2023年9月2日,2023中国计算机大会CNCC2023)新闻发布会在北京举行。新华社、中青报、科技日报、中国科学报、光明日报、工人日报、中国工业报、南方都市报、人民网、央视网、凤凰网等20家媒体出 ...

大模型行至深处,「悟道」如何走好全面开源之路?

大模型行至深处,「悟道」如何走好全面开源之路?
2021年,智源发布了“悟道 1.0 ”与 “悟道 2.0”。“悟道 1.0”是当时中国首个超大模型,“悟道 2.0”发布时成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI ...

对话爱莫科技杨恒:15年数据仿真研发遇上大模型浪潮

对话爱莫科技杨恒:15年数据仿真研发遇上大模型浪潮
作者:孙溥茜编辑:陈彩娴受访人:杨恒现任深圳爱莫科技有限公司创始人&CEO剑桥⼤学博⼠后、伦敦⼤学博士、国防科大本硕复旦大学、西电、深圳大学兼职教授、校外硕士生/博士生导师深圳市海外高层次人次 ...
返回顶部