搜索
当前所在位置:首页 >> 点讯

实测:ChatGPT的翻译能力怎么样?

发布时间:2025-07-12 04:20:05 作者:phvu 点击:5 【 字体:

在今天,实测狂热追捧ChatGPT,翻译仿佛已经成为了一种“政治正确”。实测

ChatGPT一出,翻译学界、实测工业界无不惊为天人。翻译北京学院门事件评价一位研究机构的实测资深研究员就对AI科技评论说过:“ChatGPT出来,直接给我们整不会了——生成做的翻译比我们好就不说了,NLP(自然语言处理)能力还比我们强不少。实测”

微软注资百亿美元,翻译谷歌则如临大敌,实测ChatGPT在科技圈里掀起的翻译巨浪,仍是实测现在进行时。

但是翻译,ChatGPT并非“万能钥匙”——大模型在某些专业领域的实测准确度,仍然无法超越其他垂类产物。近日,腾讯AI Lab 就通过实验证明,在机器翻译领域,天津理工大学偷拍视频推荐ChatGPT在某些情况下,能力弱于其他商业翻译产物。

实测:ChatGPT的翻译能力怎么样?论文地址:https://arxiv.org/pdf/2301.08745v1.pdf


1
ChatGPT是个好翻译吗?


腾讯AI Lab的调查文指出:

首先,在高资源环境——如欧洲语言上——ChatGPT的表现与商业翻译产物(如谷歌翻译、DeepL Translate)相比具有竞争力,但是,在低资源环境——如古代语言——明显落后;

其次,在翻译的鲁棒性上,ChatGPT在生物医学摘要、或Reddit评论方面表现不如商业翻译产物,但是在口语方面也许会是一个很好的翻译工具。

为了更好地理解ChatGPT的翻译能力,腾讯AI Lab从以下三个方面开展实验:

提示词(Prompt)翻译:ChatGPT是一个大型语言模型,在翻译时需有提示词(Prompt)作为引导才能引导系统进行翻译。所以,提示词的风格会作用翻译输出的质量。例如,在多语言机器翻译模型中,如何将两种语言信息联系起来非常关键,这通常是通过附加语言标记来解决。

多语言翻译:ChatGPT是一个处理各种NLP任务并涵盖不同语言的单一模型,可以被视为一个统一的多语言机器翻译模型。因此,ChatGPT在资源差异(如高与低)和语系差异(如欧洲与亚洲)上的表现是该实验所探讨的重点之一。

翻译鲁棒性:ChatGPT是基于GPT-3开发的模型,GPT-3在涵盖各种领域的大规模信息集进行上训练,因此,在特定领域的表现,是这次研究者们的重点之一。

提示词翻译

为了设计触发ChatGPT机器翻译能力的提示词,腾讯AI Lab团队向ChatGPT提出以下prompt:

提供十个可以让你翻译的简明提示或模版

并获得图1中的结果:

实测:ChatGPT的翻译能力怎么样?图1: ChatGPT推荐的10个可引发其进行机器翻译的prompt

生成的提示语看起来很合理,但是都有相似的格式,研究人员将它们总结成三个候选prompt(如图2),其中[SRC] 和 [TGT] 分别代表翻译的源语言和目标语言。另外,研究人员在Tp2中增加了一个额外命令,要求ChatGPT不要在翻译的句子上加双引号(在原始格式中经常发生)。尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。实测:ChatGPT的翻译能力怎么样?

图2:候选翻译提示

研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3显示了ChatGPT和其他三个翻译软件的结果。虽然ChatGPT提供了相当好的翻译,但它仍然落后于基线至少5.0个BLEU点。关于三个候选prompt,Tp3在所有指标方面表现的最好,因此在这篇论文中,研究者默认使用Tp3。

实测:ChatGPT的翻译能力怎么样?

图3:在中译英翻译任务中ChatGPT使用不同提示语的翻译表现对比

多语言翻译

腾讯AI Lab选择了四种语言来评估ChatGPT在多语言翻译中的能力,包括德语(De)、英语(En)、罗马尼亚语(Ro)和中文(Zh),这些语言在研究和竞赛中都被普遍采用。前三种语言同来自拉丁语系,而后一种则来自中文语系。研究人员测试了任意两种语言间的翻译表现,共涉及12次翻译。

资源差异

通过实验发现,在同语系中不同语言也存在资源差异。在机器翻译中,德英互译通常被认为是一个高资源任务,有超过1000万条语料。而罗马尼亚语与英语间互译语料要少得多。

如图4所示,ChatGPT在德译英和英译德上,与谷歌翻译和DeepL可以分庭抗礼;而在罗马尼亚语译英,和英译罗马尼亚语方面,则要明显落后。具体来说,ChatGPT在英译罗马尼亚语上获得的BLEU分数比谷歌翻译低了46.4%。

实测:ChatGPT的翻译能力怎么样?

图4:ChatGPT在多语言翻译中的表现

研究者认为,英语和罗马尼亚语之间的单一语言信息的巨大资源差异,限制了罗马尼亚语的语言建模能力,这部分解释了将英语翻译成罗马尼亚语表现差的原因。

相反,罗马尼亚语译成英语可以受益于强大的英语建模能力,使平行信息的资源缺口可以得到一定程度的补偿。

语系

同时,研究人员也考虑了语系的作用。

通常认为,对于机器翻译,不同语系之间的翻译通常比同一语系间翻译更难。研究人员发现,德英互译、汉英互译,或者德汉互译在文化和书写方式上存在差异。

另外可以发现,在这几种翻译中,ChatGPT和几款商业翻译软件间差距较大,研究者认为,这是因为在同一语系中知识转移比在不同语系间要好,对于既是低资源又来自不同语系的语言来说(如罗马尼亚语和汉语的互译),这种差距会进一步扩大。

由于ChatGPT在一个模型中处理不同的任务,低资源的翻译任务不仅与高资源的翻译任务竞争,而且还与其他NLP任务竞争模型容量,这说明其性能表现欠佳。

翻译鲁棒性

腾讯AI Lab进一步评估了ChatGPT在WMT19 Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性,这些测试集引入了领域偏见和潜在的噪声信息。

例如WMT19 Bio测试集是由Medline摘要组成的,这需要特定领域的知识处理,WMT20Rob2是来自Reddit的评论,可能包含各种错误,如拼写错误、单词遗漏、插入重复、语法错误、破坏性语言,和网络俚语等。图5列出了BLEU分数,显然ChatGPT在WMT19 Bio和WMT20Rob2测试集上的表现不如谷歌翻译和DeepL Translate。

实测:ChatGPT的翻译能力怎么样?

图5:ChatGPT在翻译鲁棒性方面的表现

原因可能在于,像谷歌翻译这样的商业翻译产物往往需要不断提高其翻译特定领域(如生物医学)或噪音句子的能力,因为它们是现实世界的应用,需要对分布之外的信息有更好地概括性,ChatGPT不太能够完成这一点。

不过,一个有趣的发现是,ChatGPT在包含众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepL Translate。这表明,ChatGPT本质上是一个机器智能对话工具,能够比商业翻译软件生成更自然的口语(见图6)。

实测:ChatGPT的翻译能力怎么样?

图6:来自WMT20鲁棒集set3的例子

2
ChatGPT应如何扬长避短?


从该研究可知,高举高打的ChatGPT每训练一次就耗费大量算力资源,但也不能在全领域尽善尽美。所以,一些人开始思考,是否应该“摒弃”大模型思路,转而去做“精耕细作”的小模型。

腾讯AI Lab在Chat GPT“测评”中提到,罗马尼亚语与英语互译,相较德英互译存在较大差距,原因在于:巨大资源差异,限制了罗马尼亚语的语言建模能力,也恰恰证明,AI学习能力常常受到低资源的掣肘。

但也有资深学者认为,尽管现时ChatGPT仍存在不少不足之处,但仍然对研究者和创业者有着不少启示。以ChatGPT为代表的AI 3.0走的是跟过去 AI 浪潮不一样的路,即更落地、更接近真实世界,在工业应用上,更直接,更落地,从学术研究到工业落地的路径也变得更短、更快。

未来,“helpful, truthful, harmless”的 AI 系统会成为现实。


雷峰网雷峰网(公众号:雷峰网)


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

实测:ChatGPT的翻译能力怎么样?

阅读全文
相关推荐

神舟十九号航天员乘组太空归来后首次公开亮相

神舟十九号航天员乘组太空归来后首次公开亮相
2025年7月9日下午,中国航天员科研训练中心在北京航天城举行神舟十九号乘组与记者见面会。这是航天员蔡旭哲、宋令东、王浩泽返回60余天后,首次面向媒体与公众正式公开亮相,并分享了183天太空驻留的经历 ...

金鹰卡通卫视《三孩来了3》: 唐九洲被萌娃盛赞“100块腹肌”,井胧带娃有梗超欢乐

金鹰卡通卫视《三孩来了3》: 唐九洲被萌娃盛赞“100块腹肌”,井胧带娃有梗超欢乐
来源标题:金鹰卡通卫视《三孩来了3》: 唐九洲被萌娃盛赞“100块腹肌”,井胧带娃有梗超欢乐金鹰卡通卫视宜品纯羊奶粉《三孩来了3》本期三组家庭分别迎来不同朋友来做客,井胧、唐九洲、苏醒三位组成&ldq ...

《友有游几天夏日限定》圆满收官:南波万夏日冒险全记录

《友有游几天夏日限定》圆满收官:南波万夏日冒险全记录
来源标题:《友有游几天夏日限定》圆满收官:南波万夏日冒险全记录6月15日,由芒果TV、小芒电商联合打造的青春旅行综艺《友有游几天夏日限定》圆满收官。这档节目以“有几天时间、有一帮朋友出去游 ...

世界首富马斯克妈妈爽文大女主人生,扬言100岁再退休

世界首富马斯克妈妈爽文大女主人生,扬言100岁再退休
来源标题:世界首富马斯克妈妈爽文大女主人生,扬言100岁再退休根据美国《新闻周刊》报道,马斯克资产大幅增加,净资产增加约200亿美元,其中约有130亿美元涨幅来自特斯拉股价的大幅上涨。福布斯实时亿万富 ...

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍
编译 | 郭 思编辑丨陈彩娴在实际应用大模型的过程中,尤其是处理长文本的上下文信息时,如何高效灵活地调度计算资源成为一个学术界与工业界共同关注的问题。大语言模型所能容纳的上下文长度直接影响了诸如 Ch ...

千名厂长直播间为中国制造代言,销售外贸优品25亿元

千名厂长直播间为中国制造代言,销售外贸优品25亿元
来源标题:千名厂长直播间为中国制造代言,销售外贸优品25亿元近日,抖音电商宣布启动“了不起的中国厂长”专项扶持计划,结合618大促活动,投入平台优势资源,帮助产业带制造型企业和 ...

新时代工艺美术作品巡展昆明站启幕,百件匠心之作诠释文化传承与创新

新时代工艺美术作品巡展昆明站启幕,百件匠心之作诠释文化传承与创新
来源标题:新时代工艺美术作品巡展昆明站启幕,百件匠心之作诠释文化传承与创新6月5日,“新时代工艺美术作品巡展第五站)”在昆明市博物馆隆重开幕。作为国家艺术基金2025年度重点资 ...

第五届“金豪笔编剧之夜”入围名单揭晓 183位优秀编剧携74部作品入围

第五届“金豪笔编剧之夜”入围名单揭晓 183位优秀编剧携74部作品入围
来源标题:第五届“金豪笔编剧之夜”入围名单揭晓 183位优秀编剧携74部作品入围6月9日,第五届“金豪笔编剧之夜”入围名单及终评评委名单揭晓,共有183位优秀编剧携74部作品入 ...

商务部:已部署开展打击战略矿产走私出口专项行动

商务部:已部署开展打击战略矿产走私出口专项行动
7月10日,商务部召开例行新闻发布会。有记者提问,有报道称,锑和镓等关键矿产正在通过转运方式运往美国。中国政府是否已采取任何措施打击关键矿产的转运和走私行为?商务部新闻发言人何咏前表示,锑和镓等战略矿 ...

万元级音响对比,帝瓦雷、b&o A9、多曼尼SPERO24究竟选哪一个?

万元级音响对比,帝瓦雷、b&o A9、多曼尼SPERO24究竟选哪一个?
来源标题:万元级音响对比,帝瓦雷、b&o A9、多曼尼SPERO24究竟选哪一个?在高端音响市场中,万元级产品是品牌技术沉淀与艺术设计的集中体现。帝瓦雷Devialet)、B&OBang &a ...

抖音非遗嘉年华亮相成都,用科技为非遗注入新活力

抖音非遗嘉年华亮相成都,用科技为非遗注入新活力
来源标题:抖音非遗嘉年华亮相成都,用科技为非遗注入新活力 5月28日-6月3日,抖音在成都国际非遗节落地「抖音非遗嘉年华」活动,作为传统技艺与现代科技对话的桥梁,活动向观众展现非遗在当代的生命力。通过 ...

山东姑娘王晶夺冠!2025全球旅游文化小姐中国大赛总决赛华美落幕

山东姑娘王晶夺冠!2025全球旅游文化小姐中国大赛总决赛华美落幕
来源标题:山东姑娘王晶夺冠!2025全球旅游文化小姐中国大赛总决赛华美落幕2025年6月14日,在内蒙古乌海,迎来了一场全球瞩目的盛事——《全球旅游文化小姐中国大赛总决赛》!全 ...
返回顶部