实测:ChatGPT的翻译能力怎么样?
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在今天,狂热追捧ChatGPT,仿佛<span style="color: black;">已然</span><span style="color: black;">作为</span>了一种“政治正确”。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">ChatGPT一出,学界、工业界无不惊为天人。一位<span style="color: black;">科研</span><span style="color: black;">公司</span>的资深<span style="color: black;">科研</span>员就对AI科技评论说过:“ChatGPT出来,直接给<span style="color: black;">咱们</span>整不会了——生成做的比<span style="color: black;">咱们</span>好就不说了,NLP(自然语言处理)能力还比<span style="color: black;">咱们</span>强不少。”</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">微软注资百亿美元,谷歌则如临大敌,ChatGPT在科技圈里掀起的巨浪,仍是<span style="color: black;">此刻</span>进行时。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">然则</span>,ChatGPT并非“万能钥匙”——大模型在某些专业<span style="color: black;">行业</span>的准确度,仍然<span style="color: black;">没法</span>超越其他垂类<span style="color: black;">制品</span>。<span style="color: black;">近期</span>,腾讯AI Lab 就<span style="color: black;">经过</span>实验证明,在<span style="color: black;">设备</span>翻译<span style="color: black;">行业</span>,ChatGPT在某些<span style="color: black;">状况</span>下,能力弱于其他<span style="color: black;">商场</span>翻译<span style="color: black;">制品</span>。</p><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TVjlc2I5GdKmf6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1724858748&x-signature=BBGkaz%2F5PBopnKKCnifwkEPlWjo%3D" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">论文<span style="color: black;">位置</span>:</p>https://arxiv.org/pdf/2301.08745v1.pdf
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1ChatGPT是个好翻译吗?</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">腾讯AI Lab的调查文指出:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">首要</span>,在高资源环境——如欧洲语言上——ChatGPT的表现与<span style="color: black;">商场</span>翻译<span style="color: black;">制品</span>(如谷歌翻译、DeepL Translate)相比<span style="color: black;">拥有</span>竞争力,<span style="color: black;">然则</span>,在低资源环境——如古代语言——<span style="color: black;">显著</span>落后;</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其次,在翻译的鲁棒性上,ChatGPT在生物医学摘要、或Reddit评论方面表现不如<span style="color: black;">商场</span>翻译<span style="color: black;">制品</span>,<span style="color: black;">然则</span>在<span style="color: black;">白话</span>方面<span style="color: black;">亦</span>许会是一个很好的翻译工具。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了更好地理解ChatGPT的翻译能力,腾讯AI Lab从以下三个方面开展实验:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">提示词(Prompt)翻译:ChatGPT是一个大型语言模型,在翻译时需有提示词(Prompt)<span style="color: black;">做为</span>引导<span style="color: black;">才可</span>引导系统进行翻译。<span style="color: black;">因此</span>,提示词的风格会影响翻译输出的质量。例如,在多语言<span style="color: black;">设备</span>翻译模型中,<span style="color: black;">怎样</span>将两种语言信息联系起来非常重要,这<span style="color: black;">一般</span>是<span style="color: black;">经过</span>附加语言标记来<span style="color: black;">处理</span>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">多语言翻译:ChatGPT是一个处理<span style="color: black;">各样</span>NLP任务并涵盖<span style="color: black;">区别</span>语言的单一模型,<span style="color: black;">能够</span>被视为一个统一的多语言<span style="color: black;">设备</span>翻译模型。<span style="color: black;">因此呢</span>,ChatGPT在资源差异(如高与低)和语系差异(如欧洲与亚洲)上的表现是该实验所探讨的重点之一。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">翻译鲁棒性:ChatGPT是基于GPT-3<span style="color: black;">研发</span>的模型,GPT-3在涵盖<span style="color: black;">各样</span><span style="color: black;">行业</span>的大规模数据集进行上训练,<span style="color: black;">因此呢</span>,在特定<span style="color: black;">行业</span>的表现,是这次<span style="color: black;">科研</span>者们的重点之一。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">提示词翻译</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了设计触发ChatGPT<span style="color: black;">设备</span>翻译能力的提示词,腾讯AI Lab团队向ChatGPT提出以下prompt:</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">供给</span>十个<span style="color: black;">能够</span>让你翻译的简明提示或模版</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">并<span style="color: black;">得到</span>图1中的结果:</p><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TVjlc2qGKLwo8Z~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1724858748&x-signature=Y%2F8dz81nFsGavJaOGNQNcGozHn4%3D" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图1: ChatGPT<span style="color: black;">举荐</span>的10个可<span style="color: black;">诱发</span>其进行<span style="color: black;">设备</span>翻译的prompt</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">生成的提示语看起来很<span style="color: black;">恰当</span>,<span style="color: black;">然则</span>都有<span style="color: black;">类似</span>的格式,<span style="color: black;">科研</span>人员将它们总结成三个候选prompt(如图2),其中 和 分别<span style="color: black;">表率</span>翻译的源语言和<span style="color: black;">目的</span>语言。<span style="color: black;">另一</span>,<span style="color: black;">科研</span>人员在Tp2中<span style="color: black;">增多</span>了一个额外命令,<span style="color: black;">需求</span>ChatGPT不要在翻译的句子上加双引号(在原始格式中经常<span style="color: black;">出现</span>)。尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。</p><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TVjlc4c7rbSkyy~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1724858748&x-signature=X4C2KIN%2BL4umVhvHk%2BCj9xvEp1c%3D" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图2:候选翻译提示</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">科研</span>人员将三种<span style="color: black;">区别</span>的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3<span style="color: black;">表示</span>了ChatGPT和其他三个翻译软件的结果。虽然ChatGPT<span style="color: black;">供给</span>了相当好的翻译,但它仍然落后于基线<span style="color: black;">最少</span>5.0个BLEU点。关于三个候选prompt,Tp3在所有指标方面表现的最好,<span style="color: black;">因此呢</span>在这篇论文中,<span style="color: black;">科研</span>者默认<span style="color: black;">运用</span>Tp3。</p><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TVjlc536Y9EJJj~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1724858748&x-signature=oIOFxKqNxRlxJSivv%2Fy6jJ7idR0%3D" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图3:在中译英翻译任务中ChatGPT<span style="color: black;">运用</span><span style="color: black;">区别</span>提示语的翻译表现对比</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">多语言翻译</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">腾讯AI Lab<span style="color: black;">选取</span>了四种语言来<span style="color: black;">评定</span>ChatGPT在多语言翻译中的能力,<span style="color: black;">包含</span>德语(De)、英语(En)、罗马尼亚语(Ro)和中文(Zh),这些语言在<span style="color: black;">科研</span>和竞赛中都被<span style="color: black;">广泛</span>采用。前三种语言同来自拉丁语系,而后一种则来自中文语系。<span style="color: black;">科研</span>人员测试了任意两种语言间的翻译表现,共<span style="color: black;">触及</span>12次翻译。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">资源差异</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">经过</span>实验<span style="color: black;">发掘</span>,在同语系中<span style="color: black;">区别</span>语言<span style="color: black;">亦</span>存在资源差异。在<span style="color: black;">设备</span>翻译中,德英互译<span style="color: black;">一般</span>被认为是一个高资源任务,有超过1000万条语料。而罗马尼亚语与英语间互译语料要少得多。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">如图4所示,ChatGPT在德译英和英译德上,与谷歌翻译和DeepL<span style="color: black;">能够</span>分庭抗礼;而在罗马尼亚语译英,和英译罗马尼亚语方面,则要<span style="color: black;">显著</span>落后。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,ChatGPT在英译罗马尼亚语上<span style="color: black;">得到</span>的BLEU分数比谷歌翻译低了46.4%。</p><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TVjlc5zAboc7Cf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1724858748&x-signature=%2BJgOz9Zv4xCY34wBFSrZ%2Bf4qopk%3D" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图4:ChatGPT在多语言翻译中的表现</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">科研</span>者认为,英语和罗马尼亚语之间的单一语言数据的巨大资源差异,限制了罗马尼亚语的语言建模能力,这部分解释了将英语翻译成罗马尼亚语表现差的<span style="color: black;">原由</span>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">相反,罗马尼亚语译成英语<span style="color: black;">能够</span>受益于强大的英语建模能力,使平行数据的资源缺口<span style="color: black;">能够</span>得到<span style="color: black;">必定</span>程度的<span style="color: black;">赔偿</span>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">语系</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">同期</span>,<span style="color: black;">科研</span>人员<span style="color: black;">亦</span><span style="color: black;">思虑</span>了语系的影响。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">一般</span>认为,<span style="color: black;">针对</span><span style="color: black;">设备</span>翻译,<span style="color: black;">区别</span>语系之间的翻译<span style="color: black;">一般</span>比同一语系间翻译更难。<span style="color: black;">科研</span>人员<span style="color: black;">发掘</span>,德英互译、汉英互译,<span style="color: black;">或</span>德汉互译在文化和书写方式上存在差异。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">另一</span><span style="color: black;">能够</span><span style="color: black;">发掘</span>,在这几种翻译中,ChatGPT和几款<span style="color: black;">商场</span>翻译软件间差距<span style="color: black;">很强</span>,<span style="color: black;">科研</span>者认为,这是<span style="color: black;">由于</span>在同一语系中知识转移比在<span style="color: black;">区别</span>语系间要好,<span style="color: black;">针对</span>既是低资源又来自<span style="color: black;">区别</span>语系的语言<span style="color: black;">来讲</span>(如罗马尼亚语和汉语的互译),这种差距会进一步扩大。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">因为</span>ChatGPT在一个模型中处理<span style="color: black;">区别</span>的任务,低资源的翻译任务不仅与高资源的翻译任务竞争,而且还与其他NLP任务竞争模型容量,这说明其性能表现欠佳。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">翻译鲁棒性</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">腾讯AI Lab进一步<span style="color: black;">评定</span>了ChatGPT在WMT19 Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性,这些测试集引入了<span style="color: black;">行业</span>偏见和潜在的噪声数据。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">例如WMT19 Bio测试集<span style="color: black;">是由于</span>Medline摘要<span style="color: black;">构成</span>的,这需要特定<span style="color: black;">行业</span>的知识处理,WMT20Rob2是来自Reddit的评论,可能<span style="color: black;">包括</span><span style="color: black;">各样</span>错误,如拼写错误、单词遗漏、<span style="color: black;">插进</span>重复、语法错误、破坏性语言,和网络俚语等。图5列出了BLEU分数,显然ChatGPT在WMT19 Bio和WMT20Rob2测试集上的表现不如谷歌翻译和DeepL Translate。</p><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TVjlceK8MOvddW~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1724858748&x-signature=HneoLdC0upk1Qa3DALNpDFfcsF4%3D" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图5:ChatGPT在翻译鲁棒性方面的表现</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">原由</span>可能在于,像谷歌翻译<span style="color: black;">这般</span>的<span style="color: black;">商场</span>翻译<span style="color: black;">制品</span><span style="color: black;">常常</span>需要<span style="color: black;">持续</span><span style="color: black;">加强</span>其翻译特定<span style="color: black;">行业</span>(如生物医学)或噪音句子的能力,<span style="color: black;">由于</span>它们是现实世界的应用,需要对分布之外的数据有更好地概括性,ChatGPT不太能够完成这一点。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">不外</span>,一个有趣的<span style="color: black;">发掘</span>是,ChatGPT在<span style="color: black;">包括</span>众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepL Translate。这<span style="color: black;">显示</span>,ChatGPT本质上是一个人工智能对话工具,能够比<span style="color: black;">商场</span>翻译软件生成更自然的<span style="color: black;">白话</span>(见图6)。</p><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TVjlcex8O5IfPt~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1724858748&x-signature=rUdBaqbgjkwiiDEk%2BqrHFWBv%2FrA%3D" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图6:来自WMT20鲁棒集set3的例子</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2ChatGPT应<span style="color: black;">怎样</span>扬长避短?</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">从该<span style="color: black;">科研</span>可知,高举高打的ChatGPT每训练一次就耗费<span style="color: black;">海量</span>算力资源,但<span style="color: black;">亦</span><span style="color: black;">不可</span>在全<span style="color: black;">行业</span>尽善尽美。<span style="color: black;">因此</span>,<span style="color: black;">有些</span>人<span style="color: black;">起始</span>思考,<span style="color: black;">是不是</span>应该“摒弃”大模型思路,转而去做“精耕细作”的小模型。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">腾讯AI Lab在Chat GPT“测评”中<span style="color: black;">说到</span>,罗马尼亚语与英语互译,相较德英互译存在<span style="color: black;">很强</span>差距,<span style="color: black;">原由</span>在于:巨大资源差异,限制了罗马尼亚语的语言建模能力,<span style="color: black;">亦</span>恰恰证明,AI学习能力常常受到低资源的掣肘。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">但<span style="color: black;">亦</span>有资深学者认为,尽管现时ChatGPT仍存在不少不足之处,但仍然对<span style="color: black;">科研</span>者和创业者有着不少启示。以ChatGPT为<span style="color: black;">表率</span>的AI 3.0走的是跟过去 AI 浪潮不<span style="color: black;">同样</span>的路,即更落地、更接近真实世界,在工业应用上,更直接,更落地,从学术<span style="color: black;">科研</span>到工业落地的路径<span style="color: black;">亦</span>变得更短、更快。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">将来</span>,“helpful, truthful, harmless”的 AI 系统会<span style="color: black;">作为</span>现实。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">雷峰网雷峰网</p>
楼主的文章深得我心,表示由衷的感谢! 我们有着相似的经历,你的感受我深有体会。 感谢你的精彩评论,为我的思绪打开了新的窗口。
页:
[1]