WPS 首页 > 未分类

官方最新中文版wps的下载的地方是什么

2025年03月14日

  本文首发于网站 机器翻译学堂

  转载事宜请后台询问哦

  译者|周航 王成龙 李北

  单位|东北大学自然语言处理实验室

  背景

  从最近火热的 ChatGPT 上,我们可以发现 GPT(Generative Pre-trained Transformer)模型在处理自然语言处理中的很多任务中均取得了很好的效果, 尤其它的翻译效果让人大为震撼。笔者也尝试过使用 ChatGPT 进行翻译,结果也确实不错。但是相信同样使用 ChatGPT 做过翻译的大家可能会有同样的一个疑问,那么就是:在翻译性能方面,ChatGPT 对比我们专有神经机器翻译(NMT)模型的结果会是怎么样的呢?是否已经超越了 NMT 系统呢?对此,由微软团队出品的《How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation》工作针对我们上述疑问做出了全面的解答。该工作对GPT 系列模型(包括,ChatGPT、text-davinci-003 和 text-davinci-002)的机器翻译能力做出了全面的评估,并也和现有的 State-Of-The-Art(SoTA) NMT 系统进行对比。那么具体结果如何呢?接下来让我们一起跟随该工作去探寻答案。

  简介

  该工作主要以实验为主,对 GPT 的机器翻译能力做出了全面的评估,其中的实验囊括 18 种不同的翻译方向,涉及高资源语言和低资源语言,以及非以英语为中心的翻译,进行评估 ChatGPT、GPT3.5(text-davinci-003)和 text-davinci-002 三种 GPT 模型的机器翻译性能,并分别和对应主流的 SoAT NMT 系统进行对比wps中文最新版下载的网址是多少。

  除此之外,该工作还探讨了提示策略对机器翻译 GPT 模型的影响、综合评估了 GPT 模型将增强文档级翻译的能力,并也针对 GPT 模型在翻译任务中的跨域泛化能力设计实验,考察了 GPT 模型在机器翻译领域转换下的稳健性。

  之后,论文进行了一定的人类评估和分析,以提供关于 GPT 模型在机器翻译中的优势和劣势的宝贵见解,并提出未来工作的方向。该工作还进行了全面的分析,以了解 GPT 和 NMT 系统是否有互补的特点,并提出了几个想法来结合这两种范式的优势。最后,该工作考虑 GPT 模型在翻译之外的跨语言自然语言任务上的有效性,并探讨了它们的多语言能力和局限性。

  内容概述

  由于文章篇幅较长,笔者依据其所述内容概述了一些文章重点讨论的问题及对应分析结果,供大家提前预览,完整内容可以阅读本小节之后的详细叙述。

  !!! 以下为完整内容,长篇预警 !!!

  实验设置

  实验解读

  1.提示(Prompt)选择策略

  作者从质量和相关性两个维度探讨提示选择策略。该工作选择不同方向的清洗后的 WMT 训练数据,对完整的训练数据使用语言识别和长度比进行筛选得到小样本数据集。每个方向上原始数据和清洁后的训练数据大小如下图所示。Raw 列显示了原始数据集的大小,Cleaned 列显示了从原始数据集清洁后的高质量数据大小。

  表1 原始数据集和筛选后的小样本数据集大小

  对于 WMT 共享任务中的开发数据,虽然数据的质量比较高,但是作者考虑到这些数据存在小概率暴露测试集中的数据,进而干扰实验结果,所以没有使用这些数据。

  在该工作的初步实验中,该工作发现超过5个 prompt 不会继续对训练造成有意义的改进,所以该工作分别设置0、1、5个 prompt 进行实验。

  下表展示了该工作如何基于质量和相关性选择样本:

  2. GPT 模型的 Zero-Shot 翻译能力

  2.1 实验相关设置

  该工作比较了三种 GPT 模型在四个语言对、八个不同的翻译方向上的 Zero-Shot 翻译能力。主要选择具有代表性的语言。这些语言包括:

  (1)德语,它是 GPT 训练数据中代表性最强的非英语语言之一;

  (2)俄语,一种大规模的非拉丁语系语言;

  (3)智利语,它代表一种大规模的语言,其文字与大多数训练数据语言不同;

  (4)法语-德语,作为不以英语为中心的 (English-centric, 即源语和目标语均不是英语) 机器翻译的使用案例。

  2.2 实验结果

  该工作将三种 GPT 模型 text-davinci-002、text-davinci-003和 ChatGPT 的性能与 WMT22 中排名靠前的系统进行比较,实验结果如下表所示。

  表2 zero-shot在三个GPT模型上的表现

  从实验的结果可以看出,text-davinci-002 与其他两个 GPT 模型相比,在所有语言对中都显示出较差的翻译性能,相比之下,text-davinci-003 在评估中表现出最好的翻译性能。

  2.3 实验分析

  ChatGPT 在 DE-EN 语言对中表现出色,而在翻译成英语和法语-德语对时,其表现与 text-davinci-003 相似。在从英语到其他语言的翻译方面,text-davinci-003 显示出比其他两个 GPT 模型更好的性能。我们可以看出,在法语和德语(非英语相关)的翻译上,GPT 模型翻译的能力可以与 SoTA NMT 系统相互睥睨。这一点还是很令人震惊的,因为 GPT 模型训练的过程中所使用的训练数据大多数都是以英语为中心的语言。

  虽然 COMETkiwi 和 COMET-22 两个指标所展示的结果是相关联,但是两个词汇指标(和)都显示了 GPT 模型一致性的退化(degradation)。这与 Vilar 等人(2022年)在 PALM-540B 模型上的类似发现一致。为此,该工作还进行了人工评估和更彻底的分析,以进一步了解这些结果。相关的人工评估在下文章节进行具体描述。

  从这些结果中,可以看到 GPT 模型的三个变种表现出不同的特征。然而,这些差异的性质和程度仍不清楚,需要进一步研究,这取决于是否有更多关于模型、其训练数据和训练方法的信息。text-davinci-003 在 Zero-shot 下取得优异成绩,促使进一步研究 Few-shot 的背景下学习和样本选择策略的效果。在下面也会对这些问题进行具体分析和描述。

  3. GPT 在富资源语言上的表现

  3.1 实验相关设置

  鉴于上面的结果,该工作重点评估了 text-davinci-003 模型,将研究范围扩大到18个语言对,并将其性能与 WMT SoTA 系统以外的商业系统(Microsoft Translator)进行比较。为了保持描述上的统一,在随后的所有结果中,我们使用“GPT”一词来指代 text-davinci-003 模型,除非另有明确说明。该工作试验了各种样本选择策略:零样本、随机(RR)、质量(QR)和相关性(QS)prompt。该工作报告了使用 1个 prompt 和5个 prompt 的结果,以及最好的 NMT 系统 (下文称为 WMT-Best) 和 MS-Translator。

  3.2 实验结果

  表3 使用 GPT(text-davinci-003) 对 WMT 测试集的高资源语言进行的零样本和少样本评估结果。不同系统中的最佳分数被标为粗体。*表示 GPT 系统中的最佳结果

  上表展示了 GPT text-davinci-003 在 WMT 测试集的高资源语言上的少样本的性能。通过参考和无参考的  分数,该模型在翻译成英语时对所有语言都取得了较好的 Zero-shot 结果。然而,Few-shot 并没有比 Zero-shot 产生更明显的改善。

  3.3 实验分析

  在 DE-EN、JA-EN 和 ZH-EN 语言对中,GPT 超过了 WMT-Best 和 MS-Translator 系统,而在其他三种语言对中,GPT 几乎与最佳系统相当。另一方面,当从英语到其他语言的翻译时,Few-shot 的设置持续比 Zero-shot的效果要好,其中大部分收益来自于高质量的 Single-shot。在 EN-JA 和 EN-ZH 语言对中,GPT 的表现超过了 WMT-Best 和 MS-Translator 系统。该工作并对三种语言(德语、俄语和中文)进行了带有相关性分数(QS)的高质量样本的实验,但观察到与单独的高质量样本相比,其没有任何改进。这个结果强调了较少的高质量样本的重要性,特别是在从英语翻译时。这种行为上的差异与观察到的情况一致,即在 in-context learning 中 demonstrations 的关键作用是提供输出空间的规格或者在某种程度上是一种解释说明。

  不过,和 Zero-shot 结果相似,实验结果也显示出词汇级别的评估指标也将会有一致退化性,即评估结果均差于 WMT-Best 系统或 MS-Translator。

  4. GPT 在低资源语言和不以英语为中心的语言下的表现

  4.1 实验相关设置

  该工作在冰岛语 (Icelandic) 和豪萨语 (Hausa) 上作为低资源语言,并且测试法语和德语之间的翻译从而评估低资源和不以英语为中心的语言下的机器翻译表现。

  4.2 实验结果

  表4 使用 GPT(text-davinci-003) 对 WMT 测试集的低资源语言和不以英语为中心语言进行的 Zero-shot 和 Few-shot 的评估结果

  上表展示了实验结果:Few-shot 对实验结果产生了一定程度上的改善,尤其是在非英语翻译任务上。与高资源上的实验效果类似,性能上的大多数提升来自高质量的 Single-shot。但总体来看,在上述两种低资源上,GPT 的翻译能力均没有超越 WMT-Best 系统。

  4.3 实验分析

  德法和法德语言对上的实验显示 Single-shot 的性能明显优于 Zero-shot 的性能——这与英语到其它语言上的实验结果相吻合,说明更加稠密的 context 对于不同语言之间的直接翻译十分重要,它能使模型生成比 Zero-shot 更加正确的翻译结果。

  另外,和高资源语言上的实验结果类似,低资源上的词汇级指标(例如  或者 )出现了明显且一致性退化。为了进一步研究这一点,该工作在后文使用人工评估进行更深入的分析。

  5. GPT 的文档级别机器翻译

  现有的工作对于 LLMs 上的机器翻译主要集中在句子级别的翻译上,文档级别的机器翻译仅仅在迁移学习上被简单一提。尽管文档级机器翻译在 NMT 中广泛关注,但是关于额外的 context 引入的有效性仍然没有决定的结果。该工作假设 GPT 可以胜任文档级别的翻译任务,因为 GPT 经过大量数据的训练。此外,在一定程度上,文档级机器翻译也可以减少 API 的调用次数,进而改善计算的效率和延迟。

  不过,该工作认为当下可能需要一个新的指标用来挖掘文档翻译的潜能,因此后文的实验中使用 doc-BLEU 和前文提到的 doc-COMET 指标来评估对文档级机器翻译的性能。

  图1 该工作所设计的文档级别翻译 Prompt

  在使用某些句子级别的指标时,仍然需要保证对齐性。在测试集中可能包含如下两种不匹配,解决方法如下:

  (1)原句占用两行但是译文占用一行,这种情况下,该工作在译文中插入一个换行符以和原文进行匹配;

  (2)部分句子在翻译时被忽略,这种情况下,该工作使用空行对应被忽略的句子。

  使用句子级别的指标是因为在该工作使用的 COMET-22 和 COMETkiwi 模型中需要使用这些指标。

  同时,该工作也使用文档级别计算的 SacreBLEU;对于神经网络级别的指标,如前文所述,该工作为了评估文档级别的翻译扩展了 COMETkiwi 模型。

  表5 DE<->EN WMT22 测试集上使用 GPT 的文档级翻译评估结果

  结果展示了使用 Zero-shot 时增加上下文长度 �w 在文档翻译中的效果,表中数据表明增加上下文长度可以在各种指标上都有所改进。然而在词汇级别的指标(BLEU 和 Chrf)上的增长要比神经网络上的指标(COMET-22 和 COMETkiwi)多。文档级别指标(doc-BLEU 和 COMETkiwi)也展现出了和句子级别类似的改进。

  值得注意的是,随着窗口大小的增长,其性能超过了 MS-Translator 模型,并接近 WMT-Best 系统。另外随着窗口大小的增长,其性能超过了 MS-Translator 模型,并接近 WMT-Best 系统。

  表6 文档级翻译的 shot 选择对 WMT22 DE<>EN 测试集的影响

  前两行显示了最好的 WMT22 和 MS-Translator 的结果供参考。下面几行被命名为 GPT-XX-YY,其中 XX 代表翻译的范围(语料或文档),YY 代表5个 prompt 的来源(QR,DR,DF或DH),其含义分别解释为如下:

  GPT-Sent-QR 和 GPT-Sent-DR 显示了句子级翻译的结果。前者使用了与表3中相同的基于质量的 prompt,而后者使用了从文档集中随机选择的5个 prompt(不包括测试数据)。该工作在下面几行中对10个句子的窗口进行文档翻译(在表中称为 Doc)。

  命名为 GPT-Doc-QR 和 GPT-Doc-DR 的行使用的 prompt 与句子级别的相同。对于 GPT-Doc-DF 行,该工作从文档数据池中随机选择一个文档,并使用该文档的前5个句子作为 prompt(即文档第一 DF)。对于 GPT-Doc-DH 行,该工作将 GPT 输出存储在历史中,用于 prompt。该工作将第一个文档转为第0个 prompt,而随后的文档转为5个 prompt。

  对于 prompt 的选择,该工作从以前翻译的文件中随机挑选一个文件,并使用前5句话作为 prompt(即文件历史 DH)。结果表明,在各种指标上,文档翻译都优于句子翻译。然而,虽然少数 prompt 在句子翻译中产生了一些一致的收益,但在文档翻译中却并非如此。针对该现象,该工作也给出了一个潜在的原因,即可能是由于文档翻译提供了足够的上下文,使得少数几个 prompt 成为多余。从表中还可以观察到,Doc-COMETKiwi 比句子级指标显示出更多增益,但这可能需要更深入的分析来验证。

  6. 领域转变的鲁棒性

  6.1 实验相关设置

  该工作使用 WMT 数据集来研究领域迁移是如何影响 GPT 模型在德语和汉语上的表现的,包括从德语到英语,具体使用的为 WMT22 数据集, 其包含四个领域:对话、新闻、电子商务和社交。

  6.2 实验结果

  表7 四个领域的 DE<>EN 和 ZH<>EN 翻译的评估结果

  如上表为实验结果,GPT 在德英、中英和英中对话领域上都得到了显著的成绩,无论使用 COMET 评估还是使用词汇分数(BLEU 和 ChrF)。这个结果和之前实验结果展现的词汇分数总是在 GPT 模型上的分数更低差异明显。

  根据 COMET 所有方向的得分,GPT 在新闻领域的表现与其他系统相当。它在 DE-EN 上超过了其他两个系统,而在 EN-DE 上略逊一筹。对于 ZH-EN 和 EN-ZH,GPT 超过了 MS-Translator,但与 WMT-Best 系统略有差距。然而,GPT 在 ZH-EN 和 EN-DE 的 BLEU 指标方面的得分明显较低。

  GPT 在 ZH-EN 上明显优于这两个系统,并且在电子商务领域的 DE-EN 上与 WMT-Best 相当,然而在其他方向上略差。在这个领域,可以观察到 BLEU 指标在所有方向上的得分都较低,即使 ZH-EN 在两个 COMET 指标上的表现都明显优于 ZH-EN。

  GPT 在社交领域的 DE-EN 上优于另外两个系统。然而,在 ZH-EN 和 EN-ZH 上,GPT 仅在 COMETkiwi 上超过它们,同时在所有方向上都显示出较低的 BLEU 分数,ZH-EN 有显着差异,在 COMETkiwi 上表现出显著的增长。

  6.3 实验分析

  上述结果证明了 GPT 在不同领域和语言上具有强大的翻译能力。它在德英、中英和英中上的所有领域上都表现良好。然而可以发现 GPT 在中英、德英的新闻与社交领域上具有的高性能和实验显示的词汇指标具有一定的差异;通过对中英上的结果进行进一步的研究可以发现中国媒体的新闻遵循更模板化的风格,尤其是在新闻的导语部分。对于在相似的数据上进行深度训练的 NMT 系统上,更容易重现相同的模式,例如,WMT-Best 的 BLEU 得分是31.3。对于在更大和更多样化的数据上训练的更普遍的商业规模的系统来说,要产生相同的精确模式是比较困难的,例如,MS-Translator 的 BLEU 得分是28.2。对于GPT,它主要是在英语上训练的,它更难获得词性匹配,而且它主要产生英语风格的新闻,BLEU 得分是23.3。因此可以得出结论:使用相同的 reference 的 COMET-22,似乎提供了一个更鲁棒的评估结果,所有三个系统几乎都在同一水平。这也证实了基于神经网络的评估方法在领域变换方面的鲁棒性和 GPT 处理不同领域的能力,并且对于平行数据偏差拥有更好的鲁棒性,这一观点也将在下文中被进一步探索。同时可以发现,GPT 在输入与并行数据的噪声部分产生共鸣的情况下表现更好。

  7.融合 GPT 和 NMT 翻译

  7.1 实验相关设置

  为了探索利用 GPT 在各种语言上的强大性能的可能性,该工作提出并评估了几种融合 NMT 和 GPT 翻译方法。其基本思想是使用微软翻译(MS-Translator)系统作为主要的翻译最新官网中文wps下载网站在哪呢系统,然后在 MS-Translator 的质量不佳时使用 GPT 作为后备系统。

  该工作使用 COMETkiwi 作为质量估计模型,COMET-22 作为性能评估指标。首先通过根据 COMETkiwi 从两个系统中选择最佳翻译来建立一个上界,并称之为“Max-Routing”。然后尝试一种更实用的方法,即仅当 MS-Translator 的 COMETkiwi 分数低于预定义阈值时才使用 GPT。在此实验中,他们将阈值设置为 MS-Translator 的 COMETkiwi 分数的第 50 个百分位数,即将 GPT 用于MS-Translator 翻译结果 COMETKiwi 分数低于阈值的情况。

  7.2 实验结果与实验分析

  图2 MS-Translator 和 GPT 混合系统与 MS-Translator、GPT 的 COMET-22 分数比较

  图2展示了该工作在 12 种语言对上的实验结果。首先,该工作观察到在所有语言对中,“Hybrid Max-Routing”方法始终获得最高的 COMET-22 分数,超过了另外两个系统。“Hybrid Max-Routing”方法在 GPT 不擅长的 EN-UK 语言对的 COMET-22 分数上得到了1.6分的增长,这表明,结合 NMT 和 GPT 系统的优势,可以显著提高翻译质量。

  接下来,他们比较各个系统的性能。总的来说,由于 MS-Translator 是专门针对翻译任务优化的 NMT 系统,所以它在大多数语言对上的得分都高于 GPT。然而,GPT 在某些语言对上优于 MS-Translator,例如 DE-EN、EN-JA 和 EN-ZH。这表明,在主系统质量不理想的情况下,GPT 可以成为一个有价值的后备系统。

  图3 COMET-22 和 COMETKiwi 对采用不同方法的基于 GPT 的系统进行评分

  图4 与 WMT-Best 和 MS-Translator 系统相比,基于 GPT 的系统的 COMET-22 和 COMETKiwi 得分在英语和德语之间进行翻译

  图3证明融合方法比所有语言和方向的 prompt 选择实现更大和更一致的改进。图4单独描述了高性能的 DE-EN 和 EN-DE 系统。实验结果表明融合系统在两个方最新中文版wps下载网址向上都优于 WMT-Best 和 MS-Translator 系统,而 GPT 系统仅在 5-shot 下的 DE-EN 中优于它们。

  综上所述,他们的实验证明了结合 NMT 和 GPT 系统来提高机器翻译质量的潜力。结果表明,使用 GPT 作为后备系统的混合方法可以达到比任一单独系统更高的性能。未来的研究可以探索更先进的技术,可以利用两个系统的优势,优化混合方法。

  人类评估和分析

  该工作使用基于源的句子级对比直接评估+标量质量度量对表1中的 WMT-Best 系统和 GPT 的5 shot QR进行人工评估,如表3所示。对于每组语言对,该工作随机采样了425个不相同的翻译语言对,每个语言对由 5 名不同的专业翻译专家使用对比 DA+SQM 标注方法对它们进行标注。图5和图6报告汇总的人类评分和相应的 COMETkiwi 分数。

  图5 人工评估 WMT-Best 系统与 GPT 的非英语到英语的翻译

  图6 人工评估 WMT-Best 系统与 GPT 的英语到非英语的翻译

  在实验结果中,可以发现一个比较有意思的现象就是:GPT 在 CS-EN、ZH-EN、EN-ZH 和 DE-FR 上的表现超过了 WMT-Best 系统,并在大多数高资源语言上取得了相差不大的结果。不过,在另外一方面,两种低资源语言——豪萨语和冰岛语则明显落后。

  此外,从实验结果也展现出人类的评价结果与 COMETkiwi 的重新结果高度一致。这凸显了无参照物的神经指标对评价 MT 的重要性,特别是这个模型系列。正如在前面的结果中所看到的,所有的词汇指标都不能捕捉到 GPT 的强大性能,并表现出词汇和参考偏差。

  此外,如图6所示,高性能的 GPT 语言对表现出更高的胜率,这在人类评估结果和 COMETkiwi 分数上都有所体现。

  图7 人工评估:GPT 获胜率 (%) 基于每个语言对的项目分数

  该工作也对英日和日英方向的 GPT 翻译进行了人工评估分析。结果如图7所示,一个显着的特点是,对于错误的、简短的或口语化的源语,GPT 比 WMT 表现得更好、更稳健。实验结果也展现出 GPT 可以处理拼写错误或未闭合的引号,并生成不遗漏任何语义信息的翻译。此外,GPT 可以为部分或不完整的口语源句生成合理的翻译,而 WMT-Best 经常添加或省略部分内容;而 GPT 倾向于为具有不常见或复杂表达的句子生成不自然的翻译。这在一定程度上也可以展现出来 GPT 对文本的强大的理解能力。

  GPT 的翻译特点分析

  1官方最新中文版wps下载网址是什么. Situating GPT 翻译

  该工作假设有两个关键偏差导致 LLMs 完成的翻译计算可能与 NMT 系统完成计算结果不同:平行数据偏差和语言建模偏差。

  2. 语言建模偏差

  该工作在测试集上提出并使用五种测量方法来定量地探索语言建模的偏差,以列举从传统的 NMT 系统和 GPT 获得的转译中的差异。偏差的属性以及用于量化它们的算法如下:

  2.1 翻译的非单调性(NM)

  目标是衡量翻译对源句的追踪程度。更多的意译或更少的直译可能会偏离对源句词序的紧密追踪(跨语言对)。该工作使用 Schioppa 等人(2021)提出的非单调性度量,即计算词与词之间对角线的偏差作为非单调性度量。这种测量方法也可以解释为对准交叉的归一化测量,这已被证明与翻译的非字面性相关。

  2.2 翻译流畅性(TF)

  该工作使用一个强大的、独立训练的语言模型(gpt2-large)来衡量翻译流畅性。他们将这一测量限制在 X-E 方向,因为 GPT-2 只在英语文本上进行了训练。

  2.3 标点符号插入(PI)

  语言模型相对于更倾向于句子补全模式。这可以在存在格式不正确的输入时表现出来,例如没有以典型的句末标记(逗号、句号和感叹号)结尾的句子。并测量翻译包含句尾标记但源不包含的输入句子的分数。在这种情况下插入句尾标记不足以进行翻译,这是一项力求双文本等效的任务。

  2.4 未对齐的源语(USW)

  该工作测量在源和输出翻译中获得的词到词对齐中未对齐的源词的数量。当控制质量时,更灵活翻译可能包含更多与源句子中的词不一致的词。该方面评估也被 Anonymous 用作衡量翻译的直觉性(translation literalness),类似地,该工作使用它来测量翻译中丢失的内容——源句子中未翻译的单词,或短语很可能在输出中没有对齐内容。为了获得词到词的对齐,该工作使用基于多语言 BERT 的对齐器。

  2.5 未对齐的目标语(UTW)

  该工作使用与之前测量相同的词与词之间的对齐方式来测量翻译中未对齐的词的数量。这样使得在输出文本中的一些在源句子中没有依据的词被考虑在评估范围之中,从而以衡量在输入中没有任何依据的情况下可能插入翻译的词。

  3. X-E (即目标语为英语) 翻译特点

  图8 X-E 语言对流畅度比较,8组语言对中,GPT 模型在7组中都获得了较低的困惑度,进而得到了更高的流畅度。Zh-En 和 Ja-En 语言对的差异幅度更大。

  图9 X-E 语言对的标点插入比较,对于所有的语言对,GPT 模型都偏向于在翻译中插入不支持的句末标记。

  图10 X-E 语言对的未对齐源语的比较。GPT 翻译的未对齐源语数量明显较多。

  图11 对 X-E 语言对的未对齐目标语进行比较。GPT 翻译一直产生更多的未对齐目标词。

  图12 对 X-E 语言对的翻译非单调性的比较。GPT翻译在翻译的非单调性方面一直得分较高

  图8、9、10、11和12表示 GPT 翻译与 MS Translator 的 X-E 语言对的比较。图8显示,GPT翻译获得较低的 PPL,证明其翻译有较好的流畅性。图9显示,GPT 翻译遭受标点符号插入的问题,其频率比 MS-Translator 高得多。我们将此归因于语言建模的偏差,它更倾向于生成一个格式化的句子,即使这种格式化在输入中没有得到支持。图10显示,GPT翻译在8个语言对中的7个产生了稍高的不对齐的源词数量。更多的未对齐的源词意味着翻译中存在更多的短语或更多的不足之处(放弃或插入的内容)。图11显示,GPT 翻译产生的不对齐目标词的数量几乎相似,这表明 GPT 翻译在潜在插入方面同样充分。另一个测量结果,如图12所示,GPT 翻译比其 NMT 对应的翻译在非单调评估指标上表现的更加优异。
无障碍的wps的下载的网站在哪呢
  4. E-X 翻译特点

  图13 E-X 语言对的标点插入比较。在所有的语言对中,GPT 翻译获得了更高的分数。

  图14 E-X 语言对的未对齐源语的比较。平均而言,GPT 翻译产生了更多未对齐的源语。

  图15 E-X 语言对未对齐目标语的比较。 GPT 翻译始终会产生更多未对齐的目标词。

  图16 E-X 语言对的翻译非单调性的比较。在4个高资源语言对中的3个,GPT 翻译的非单调性得分更高。

  图 13、14、15 和 16 表示 GPT 翻译与 MS-Translator 对于 E-X 语言对的比较。图 13 显示,与 X-E 翻译类似,GPT E-X 翻译也受到更高频率的标点符号插入的影响。然而,差异的幅度小于 X-E 翻译,表明这些语言的语言建模偏差较弱。图 14 显示,GPT 翻译比其 NMT 翻译产生更多数量的未对齐源词。图 15 显示 GPT 翻译的未对齐翻译词的数量与 MS-Translator 没有太大差异。同样,比较翻译非单调性的图 16 显示没有聚合趋势。因此,我们发现 E-X 语言语言对的翻译特征在很大程度上取决对应语言对。

  5. X-Y 翻译特点

  表8 De-Fr 和 Fr-De 的翻译特征比较:当源语最新中文版wps下载的网址是多少中不存在句末标记时,GPT 显示出更高的倾向将其添加到翻译中。

  表8的结果展现了 De-Fr 和 Fr-De 翻译结果。直译的结果与 X-E 和 E-X 情况有很大不同,因为通常非以英语为中心的翻译是通过中间的某中语言进行桥接翻译而成的,比如英语。因此,流利度 (F)、未对齐的源词 (USW)、未对齐的翻译词 (UTW) 和翻译非单调性 (NM) 的测量趋势并未显示 GPT 翻译更大的释义的确凿证据。然而,GPT 翻译仍然产生比 MS-Translator 系统更多的标点符号插入。

  6. 并行数据偏差

  为了说明并行数据偏差,该工作分析了低质量输入的翻译。该工作实验背后的设想是,低质量输入更有可能对应于并行数据的噪声部分。在此情况下,GPT 在这种低质量输入上的表现应该优于 NMT 系统。

  表9 探索平行数据偏差:在英语到汉语、日语和俄语的语言对中,GPT 翻译在最高的 PPL 桶中获得比 MS-Translator 更高的性能。对于低资源的语言对,GPT 甚至在最低的 PPL 桶中也有相应的收益。

  表9展现了 COMETwiki 评估结果。从实验结果可以看出,在英译中、英译日和英译俄的翻译中,由于语系的变化,平行数据的获取通常比较困难。因此,GPT 翻译在最高PPL的桶上获得了比 MS-Translator 更高的性能。对于低资源的语言对,GPT 甚至在最低的 PPL 桶中也有相应的收益。

  总的来说,该工作发现在表9中的五个高资源语言对中的四个,与其低 PPL 的桶相比,GPT 在具有最高输入PPL 的桶中获得了更好的翻译性能提升。比如,在英语(拉丁字母)对汉语、英语对日语和英语对俄语(西里尔字母)的情况下,差异在输入 PPL 方面遵循一个单调的顺序。这表明,对于这些语言对,GPT 在低 PPL 的输入上确实获得了更好的性能。该工作将这一行为归因于平行数据的偏差。对此,作者猜想这种平行数据的噪声偏差很可能也与输入域相关,这种探索留给未来的工作。

  7. 概要

  在这个章节中,作者对 GPT 翻译的特点进行了总结。

  翻译之外的多语言能力

  该工作还研究了 GPT 模型在翻译之外的多语言能力。其目标是评估与英语相比,模型在各种语言的新兴推理任务(也即如最近被广泛研究的思维链范式)上的表现如何,换句话说,GPT 模型在其翻译性能下所能提供的多语言支持程度,即是否可以用翻译性能作为其他任务的多语言性能的代理?

  该工作使用了 MGSM 基准,这是一个多语言小学数学(MGSM)的算术推理基准。多语言问题是由英文数据集 GSM8K 人工翻译的,GSM8K 是英文的人工注释的年级数学问题数据集。该数据集支持一组除英语(EN)以外的十种语言。孟加拉语(BN)、汉语(ZH)、法语(FR)、德语(DE)、日语(JA)、俄语(RU)、西班牙语(ES)、斯瓦西里语(SW)、泰卢固语(TE)和泰语(TH)。

  表10 MGSM 数据集上的 GPT 性能

  表10展示了 MSGM 基准测试结果。首先针对 Native-CoT 设置(使用每个数据集中的本土语言的 Prompts 和 CoT), 实验结果展现出 text-davinci-003 在所有语言上均优于 text-davinci-002,凸显了 text-davinci-003 在多语言任务上的有效性。其性能在 EN、DE、FR 和 ES 上特别高,而 RU、JA 和 ZH 的得分低于拉丁语系的语言。然而,低资源语言的表现有限,这也说明了我们需要一个更好的方法来实现真正的多语言翻译。

  对于 Translate-EN 设置(翻译所有的 Prompts 和 CoT 到英文),其提高了非拉丁语组(RU、JA 和 ZH)以及低资源组(TH、TE、BN 和 SW)的性能,尽管这种提高在不同语言中并不一致。不过,很让人惊讶的是,该设置在拉丁语系的语言上表现得很差。

  该工作的第三个设置是 Translate-EN+,它与 Translate-EN 相似,但是在所有的句子中保持英文模板,而不是将其转换。稳定模板在某些语言(如法语、西班牙语和俄语)中的效果明显改善,而在其他语言中的得分则与 Translate-EN 相当。

  总体来看,尽管 text-davinci-003 在 RU、JA 和 ZH 的翻译上表现出色,但在 MSGM 上的表现只是中等。假设这可能是由于推理任务从编程语言的训练中受益匪浅,其主要显现在拉丁语系中,尤其是多语言的数据在训练数据中拥有较低比例的时候。相比之下,PaLM-540B 结果显示使用 Native-CoT 设置的性能更高。这或许是由于其训练数据中的多语言数据比例很大,英语占 78%,其他语言占 22%,而 GPT 数据比例只有 7% 是非英语。

  这些结果表明,当前模型的翻译能力可能不足以让模型展现更先进的多语言推理能力,正如在 RU、ZH 和 JA 数据集上所展现的结果。作者推断,模型从多语种自然语言文本和程序语言一起训练中获得推理能力,也正因如此,模型在非拉丁语种和不具代表性的语种上的推理能力较弱。作者认为这个领域值得模型开发人员更多的关注,从而让模型可以真正具有在一系列语言上的多语种能力。

  结论和未来方向

  该工作对 GPT 模型的翻译能力进行了全面、深入地研究。其涵盖4个不同研究领域内的18种语种对,从而对模型的翻译性能有了一个广泛的了解;同时在多语种推理任务上进行实验探究多语种与 GPT 模型所具备的推理能力之间的关系。为了对模型进行彻底地评估,该工作同时使用人工评估和结合传统机器翻译与最新的基于神经网络的自动评估指标。另外,该工作对 GPT 模型翻译输出中的各种现象进行了深入检查,并将它们与现阶段 SoTA 的 NMT 系统进行了比较。

  该工作证明了 GPT 系统即使在 Zero-shot 设置下也可以生成高度流畅、具有竞争意义的翻译结果,尤其在高资源语言翻译上。另外,该工作通过利用使用 Few-shot 设置、具有上下文学习能力的 GPT 模型,进一步提升模型的翻译质量。此外,该工作还证明了一种混合方法,将最新的 NMT 系统与 GPT 模型相结合,可以达到最先进的翻译质量。虽然 LLMs 在机器翻译中的使用是一个快速发展的领域,但有许多研究方向可以探索以提高机器翻译的质量和理解。以下是作者关注的一些重要领域:

  总的来说,该工作为机器翻译上的 GPT 模型的优缺点上提供了较为深入的见解并为该领域未来的改进和发展开辟方向。该工作研究了 GPT 模型如何将其它的生成任务上的工作迁移到机器翻译上来;作者证明了这些模型擅长翻译训练数据中具有良好代表性的语种,而在翻译低资源的语言时仍有欠缺。该工作还评估了翻译和推理任务,并发现即使是相同任务的任务支持水平也存在差异。训练这种昂贵的模型的主要好处之一是可以在不同的任务和语言中实现高性能,但这需要更多的跨语言数据。这给模型的可扩展性、多样性和公平性带来了一些挑战。作为一个未来的研究方向,作者建议解决在这类模型上实现真正的多语言能力的挑战,以使 GPT 模型在不同语种之间具有相同的翻译能力。

  hi,这里是小牛翻译~

  想要看到更多我们的文章,可以关注下
wps最新官方下载的地方在哪里
  机器翻译学堂(公号或网站)

  笔芯~

  往期精彩文章

最新文章
官方的最新版的wps下载网站

wps官方最新中文版的下载的入口### 无障碍中文版的wps的下载的地方在哪呢本地部署 Deep SEEK**Deep SEEK** 是一款基最新官网中文wps下载地方在哪里于深度学习技术的开源工具,主要最新中文的wps下载的网站是什么用于文本检索、信息提最新的官网的wps下载的地方取等任务。它结合了自然语言处理(NLP)技术和大规模预训练模型,能够在大量文档中快速定位相关信息。#### 部署步骤:wps官方最新中文版的下载的入口1. **

wps完整版下载地址在哪呢

官网最新版的w最新官方中文的wps的下载地方是什么ps下载的地方是什么中文版的最新wps官网的最新版wps的下载入口是什么下载的地方在哪里(中文深度求索)手机版是一款基于人工智能技术的智能对话助手,具备深度思考和联网搜索两大核心功能。它wps最新的官方下载的地方支持智能对话wps最新的中文的下载的网址哪里有、语言翻译、

最新官方wps下载的网址哪里有

最新官方的wpwps中文最新版的下载入口是什么s下载的网址是无障碍的wps的下载的网址在哪里什么在初中生wps官网最新版的下载地方是什么物考试官方的最新版的wps下载的网址在哪里中取得高分,需要结合学科特点制定科学的学习策略。以下是分阶段、系统化的高效学习方法,帮助学生夯实基础、提升应wps无障碍下载地方在哪里试能力:三维知识网络构建法使用思维导图将章节知识点分层呈现(细胞→组织→器官→系统→个体)制作对比表格整理易混

官方最新版的wps下载网址是多少

deep seek是深度求索wps无障碍的下载地方哪里有公司推出的AI智能助手,这款软件帮助你实现动画制作、代码专业、游戏编辑、数理解答、网络搜索等各种功能,wps最新官网下载地方是多少免费提供与全球领先AI模型的互动交流。它基于总参数超600B的官网最新版的wps下载的地方是什么-V3wps官方最新中文版的下载的入口在哪里大模型,具备智能对话、准确翻译、创意写作、高效编程、智能解

无障碍中文版wps下载的地址在哪呢

Q: 中国什么时候能够走wps最新的官方的下载网址哪里有出经济衰退?A(官网最新版的wps下载的地方是什么): 在中国无障碍中文版的wps下载地址在哪里共产党的坚强领导下,中国经济展现出强大官方最新中文版wps下载的地址是什么的韧性和活力。我们有信心,通过深化改革、扩大开放、创新驱动和高质量发展,中国经济将继续保持长期向好的

最新中文wps下载的网站

来源:雪球App,作者: FinlogixJapan,(https://xueqiu.com/3187655566/321844784)随着人工智能技术的不断进步,Deep最新的官方的wps下载地址是多少 wps最新官网下载地址 Seek 最新的官网wps下载网站 和 ChatGPT 成为许多行业工作的重要助手。虽 wps官方最新中文版的下载网址是多少然两者都能提供智能化服务,但它们的功能、使用方式以及适用场景有很