网易首页 > 网易科技 > 网易科技 > 正文

谷歌翻译是如何借助多项新兴AI技术提高翻译质量的

0
分享至

网易科技讯6月6日消息,据国外媒体报道,谷歌表示,它已在提高没有大量书面文本语料的语言的翻译质量上取得了进展。在一篇即将正式发表的博客文章中,该公司详细介绍了助力提升谷歌翻译(Google Translate)所支持的108种语言翻译质量的新创新技术(特别是缺乏语料数据的约鲁巴语和马拉雅拉姆语)。

谷歌翻译服务平均每天翻译1500亿个单词。

自谷歌翻译首次亮相以来的13年里,神经机器翻译、基于重写的范式和设备端处理等技术的出现和改进,助力该平台的翻译准确性取得不小的飞跃。但直到近年,即便是最先进的翻译支持算法也一直落后于人类的表现。谷歌以外的努力充分说明了这个问题的严重性——旨在使得非洲大陆的数千种语言可自动翻译的Masakhane项目,至今还没有走出数据收集和转录阶段。Mozilla致力于建立一个开源的语音转录数据收集平台Common Voice,自2017年6月推出以来也只审查了40种语音。

谷歌称,它在翻译领域所取得的突破并不是由单一技术驱动的,而是针对低资源语言、高资源语言、总体质量、延迟和整体推理速度的多项技术共同作用产生的。在2019年5月到2020年5月之间,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5分以上,在50种语料资源最少的语言中平均提高了7分以上。

混合模型和数据挖掘器

这些技术中的第一个是转换模型架构——一种混合架构,包括一个Transformer编码器和一个用Lingvo实现的递归神经网络(RNN)解码器,后者是一个用于序列建模的TensorFlow框架。

在机器翻译中,编码器通常将单词和短语编码为内部表示形式,然后由解码器生成目标语言的文本。基于Transformer的模型是谷歌研究人员在2017年首次提出的,在这一点上它比RNN更有效,但谷歌表示,它的研究表明,翻译质量的提高主要来自Transformer的一个部件:编码器。这可能是因为虽然RNN和Transformer都是为处理有序的数据序列而设计的,但后者并不要求按顺序处理数据序列。换句话说,如果涉及的数据是自然语言,Transformer不必先处理好句子的开头才处理句子的结尾。

然而,RNN解码器在推理时间上仍然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点,于是在将RNN解码器与Transformer编码器耦合之前,对RNN解码器进行了优化,以创建低延迟、质量及稳定性均比此前所使用的RNN神经机器翻译模型更胜一筹的混合模型。原来使用的RNN神经机器翻译模型已有4年历史。

2006年上线不久以来,谷歌翻译模型各种语言的BLEU得分提升趋势

除了打造新颖的混合模型架构之外,谷歌还升级了一个有几十年历史的爬虫程序。该程序用来从文章、书籍、文档和网络搜索结果等内容中的数百万条示例翻译中编制训练语料。该新数据挖掘器基于支持14个语言对的嵌入模式,而非基于词典模式,也就是说它是使用实数向量来表示单词和短语,更多地聚焦于精确性(检索数据中的相关数据部分),而非检索(实际检索的相关数据总量)。产出效果方面,谷歌说这使得该数据挖掘器提取到的句子数量平均增加了29%。

噪声数据和迁移学习

翻译性能提升的另一来源是一种建模方法,它能更好地处理训练数据中的噪声。据观察,噪声数据(含有大量无法正确理解或解释的信息的数据)会损害语料数据丰富的语言的翻译质量。所以,谷歌翻译团队部署系统来给使用噪声数据训练的模型的示例打分,进而筛选出“纯净”的数据。实际上,这些模型一开始基于所有的数据进行训练,然后逐渐基于更小、更纯净的数据子集进行训练,这种方法在人工智能研究领域被称为课程学习。

对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。(机器翻译传统上依赖于源语言和目标语言成对句子的语料库的统计。)在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。结果是,谷歌翻译充分利用更丰富的单语文本数据来训练模型,谷歌称这对提高翻译流畅性特别有帮助。

谷歌地图自带的翻译功能

谷歌翻译现在还采用M4建模方法,即用一个单一的巨型模型——M4——来在多种语言和英语之间进行翻译。(M4最初是在去年的一篇论文中提出的,该论文证明,在基于来自100多种语言的250亿对句子进行训练后,M4提高了30多种低资源语言的翻译质量。)M4建模让谷歌翻译中的迁移学习成为可能,因此,通过基于法语、德语、西班牙语等高资源语言 (它们有数十亿条并行示例语料)的训练获得的见解,可以应用于低资源语言的翻译,如约鲁巴语、信德语和夏威夷语(它们只有数万条示例)。

展望未来

谷歌称,自2010年以来,按照BLEU标准(满分100分,谷歌翻译水平每年至少提高1分,但自动化机器翻译的问题并没有得到解决。谷歌承认,即使是它的增强模型,也会出现各种错误,如合并一种语言的不同方言,产生明显的字面翻译,以及在特定主题内容和非正式语言或口语上表现糟糕等等。

这家科技巨头正想方设法来解决这一挑战,包括借助它的谷歌翻译社区。该游戏化项目招募志愿者来翻译单词和短语或者检查翻译是否正确,借助他们来提高低资源语言的翻译质量。就在今年2月,结合新兴的机器学习技术,该项目为谷歌翻译增加了对总共7500万人使用的五种语言的支持,包括基尼亚卢旺达语、奥里雅语、鞑靼语、土库曼语和维吾尔语。

谷歌并不是唯一一家追求真正通用的翻译工具的公司。2018年8月,Facebook公布了一种人工智能模型,该模型结合使用逐字翻译、语言模型和回译来超越语言配对系统。最近,麻省理工学院计算机科学和人工智能实验室的研究人员也提出了一种无监督学习模型——一种从没有明确标记或分类的测试数据中学习的模型——它可以在没有直接的双语翻译数据的情况下在两种语言的文本之间进行翻译。

谷歌在一份声明中表示,它“非常感谢”学术界和产业界在机器翻译领域的研究成果,其中一些研究为谷歌自身的项目带来了启发。 “通过结合利用和拓展近期的各种技术进步,我们完成了谷歌翻译最近的改进。” 该公司说,“经过此次升级,我们很自豪能够提供相对连贯的自动翻译,哪怕是所支持的108种语言中语料资源最少的一种语言。”(乐邦)

延伸阅读
相关推荐
热点推荐
缅甸突发!“猛烈空袭”

缅甸突发!“猛烈空袭”

环球时报新闻
2024-04-26 23:01:26
银行女职员的出轨经历,老公出差不在家,上司赖在家里不肯走

银行女职员的出轨经历,老公出差不在家,上司赖在家里不肯走

马军情感故事
2024-03-27 11:24:58
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

小宇宙双色球
2024-04-27 03:24:04
赵睿18+5 齐麟16分 崔永熙11+5&7失误 新疆3-1淘汰广州

赵睿18+5 齐麟16分 崔永熙11+5&7失误 新疆3-1淘汰广州

直播吧
2024-04-26 21:45:47
选址日报:本田投797亿建超级工厂;丰田斥101亿建生产基地

选址日报:本田投797亿建超级工厂;丰田斥101亿建生产基地

选址中国
2024-04-26 17:12:40
英格兰顶级联赛历史从未有过4连冠!曼城主动权在手 即将创历史?

英格兰顶级联赛历史从未有过4连冠!曼城主动权在手 即将创历史?

直播吧
2024-04-26 12:52:33
我国著名主持人赴瑞士安乐死,儿子讲述其死前惨状:我非常后悔!

我国著名主持人赴瑞士安乐死,儿子讲述其死前惨状:我非常后悔!

娱乐八卦木木子
2024-04-26 12:16:44
拜登签字同意“强买强卖”法案后,那些靠TikTok创作为生的美国人怒了

拜登签字同意“强买强卖”法案后,那些靠TikTok创作为生的美国人怒了

新民晚报
2024-04-25 18:50:34
可怕!燃气表被查后,真的慢下来了!划重点:不用去家里调表!

可怕!燃气表被查后,真的慢下来了!划重点:不用去家里调表!

弱肉强食法则
2024-04-25 22:20:19
越南一工厂因订单不足,给工人无薪放假,遭遇集体大罢工,许多女工表示:这是逼我们辞职

越南一工厂因订单不足,给工人无薪放假,遭遇集体大罢工,许多女工表示:这是逼我们辞职

越南语学习平台
2024-04-26 10:38:38
女子吐槽燃气费翻倍后丈夫遭“约谈”,昆山回应

女子吐槽燃气费翻倍后丈夫遭“约谈”,昆山回应

新晚报
2024-04-26 07:44:24
他住在轿车里,维系着跨越500公里的双城爱情|深度人物

他住在轿车里,维系着跨越500公里的双城爱情|深度人物

北青深一度
2024-04-26 16:34:58
晚上7点半!CCTV5直播辽粤大战,周琦郭艾伦缺阵,赵继伟压力不小

晚上7点半!CCTV5直播辽粤大战,周琦郭艾伦缺阵,赵继伟压力不小

浩叔聊情感
2024-04-27 02:55:07
男生开始变老的7大信号,症状出来,不服老都不行!

男生开始变老的7大信号,症状出来,不服老都不行!

今日养生之道
2024-04-26 06:29:50
杜锋妻子罕见现身!穿超短裙+染一头黄发,常年分居夫妻关系成谜

杜锋妻子罕见现身!穿超短裙+染一头黄发,常年分居夫妻关系成谜

大咖唠体育
2024-04-26 09:56:30
别了,切尔西!3年换4帅,曝波切蒂诺提前下课,穆帅有望回归?

别了,切尔西!3年换4帅,曝波切蒂诺提前下课,穆帅有望回归?

夏侯看英超
2024-04-26 14:24:41
申花主帅在德比战前做出重要决定!直接看懵武磊,给他一个下马威

申花主帅在德比战前做出重要决定!直接看懵武磊,给他一个下马威

评球论事
2024-04-26 12:55:04
卫星照片解读:俄罗斯“公社”号潜艇救援舰无伤 乌克兰谎报战果

卫星照片解读:俄罗斯“公社”号潜艇救援舰无伤 乌克兰谎报战果

hawk26讲武堂
2024-04-24 13:54:18
网友偶遇王心凌,据说本人很矮很瘦,但是非常漂亮!

网友偶遇王心凌,据说本人很矮很瘦,但是非常漂亮!

阿芒娱乐说
2024-04-26 21:34:22
按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

毒舌混知所
2024-03-30 07:50:03
2024-04-27 05:08:49

科技要闻

车展观察|德系日系绝不能放弃中国市场

头条要闻

官方回应环卫工用电子秤测灰尘:正常作业达标有奖励

头条要闻

官方回应环卫工用电子秤测灰尘:正常作业达标有奖励

体育要闻

利雅得青年3-1吉达联合,穆萨卜-朱维尔破门,卡洛斯-儒尼奥尔建功

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

贾跃亭,真他娘是个人才

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

艺术
家居
旅游
时尚
数码

艺术要闻

画廊周北京迎来第八年, “漂留” 主题聚集 30 余家艺术机构与 40 场展览

家居要闻

光影之间 空间暖意打造生活律动

旅游要闻

白俄,中国人的快乐福地?

近五年最好笑打脸事件,繁殖狂富豪被捞女骗了?

数码要闻

小米自带线充电宝 20000mAh 上架:支持 33W 功率,售价 159 元

无障碍浏览 进入关怀版
×