网易首页 > 网易科技 > 网易科技 > 正文

揭秘通用机器翻译:未来能够破解外星人语言?

0
分享至

【网易智能讯 1月3日消息】据外媒报道,去年上映的电影《降临》引起了电影评论人士的热评。这是丹尼斯·维伦纽瓦(Denis Villeneuve)执导的科幻片,讲述了一个语言学家破译外星人语言的故事。另外,传奇科幻片星际迷航在去年庆祝了其上映50周年。星际迷航中出现的通用语言翻译机让作为语言极客和科幻迷的笔者十分着迷。

本文并非讲解机器翻译的文章。这种技术已经以各种各样的方式开始被投入实践,虽然效果还无法达到人类专家翻译的水平,但机器翻译已经可以在很多场景里使用。本文将重点探讨通用翻译机对未知语言的破译过程。

现实中的语言破译

不管多么复杂,所有的破译在本质上是相同的,即将未知的语言与已知知识进行匹配。罗赛塔石碑的故事已经成为传奇:一个刻有古埃及象形文字的石碑,同样的内容还用希腊语和埃及俗语各刻了一遍。当时人们一直对象形文字摸不着头脑,罗斯塔石碑的发现让语言学家可以通过对照希腊语倒推出象形字母的含义。罗赛塔石碑已经成为语言学习的标志性符号,并被引申为解决某难题的关键要领。

今天,人们用类似的方式打造了统计机器翻译(Statistical Machine Translation,简写SMT),使用平行文本作为虚拟的罗塞塔石碑。遇到平行参照语言不存在的情况,破译就依赖于相似语言或其他可利用的线索。

其中最戏剧性的故事要数玛雅文字的破译,这还牵扯到美苏两大阵营的博弈。2010年有条新闻是麻省理工的Regina Barzilay和她的团队开发出一个人工智能程序,成功破译了古代闪米特语言乌加里特语(Ugaritic)中的大部分。

玛雅文字是由音节文字字形组合成的意音文字,在功能方面与现代的日文类似

当没有罗塞塔石碑这种参照物时,该如何破解完全陌生的语言呢?就像电影《降临》表现的那样,手势、物体对象和彼此的面部表情都可以帮助理解词汇。地理大发现之前,邂逅新文明的探险家和海员便是用此种方法学习陌生种族的语言。今天在雨林中进行田野考察的人类学家仍然沿用此法。

图为 Daniel Everett 在亚马逊雨林中同Pirahã人交流

电影内外的通用语

但是如果面对面的沟通是不可能的呢?

几十年来,SETI的研究人员一直在试图寻找宇宙中外星智慧生命的迹象。他们当中有些人便关注这样的问题:我们收到信号又该如何破解呢?我们又怎么知道信号来自智慧生命,而不是宇宙噪音?

Laurance Doyle和John Elliott专注于这些问题的研究。Doyle的工作重点是香农信息理论的应用。通过观察信号的复杂程度来判断是否近似于人类通信。Doyle曾与著名的动物行为和传播研究员Brenda McCowan一起分析了各种动物的交流数据,并将其信息理论特征与人类语言特征进行比较。

John Elliott则专注于对未知通讯系统的研究,他判断信号是否是语言,并对其语言结构进行评估,其最终目标是建议一个所谓的“后检测破译矩阵”。用他自己的话来说,这个矩阵将包含整所有人类语言数据,并会在未来添加其他的通信系统(比如动物的)。Elliott的假设系统基于自然语义理论(Natural Semantic Metalanguage, NSM)。

有趣的是,电影中虚构的通用翻译和现实中科学家的研究有相通之处。电影中的柯克船长说:“某些普遍的想法和概念”是“所有智慧生物共有的”。通用翻译机便基于此假设,对脑波模式的频率进行对比,精确词义并组成句子输出。

脑神经产生可识别的活动(脑波),并且交流刺激神经中枢的特定区域。只要我们有足够精确的设备能够探测这些脑波变化,频率分析就有可能实现。频率分析也符合齐夫定律(Zipf's law)。齐夫定律是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。齐夫定律可以被用来作为语言破译的参考。

星际迷航系列电影中不断出现一个翻译矩阵,排除艺术幻想和科幻加工,电影中的“矩阵”可以对应真实世界中的国际语模型,这是一种抽象、独立于语言之外的知识表达方式。

当电影中的通用翻译机无法工作时,还有一个被称为linguacode的工具工具。Linguacode在真实世界中可以对应上宇宙语言(拉丁语:Lincos,源自lingua cosmica的缩写)。这是一种在1960年由荷兰数学家和天文学家弗勒登塞尔博士提出的一种人工语言。他设计这语言并希望可以透过星际间的无线电信号传达,被外星生物理解。

从工程的角度来看

Elliott的方法使用所有人类语言的资料打造出一个通用语言模型,将有助于通用翻译机的实现。这是传统的定向交流系统所不能及的。

有了一个能映射语法结构和语义的系统,就可以构建出一个“场景的语料库”。随后再根据交互场景的普适性解码更多细节。

例如:

- 大多数对话的开头都包含一句问候语。

- 大多数技术文档包含数字。

- 所有命令都包含一个要求,而且通常是威胁性的。

- 新闻指的是一件事。

- 大多数长文档都会分章节,而章节之间会有数字或章节名。

- 参考性文档都会有所指,描述某一个实体。

以上这些特点是普适的,并非某一语言所特有。它们源自于群体沟通中的最小努力原则(Principle of Least Effort)。

基于语义学的系统可以不依赖表面词义构建语料库。相比罗塞塔石碑,这个系统可称作是一个高科技语言魔方。罗赛塔只记录三种语言,而后者可通过多变的组合匹配任何目标语言。

语言之外

在找到外星人之前,研究人员先在鲸类动物身上试验了“通用翻译机”假设。虽然目前还没有确切证据证明鲸类动物的通讯拥有人类语言的所有特征,不过它的却表现出一些迹象。

例如,海豚拥有自己的“签名口哨”,这相当于人类语言中每个人的名字。签名口哨用于海豚的定位,这符合语言学中的移位性(displacement)。在Louis Herman的实验过程中,海豚成功学会了理解“左”、“右”等抽象概念。海豚群体的社会活动很复杂,需要相当有效和复杂的通信系统来保障信息交流。

海豚之外,还有一些物种具有更复杂的通讯系统。一系列实验已经证明蚂蚁的通讯可能超乎人类的想象,蚂蚁甚至能对语句进行压缩,比如它们会将“左转,再左转,再再左转,再再再再左转”说成“左转四次”。

Doyle 和 Elliott 利用信息理论提供的各种工具对鲸类动物的交流进行了研究。Elliott计算了人类和动物语言以及非语言来源(比如白噪音和音乐)各自的信息熵。

交流系统呈现一个对称的A状振幅。人和海豚的声音尤其如此,鸟类声音对称性稍弱。Doyle对驼背鲸的声音进行测量,得出类似的结论。

这就是为什么几个研究动物交流计划与SETI计划进行协作的原因。如果我们连动物语言都无法理解,更遑论打造破译外星语言的通用翻译机了。

关注网易智能菌(微信公众号:smartman163),获取专业人工智能资讯与AI报告。

相关推荐
热点推荐
国务院任免国家工作人员(2024年4月26日)

国务院任免国家工作人员(2024年4月26日)

新京报
2024-04-26 10:35:37
把人干沉默了,两年降薪40%后中金再传降薪25%...

把人干沉默了,两年降薪40%后中金再传降薪25%...

金石随笔
2024-04-27 00:05:21
外企在北京遇“莫须有抵押担保”陷阱,7000万房产面临拍卖之忧!

外企在北京遇“莫须有抵押担保”陷阱,7000万房产面临拍卖之忧!

兵叔评说
2024-04-26 20:41:39
“保密真要命”!安省夫妇喜中7000万巨奖,永远不搬家,装修厨房

“保密真要命”!安省夫妇喜中7000万巨奖,永远不搬家,装修厨房

宝哥精彩赛事
2024-04-26 11:58:11
中国之所以要跟俄罗斯走得近,有两大深层战略,事关中国全面崛起

中国之所以要跟俄罗斯走得近,有两大深层战略,事关中国全面崛起

阿胡
2024-04-25 17:04:20
“消息传到布林肯那了吗?”

“消息传到布林肯那了吗?”

观察者网
2024-04-26 15:30:22
湖人进攻不行,防守也不行,连戈登都可以予取予求,詹姆斯在干嘛

湖人进攻不行,防守也不行,连戈登都可以予取予求,詹姆斯在干嘛

好火子
2024-04-27 05:05:07
45岁“石女”嫁给66岁男子,新婚夜男子惊讶:怎么会这样?

45岁“石女”嫁给66岁男子,新婚夜男子惊讶:怎么会这样?

社会潜伏者
2024-04-26 06:33:25
四川省发布一批干部任前公示,三人拟任正厅级领导职务

四川省发布一批干部任前公示,三人拟任正厅级领导职务

新京报
2024-04-25 21:58:11
中国印度都是14亿人,但为何印度推广“普通话”就这么费劲?

中国印度都是14亿人,但为何印度推广“普通话”就这么费劲?

我是光头哥
2024-04-26 21:39:33
大连两黑老大被判刑,名下的别墅豪宅第二次被拍卖,333万成交

大连两黑老大被判刑,名下的别墅豪宅第二次被拍卖,333万成交

天天话事
2024-04-26 17:00:09
一场“吃肉”戏,扯下了杨幂最后的“遮羞布”

一场“吃肉”戏,扯下了杨幂最后的“遮羞布”

娱乐圈笔娱君
2024-04-25 16:10:31
田忌赛!崔康熙安排“全华班”首发客场拿下4外援蓉城

田忌赛!崔康熙安排“全华班”首发客场拿下4外援蓉城

直播吧
2024-04-26 22:06:22
英媒体为什么突然猛批努涅斯?利物浦赛季末崩盘果然事出有因

英媒体为什么突然猛批努涅斯?利物浦赛季末崩盘果然事出有因

敖铭
2024-04-26 15:45:27
盘点:TikTok在哪些国家被禁 理由又分别是什么?

盘点:TikTok在哪些国家被禁 理由又分别是什么?

cnBeta.COM
2024-04-26 01:41:12
北大研究:盐一换,每年少死100万人,吃低钠盐全因死亡显著减少

北大研究:盐一换,每年少死100万人,吃低钠盐全因死亡显著减少

肿瘤的真相与误区
2024-04-26 17:43:34
这一夜,满身赘肉的张雨绮,把她的“中年尴尬”展现得淋漓尽致

这一夜,满身赘肉的张雨绮,把她的“中年尴尬”展现得淋漓尽致

娱乐圈笔娱君
2024-02-06 18:25:43
我78岁风流才子和妙龄少妇同居两年后,她怀孕还发财了

我78岁风流才子和妙龄少妇同居两年后,她怀孕还发财了

叶天辰故事会
2024-04-23 22:26:35
哈哈哈哈哈!我就说闲鱼是个巨大的人才市场

哈哈哈哈哈!我就说闲鱼是个巨大的人才市场

兰妮搞笑分享
2024-04-26 20:36:39
49岁女人自述:瞒老公出轨16年,回归家庭后,老公却给我致命一击

49岁女人自述:瞒老公出轨16年,回归家庭后,老公却给我致命一击

纸鸢奇谭
2024-04-14 11:19:04
2024-04-27 08:52:49

科技要闻

美国监管:特斯拉Autopilot存关键安全缺口

头条要闻

俄罗斯法院下令:冻结美国最大银行摩根大通在俄资产

头条要闻

俄罗斯法院下令:冻结美国最大银行摩根大通在俄资产

体育要闻

硬不起来的阿波,软不下去的切特

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

贾跃亭,真他娘是个人才

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

艺术
亲子
健康
房产
军事航空

艺术要闻

画廊周北京迎来第八年, “漂留” 主题聚集 30 余家艺术机构与 40 场展览

亲子要闻

给产妇用毒?别慌!这是医生的的常规操作!

这2种水果可降低高血压死亡风险

房产要闻

海南最新房价出炉,三亚跌价最猛!

军事要闻

以军称已完成对拉法地面军事行动准备工作

无障碍浏览 进入关怀版
×