网易首页 > 网易科技 > 网易科技 > 正文

AlphaGo Zero的启示:监督学习和无监督学习的利弊

0
分享至


本文系网易智能工作室(公众号smartman 163)出品。聚焦AI,读懂下一个大时代!

【网易科技讯 10月24日消息】2016年,作为世界上最好的围棋选手之一,李世石在首尔的比赛中,以四比一的成绩输给了AlphaGo。无论是在围棋历史上,还是在人工智能(AI)的历史上,这都是一件大事。围棋在中国、韩国和日本的文化中具有的地位就像西方文化中的象棋一样重要。

在击败李世石后,AlphaGo在网上的一系列匿名游戏中击败了数十名知名人类选手,随后在5月重新出现,应对来自中国乌镇围棋选手的柯洁。但是柯先生的表现并不比李先生的好,最终以3-0的比分输给了计算机。

对于人工智能研究人员来说,围棋同样是被尊崇的。国际象棋在1997年出现在计算机上,Garry Kasparov与IBM的一台名为深蓝的计算机进行对抗,最后输掉了比赛。但是,在李世石失败之前,围棋的复杂性让其很难在机器上表现。AlphaGo的胜利十分引人,它充分展示了一种名为“机器学习”的人工智能力量,目标是让计算机教会自己一些复杂的任务。

AlphaGo通过研究人类专家棋手之间的数千场对抗,进而从这些游戏中学习规则和策略,然后在数百万场比赛中不断改进,从而学会围棋。这足以让它比任何人类都更强大。但是AlphaGo的公司,DeepMind的研究人员相信,他们可以改进这一技术。在刚刚发表在《自然》杂志上的一篇论文中,他们公布了最新版本的“AlphaGo Zero”。它在游戏中表现得更好,学得更快,需要更少的计算硬件便可以做得好。不过,最重要的是,与原版不同的是,AlphaGo Zero在没有向人类专家求助的情况下,成功地自学了这款游戏。

这一技术立刻吸引了很多关注。像很多游戏一样,学习围棋虽然容易,却很难玩好。两名持黑子与白子选手轮流在一个由19条垂直线和19条水平线组成的棋盘交叉处放置棋子。目标是占领比对手更多的领土。被对手包围的棋子将从棋盘上移除。玩家继续前进,直到双方都不愿继续。然后,每个人都将他的棋子数目加到所环绕空网格的交叉点上。最后,数量多的将成为赢家。

困难来自于多种可能的走法。19x19的棋盘上有361个不同的地方,黑色的一方可以最先放置棋子。随后,白子有360种可能的走法。在棋盘上的走法总数有10170种,这个数字实在是太大了,因此无法进行任何物理类比(例如,可观测宇宙中大约有1080个原子)。

而人类专家则致力于在更高的层面上去理解这个游戏。围棋规则简单却会涌现出大量不同情况。玩家会谈论诸如“眼睛”和“梯子”之类的棋局,以及诸如“威胁”和“生与死”之类的概念。但是,尽管人类棋手理解这些概念,但用一种超文字的方式解释计算机程序要困难得多。相反,最初的Alpha Go研究了数千个人类游戏的例子,这个过程被称为“监督学习”。由于人类的游戏反映了人类对这类概念的理解,一个接触到棋局足够多的计算机也能理解这些概念。一旦AlphaGo在人类教师的帮助下,熟练掌握了战术和策略,便克服了重重障碍,开始参加到百万场无人监督的训练游戏,每一场比赛都提升了它的技巧。

受监督的学习比围棋更有用。这是最近人工智能领域取得进步背后的基本理念,它帮助计算机学会做一些事情,比如识别照片中的人脸,可靠地识别人类语音,有效地过滤电子邮件中的垃圾邮件。但是,正如Deepmind老板Demis Hassabis所言,监督学习是有限度的。它依赖于训练数据的可用性,以及向计算机提供数据,从而向机器显示它应该做什么。这些数据必须经过人类专家的过滤。例如,面部识别的训练数据由成千上万张图片组成,有些照片上有人脸,有些则没有,每一张照片都需要人为的标注。这使得这类数据的成本很高,前提是它们是可以获取到的。而且,正如论文指出的那样,这里可能会存在一些更细微的问题。依靠人类专家的指导,可能会限制人类对计算机能力的限制。

“AlphaGo Zero”的设计初衷是为了避免所有这些问题,从而完全跳过“火车车轮”阶段。这个项目的开展利用游戏规则和“奖励功能”,即当它赢得比赛便奖励一点,输掉则扣除一点。然后不断进行实验,反复通过游戏来对抗其他版本的自己,并受限于奖励机制,即必须尽可能多地赢得奖励,从而使奖励最大化。

这个项目是从随机放置棋子开始的,机器完全不知道自己在做什么。但它取得了快速的进步。一天之后,它的棋艺便上升到了高级专家级别。两天之后,它的表现就超过了2016年击败李世石的版本。

DeepMind的研究人员能够观察到他们的自我革新,重新发现人类几千年来积累起来的围棋知识。有时候,它看起来像人类一样诡异。经过大约三个小时,专注于“捕捉棋子”的训练,这是大多数人类初学者也必须经历的阶段。在另一些人看来,这显然是外星人。例如,“梯子”是一种棋子的排列模式,当一个玩家试图捕获一群对手的棋子时,他会在棋盘上的对角线上放置。它们是围棋游戏的常见局面。因为梯子由一个简单的重复模式组成,人类新手很快就会学会并去推断它们,对梯子“搭建”的成功与否进行评估。但AlphaGo Zero——它无法推断,而是半随机地尝试新动作——这花了比预期时间更长的时间来掌握这个技巧。

然而,自己学习而不是依靠人类的暗示,总的来说是一个很大的进步。例如,josek是表述棋盘边缘附近发生的一系列动作的特殊序列。(他们的剧本自然让他们有点像国际象棋的开场。)AlphaGo Zero发现了josek教给人类棋手的准则。但它也发现了一些完全属于自己的方法,并最终成为了自己的下棋的首选。负责AlphaGo项目的David Silver表示,这台机器似乎具有一种明显非人类的风格。

其结果是一个不仅是超人的项目,而且是令人难以接受的。围棋(和国际象棋,以及其他许多游戏)都可以用一种叫做“Elo评级”的东西来量化,它根据过去的表现给出了一个玩家可以打败另一个玩家的概率。一个球员有50:50的几率击败对手,但只有25%的几率比对手高出200分。柯先生获胜的支持率为3661。李先生的是3526。在经过40天的训练后,AlphaGo Zero的得分超过了5,000——这一数字远远领先超强选手柯洁先生,同时暗指包括柯洁在内的任何一个人类选手都没有可能打败它。当它与AlphaGo的第一个击败李斯基的版本对战时,它以100比0获胜。

当然,比起围棋,生活中还有很多别的事情。它的创造者希望,像那些为AlphaGo的不同迭代提供动力的算法,理论上可以应用于相似的任务的中。(DeepMind已经利用了AlphaGo背后的技术,帮助谷歌大幅削减其数据中心的能耗。)但是,一种无需他人指导就能学习的算法,意味着机器可以在人们不知道如何解决的问题上放手。Hassabis表示,任何可以归结为通过大量可能性进行智能搜索的事情,都可以从AlphaGo的方法中受益。他列举了一些经典的棘手问题,比如研究蛋白质如何折叠成最终的功能形状,预测哪些分子可能作为药物,或者准确地模拟化学反应。

人工智能的进步常常引发人们对人类退化的担忧。DeepMind希望这类机器最终能成为生物大脑的助手,而不是取代它们,就像从搜索引擎到纸张一样。毕竟,一台机器发明新的解决问题的方法,能够推动人们走上新的、高效的道路。Silver先生表示,AlphaGo的一个好处是,在一个充满历史和传统的游戏中,它鼓励人类棋手对古老的智慧提出质疑,并进行实验。在输给了AlphaGo之后,柯洁研究了计算机阵法,寻找灵感。之后,他又以22连胜的成绩打败了人类对手,这是一个令人印象深刻的壮举,即使对于他的对手来说也是如此。毕竟,监督学习是双向的。

(选自:economists.  翻译:网易见外翻译机器人  审校:秦昕)

关注网易智能公众号(smartman163),获取人工智能行业最新报告。

相关推荐
热点推荐
喜讯!前法甲王牌驰援成都蓉城踢鲁能,届时将给王大雷一个下马威

喜讯!前法甲王牌驰援成都蓉城踢鲁能,届时将给王大雷一个下马威

评球论事
2024-04-25 12:22:10
张成泽秘闻:出轨金正恩前女友,15个私生子,动用39号室监视金家

张成泽秘闻:出轨金正恩前女友,15个私生子,动用39号室监视金家

古今档案
2023-12-12 11:33:46
倒闭8.4万家!无数中年男人的“庇护所”,如今为何跌下神坛?

倒闭8.4万家!无数中年男人的“庇护所”,如今为何跌下神坛?

开心体育站
2024-04-24 22:08:14
60岁女人再过夫妻生活,是怎么样的感受,几位女人说出了真心话!

60岁女人再过夫妻生活,是怎么样的感受,几位女人说出了真心话!

小阿眭说说吖
2024-04-15 15:28:32
局长儿子嚣张跋扈打断同学门牙,同学母亲亮明身份,对方下跪求饶

局长儿子嚣张跋扈打断同学门牙,同学母亲亮明身份,对方下跪求饶

真实故事汇
2023-12-19 21:59:16
【英】马丁·雅克:在对华政策上,菲律宾正成为东盟的异类

【英】马丁·雅克:在对华政策上,菲律宾正成为东盟的异类

环球网资讯
2024-04-25 06:30:09
新泽西州国会众议员因病去世 众院格局再生变动

新泽西州国会众议员因病去世 众院格局再生变动

朗威游戏说
2024-04-25 11:50:17
《城中之城》大结局:沈婧疯魔,田晓慧沦为玩物,周琳绝望逃婚

《城中之城》大结局:沈婧疯魔,田晓慧沦为玩物,周琳绝望逃婚

永不后退
2024-04-25 10:34:52
周琦被禁赛广东放水?朱芳雨给出回应,广厦放出训练照,无李金效

周琦被禁赛广东放水?朱芳雨给出回应,广厦放出训练照,无李金效

后仰大风车
2024-04-25 14:31:18
黑八来了?热火轰23记3分创纪录爆冷击败绿军,波津9中1成罪人

黑八来了?热火轰23记3分创纪录爆冷击败绿军,波津9中1成罪人

球哥侃球
2024-04-25 09:45:06
重磅!中央金融办、中央金融工委发文

重磅!中央金融办、中央金融工委发文

第一财经资讯
2024-04-25 11:47:25
上海夫妻200万买2000吨大船,在长江上往来运货,船夫生活意想不到

上海夫妻200万买2000吨大船,在长江上往来运货,船夫生活意想不到

今日搞笑分享
2024-04-25 07:35:23
俄罗斯扣押摩根大通4.4亿美元资产,以追回其被美国制裁困住的资金

俄罗斯扣押摩根大通4.4亿美元资产,以追回其被美国制裁困住的资金

我不叫阿哏
2024-04-25 15:05:25
前法国国脚勒伯夫:姆巴佩永远都达不到梅西与C罗的水平

前法国国脚勒伯夫:姆巴佩永远都达不到梅西与C罗的水平

懂球帝
2024-04-25 15:23:15
正式官宣,中国女排世联赛开球时间敲定,CCTV5直播,球迷欢呼。

正式官宣,中国女排世联赛开球时间敲定,CCTV5直播,球迷欢呼。

小豆豆赛事
2024-04-25 00:59:10
4月24日,田馥甄,官宣了!

4月24日,田馥甄,官宣了!

元气少女侃娱乐
2024-04-25 14:58:27
“生产队”时代夜晚的真实生活,只许看、不许哭!满满全是回忆!

“生产队”时代夜晚的真实生活,只许看、不许哭!满满全是回忆!

莆农阿
2024-04-24 14:49:44
4月29日晚油价调整,将迎来今年第二次下跌,油价下跌总算看到了希望

4月29日晚油价调整,将迎来今年第二次下跌,油价下跌总算看到了希望

户外小阿隋
2024-04-25 12:40:30
祸害人三年的新冠消失了,四大奇怪现象却出现了,很多人没察觉

祸害人三年的新冠消失了,四大奇怪现象却出现了,很多人没察觉

王晓爱体彩
2024-04-25 12:26:41
2025世俱杯亚洲4名额已确定3席,艾因、横滨水手将争夺最后一名额

2025世俱杯亚洲4名额已确定3席,艾因、横滨水手将争夺最后一名额

直播吧
2024-04-25 09:42:24
2024-04-25 16:10:46

科技要闻

雷军:希望小米SU7能成为苹果用户购车首选

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

先涨价再降价,特斯拉“打脸”只用20天?

汽车要闻

这灯效我能看半小时 奥迪Q6L e-tron有备而来

态度原创

健康
本地
亲子
教育
公开课

这2种水果可降低高血压死亡风险

本地新闻

荒野求生贝爷都得靠边站,真求生还得看留子

亲子要闻

孩子靜悄悄,必定在“作妖”妈妈内心:是我亲生的~是我亲生的~“这孩子打小就爱节约”

教育要闻

#新航道 第十一届 #519雅思节 盛大开启 9分梦想

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版
×