孙剑解读AlphaGo Zero：围棋有了终极的解|alphago|神经网络

分享至

【网易智能讯 10月21日消息】北京时间10月19日凌晨，DeepMind公布了最新论文，发布了最新版本的AlphaGo Zero系统程序，AlphaGo Zero的特点是将价值网络和策略网络整合为一个神经网络，训练三天就能以100比0击败之前与李世石对弈的AlphaGo版本。

近日，深度学习领域的专家、旷视科技首席科学家孙剑发表内部演讲，阐述了AlphaGo Zero在技术方面的创造性与创新性，其中包括 AlphaGo Zero用到的深度残差网络（Residual Network）。以下为孙剑内部演讲实录：

（孙剑）大家好，我想大家这两天读了很多文章，在我进行技术解读之前，给大家阐明一些大家一直感兴趣的问题：

1. 无师自通到底是不是真的无师自通，无师自通是怎么定义的？

2. 基于AlphaGo Zero的增强学习算法，它到底能做什么，不能做什么？

我先针对第一点无师自通来讲。实际上说它无师自通既对也不对，对的方面是说主要看无师自通怎么定义，狭义的无师自通是说AlphaGo Zero之前的系统，它有一个非常重要的步骤，就是如何开始教，如果说以前的系统有一步骤是说如何通过人类的棋谱学习人类的知识，来初始化系统，初始化以后包括自动的学习进一步改善，以前的系统是这样的。而这一次的无师自通，是把人授棋谱的过程去掉了，也就是说没有人类老师教你怎么下棋这个过程，那这个意义上来说，确实是第一次做到无师自通，这也为什么AlphaGo Zero大家这么关注的原因，也是它在学术界对工业界，大家对这个问题认识上的理解，因为其实就算如果没有做出来，研究其实是最深是你相信还是不相信，你的认识是什么样的，第一次破除了这个认识，还是之前学了很多知识，这个是脱开人的，这个是真正第一次脱离人类老师来教他怎么下棋这件事情，是无师自通的。

但是如果严格定义无师自通，我们其实是说“有没有监督”来做这件事情，监督就是你怎么教这个东西。那AlphaGo这个学习是不是没有监督？如果仔细看这个系统，他还是有监督的，增强学习有非常弱监督的形式，这个意味着不是看棋谱，而是棋局的规则，定义了如果你快速模拟下一盘棋，到最后谁赢谁输这个信号作为监督的，从这个意义上说，它不是百分之百绝对的无师自通，而是通过这样一个棋，这个规则所带来的监督信号，它是一种非常弱监督的增强学习，它不是完全的无师自通。

第二个解读，增强学习就算可以扩展很多别的领域，因为就算它不是百分之百不监督，如果能扩展它的领域非常了不起，这里面列一些增强学习到底有什么特性，这些特性可以是完美呈现的过程。因为围棋和打麻将或者德州扑克不一样，在围棋规则内所有信号全部是靠观测的，像打麻将或者博弈的游戏，对手是不能观测的，这也是不一样的一点。最重要的一点，是说棋可以很快速的模拟，你可以有一个模拟器，围棋就是通过计算机的方式很快下完，这是一个简单的模拟过程，非常短，可能两三百步就做完了，非常高效，可以很短时间把整个棋模拟完了，模拟完了中间所有结构可以输出来，最终的输出赢和输的信号很快就可以确定，所以这是一个非常强的假设，这件事情你到真实世界就没有那么容易。比如说增强学习可以用来研究新药品，新药品很多内部的结构需要通过搜索，搜索完以后制成药，再到真正怎么去检验这个药有效，这个闭环非常代价昂贵，非常慢，你很难像下围棋这么简单做出来。

再举个例子，增强学习也可以应用于金融股票股价预测，这里非常好的一个匹配，你下棋可以匹配到买卖，交易的决策上，这里面虽然说已经很匹配场景了，但是还是不一样，你每次下一个子会对对方怎么下有影响，如果在股票市场，如果你是一个基金量比较小，对市场没有影响，这是一种做法，你只是观测一下结果，做下一部决策，这个可以做，但是也不可以非常快模拟真实，你可以拟合历史，基金量大到什么程度不影响市场，这个更难模拟，在真实世界需要预警这个东西，这个很难收集到海量的数据。有这些特色，它就决定了今天AlphaGo的系统，背后的学习算法到底可以很容易的应用在别的场景，还是不容易应用在别的场景。

以上是关于AlphaGo Zero两点大的说明，下面我讲一下技术方面我们到底为什么这么看重它。我们做研究追求极简，去除复杂，这篇文章最吸引人的地方就是它从之前的到现在基本上在做减法。比如说很多搜索过程非常简化，把以前系统设计的两个网络合并成一个网络，有预测怎么落子，预测如何判断整个棋局的形势，这个网络在这次使用深度残差网络，它对输入做简化，以前输入是要人工设计一些棋盘的输入，比如这个子下过多少次，周围有几个黑子几个白子，这次是第一次把黑白子二值的图直接送进来，相当于可以直接理解成对着棋盘拍照片，把照片送给神经网络，让神经网络看着棋盘照片做决策，这个非常简单，非常优美。当然最简单的是，抛弃了刚才我说过的，从人类棋谱进行学习的过程，完全不需要人类棋谱，系统刚开始基本上随便乱下，开始如果两个AlphaGo Zero下的话，基本上期盼是随便下子，完全和人类下棋不一样，但是随着快速的收敛，一天后两天后下的像模像样，在两三天后就已经有了人类下棋的能力，这是整个系统的概况。

AlphaGo Zero的系统里面有两个核心技术，一个是拟合搜索，一个是深度残差简易神经网络，这个做了一个非常简单优美的结合就做好了，是卡罗式搜索还是用其他式搜索，这个涉及到非常古典的一个思想，这个思想在我上本科人工智能课的时候就学到的思想，当时也是下棋，棋比较简单，到今天依然是这么一个古老思想，加上一个非常强大的深度残差简易神经网络，就可以比上一代AlphaGo好非常多。这个搜索的方法是一个定制版的，是一些高级版，特定适应这个问题的版，也是通过研发迭代了很多周期才研发出来的。

第二个核心技术，他们用了一个深度最深可以达到80的一个深度残差卷积神经网络，这个网络在学术上英文名词叫ResNet，这个我也是非常容幸，因为我是这个论文的作者之一，ResNet的工作是我在2015年的时候，在微软亚洲研究院领导的视觉计算小组做的工作，这个工作核心思想是我们用一个残差学习，让非常深的网络可以很好的学习，其中“非常深”是什么概念？因为以前深度学习网络大概十层、二十层到头了，很难训练出来，但是用残差网络就很好地解决了深度学习深度网络训练的问题，网络的深度从十几二十层在2015年被推到了152层。相当于层数的意思是说，神经网络是在学习一个函数，层数越深，基本上函数影射能力越强，越有效率，越有可能在有效预测一个非常复杂的影射，我们说看棋盘，后来决定在每个子，决定在每个位置落子的最有可能赢的概率，输出361的项量，这是一个非常复杂的影射，看棋我们人类是靠直觉，其实背后是一个非常复杂的函数，越深的，目前可以越能拟合，越有更强大的威力来拟合这样的函数。

残差学习的方法极大程度的解决了优化问题，这也是世界上第一个上百层的网络，在2016年我们又推出了第一个上千层的网络，今天为止任何网络任何一个地区，任何不受城市限制的网络，我们这个工作也在2016年获得了CVPR最佳论文奖，当然我自己也非常高兴我们这个技术可以应用在AlphaGo Zero系统中，我并不是跟他直接合作，这也是学术界大家为什么要发表论文的方式，大家可以交换思想，大家看到这方面思想研究成果，就可以吸收到自己的系统中来，这也是开放研究的最大的动力和魅力和威力，今天尤其是人工智能，为什么中国人工智能追赶这么快，今天人工智能是完全开源和开放的，决大成果是开源的，每一个研究员都希望不但把自己的成果公开，还把自己的训练代码公开，以至于能够让大家能够快速地重现自己的系统，这个风气是在最近的深度学习人工智能领域开的，大家在第一时间把自己的研究成果放在arxiv，而不是说等几个月后在一个学术会议上发表，这样的话极大地加速了研究的进展。我们每天早上来公司的第一件事情就是看一下Paper，今天有哪些新的很好的思想，有一些Paper发布出来了，我们会学习，我们会呈现这样的东西，这也是一个关键词是开源和开放。

我现在的工作，也是一个开放的态度，开放我们的研究成果，我们今年CVPR2017年每篇结论，我们今天在7月份旷视科技发表了一篇ShuffleNet，一会儿我们会把这个论文发给大家，发布以后非常多的同行已经使用上了ShuffleNet。ShuffleNet其实也是ResNet的一种改进，但是和AlphaGo系统不一样，AlphaGo需要在一个很强大的CPU上运行，ShuffleNet是希望我们把网络运行在像手机或者切入式设备，这样低功耗，计算力比较低的平台，ShuffleNet它其实是一种专门为这种平台设计的结构优良的网络。

如果我们看整个AlphaGo系统，它使用Google的一个Tensorfolw深度学习引擎，Google是一个开源的引擎，内部也有内部的版本，它用引擎才可以把系统非常高的运行，引擎非常重要，每个公司都有这样一个引擎。我们旷视科技虽然是一家创业公司，但是我们对这个东西是非常重要的，因为可以带来非常大的竞争力，我们在Tensorfolw开源半年前，就已经研究了一个叫做Brain++ 的深度学习引擎，到今天我们内部版本已经迭代到7.0版本了，这个相当于旷视科技自己的Tensorfolw。旷视是我看到唯一一家自研并全员使用深度学习引擎的公司，有了这样的引擎，我们大规模GPU的集群，才可以帮助我们训练这样的ResNet，ResNet是我们计算机视觉领域开发出来的核心技术，今天非常高兴看到它能在围棋领域里应用，之前它在自然语音识别已经有非常成功的应用，我们在Face++也有训练非常强大的ResNet，甚至比这个AlphaGo Zero强大十倍、二十倍。

还有一个问题，AlphaGo无师自通的系统是不是能解决所有问题，刚才我说了一些什么是可以学，什么不可以学。我再举个例子，比如我们公司做的人脸识别、图象识别，这些问题是可以拿这个系统做，这些是不是完全不需要大数据就可以做，不需要监督数据就可以做，今天这个问题还是不可以的，如果你去教机器怎么去识别人脸，目前并不能找到增强学习这样一个非常简单的目标，还是要人来教，到底什么是人，而且我们人来识别人脸是一个人的能力，是人在通过几千年，甚至多少万年演化出来的一种为了人生存的一种能力，你只有把不同的人类认清楚了，才有可能在这个社会上运作，这是一个人后天学到的能力，要把这种能力赋予机器，还是需要人的监督信号，包括我们今天对人工智能做的很多事情，都要学习人的一些后天人很多年积累出来的能力，不管是现在还是后天，这些任务还是要海量的数据和更多信号，今天监督学习依然是占主流的在这些研究和商业应用中。

以下为孙剑博士答问：

【提问】：我想问一下这一块对以后的意见部分会有怎样的影响？这方面的需求会减少还是增加？

【孙剑】：这个问题是说，AlphaGo这样的系统对硬件会带来什么样的影响？这个影响，整个系统对它的要求是下降的，因为算法是提高了非常多，以前的前一代系统需要很多机器训练很多长时间才可以做好，新的AlphaGo Zero是在一台机器上，有Google的TPU来完成的，这个体现在TPU这个东西是神经网络的加速芯片，这个其实也是给大家一个信号，这样的芯片会非常强，目前业界不光是Google，包括很多家都在研究这样的深度神经网络加速芯片，我们在旷视科技FES++也在做这方面研究，如何把一个深度神经网络运行在硬件的芯片上，我们最近推出了一个基于FPGA芯片的一个智能摄象头，其实这个摄象头可以完成人脸抓拍识别的功能，FPGA芯片具有很多功能，可以把网络放在里面，但是并不是简单可以放进去，而是你需要一个网络做一些优化，让它变成最适合发挥硬件能力的形式才可以做，这也是一个研究课题。FPGA芯片下一步，就是IC的芯片，其实FPGA芯片不能做好的话，IC芯片就一定能做好，这里面是一个时间周期的问题，应该可以看到业界的发展是说越来越多的智能计算会在手机切入设备，比如像华为的Mate10，里面已经有内置的神经网络加速芯片，包括苹果或者越来越多的手机，都会有这样的能力，这个是对业界影响非常大的。

【提问】：DeepMind在那篇论文里提到，这一项新的技术可以用于解决蛋白质折叠和新型材料开发，这样一些可能更加具有可能性的问题，我想能够请孙剑老师就这个问题，能不能简单地再具体介绍一下，可能在新型材料开发这样一些领域当中，有一些什么样的可能？

【孙剑】：首先我不是这方面的专家，到底怎么把这些信息应用到新材料开发中，我不能做非常准确的判断，但是我刚才描述过了，什么样的东西把这项技术应用，新材料开发过程中，整个过程是完全可见的，最重要是你实验一下这个新材料，怎么能够快速地检验这个材料是成功的，如果你把这个周期能够非常快地做出来，这个技术就可以应用了，如果这个周期不能很快的做出来，或者周期很贵，你用这个东西也是不太现实的，这是我对这个问题的回答。

【提问】：您提到可能无论是增强学习，还是之前的一些比较基础的深度学习，还是需要一些监督的，其实在可能一些模式越来越具体的情况下，人类现在对于大数据的依赖程度会不会在往后重要的程度越来越减弱？

【孙剑】：首先大数据分有监督和无监督，对于有监督的大数据的依赖会慢慢地减弱，但是对于无监督的大数据，我们需要越多越好，比如说我们从小长大，我们看过了非常多的东西，我们学习怎么跑步，我们其实是各种传感器，听觉、感知平衡、眼睛也会看周围的道路，这么多信号都会进来，这样的大数据如果能做好，是越多越好，其实这里面也隐含了一些隐含监督信号，人工监督信号是两个概念，我们所有的研究都希望把人工监督信号降的越低越好，这是最新研究的一个热点，大家也做了各种各样的方式，隐含监督信号可能是突破人工智能真正的方向。这个是我简单的一个看法。

【提问】：您能不能举一个具体的例子，比如说哪一块算人工输入返回到一些可能频段，对或者不对，这算人工给到的信号，如果是传感器收集过来的是被监督的。

【孙剑】：比如我们做人脸识别中有一个非常简单的，判断一个人戴不戴眼镜，这个我们是目前无法通过无监督的方式做，就算给你一大堆有眼镜没眼镜的，机器也没法知道到底有没有眼镜，因为没有戴眼镜这个概念，是人为定义的，虽然是物理，但是是人为来定义的，这个需要有监督，告诉这些人戴眼镜，这些人叫不戴眼镜，还学习这个分裂面，把这两个划分开。真正无监督是不存在的，我们所讲的无监督是说尽量没有人工标注的，通过自然界或者从自然界物理界采集的信号中，隐含监督是真正学习的方式。比如我们看到两个人一前一后，我们其实可以推测后面这个人长的可能是什么样子，我再举另外一个例子，比如这个人有刘海，或者头发挡住了一半脸，你可能能猜测，或者能估计出这一半脸是什么样子，你看很多人的脸的时候，你知道他可能没挡住是什么样子，挡住没挡住是什么样子，这些并不是人工去标注，或者你看这些东西，这个形成了隐含的监督信号，人就慢慢学会了猜测，大部分可能是什么样子，这个学习能力才能真正我们现在做的监督学习希望做的事情。

【提问】：从比较通俗的角度说，在人工智能研究领域，什么样的数据算好的，什么样的数据算质量比较高的？

【孙剑】：如果简单讲的话，数据好坏是说，我们数据分两种，分训练数据和测试数据，这两个数据都有各自的分布，测试数据是希望这个数据的分布和真正运行这个系统，遇到这样的情况是完全匹配的，如果你这个匹配程度越高，数据就越多好，这个是我们一个基本的准则，我们希望测试情况是和我们训练数据和测试数据分布一致，这是我们认为数据高不高的一个准则。当然量是另外一个维度，量越大越多好，因为今天的机器学习，尤其深度学习，对数据需求是无止境的，送进去任何数据都有帮助。

【提问】：如果基于AlphaGo Zero加入了残差神经网络这样一个整体学习方式，它可不可以自己产出一些好一点的数据？

【孙剑】：现在已经在自产生数据，它随机下棋，随机下棋会判断输赢，根据输赢的准则来调整神经网络里的参数，慢慢训练到后面，下棋就不是随机下棋了，所有过程中产生的棋局长，都被它拿去用来受训练了，它是自我博弈与自我产生数据的，拿数据训练神经网络，从这个意义来讲，为什么我们觉得这个工作非常好，它真正是自博弈自产生数据，来解这个特定假设下的特定环境下的一个特定游戏问题。

【提问】：对于咱们做计算机视觉算法的，这样一个思维或者路径，上面会不会有一些参考，或者可以鲜明的可能？

【孙剑】：目前对我们信息上有很大的鼓舞，但是在实际上怎么把这个思想落地，现在是没有思路的，因为两个问题差别还蛮大的，因为我们人脸识别的大多数问题，都不可以简单地描述成，像下棋这么简单的一件事情，所以目前来说，我们还是要海量的基于有监督学习的，我们自己研究院也做了一些无监督学习的探索，比如目前热点是叫声控式对抗网络，可以把我们生活的一些样本，比如我们戴眼镜和不戴眼镜没有那么多，因为这个方法生成很多看着好像戴眼镜的样本，加入我们监督学习中，我们也在做这样的事情，但是和AlphaGo做的彻底程度还是有差别的，我们现在用这个东西产生数据的方法，恐怕还辅助现在的监督学习，并没有说能够主导监督学习，或者整个学习过程。

【提问】：AlphaGo Zero是不是意味着围棋问题算是被计算机解决了，有一个终极的解，是这样吗？

【孙剑】：对，我同意。

【提问】：围棋算不算目前在人类桌面棋类里最复杂的，或者说是不是代表了定向规则的所有棋牌类的东西，把围棋解决了代表机器可以把所有棋牌都解决了？

【孙剑】：对于围棋是一种信息全开放的棋类，还有一个全解决的定义，因为它其实也没有找到最优解，它找了一个很不错的解，如果你定义最优解应该怎么下，现在还没有。另外我个人发现，现在的棋盘如果扩大成更大，36×36的，这时候会产生什么样的变化，我也是非常感兴趣的，人去下人可能很快能够，比如画成360×360的格子来下，机器今天是不是能够很快地转变过来，这是非常有趣的问题可以探索。