沈向洋:机器语音识别五年内超人类视觉十年内超人类|人工智能|ai

分享至

网易科技讯12月4日晚间消息，在由网易新闻、网易科技等联合主办2017第四届世界互联网大会“乌镇咖荟”之网易未来科技峰会乌镇论坛上，美国国家工程院院士、ACM/IEEE Fellow、微软全球执行副总裁沈向洋在现场就微软人工智能的布局，和人工智能的未来等话题，做了简单分享。

沈向洋表示，在人工智能的问题上，2010年是一个分水岭，在此之前，大家觉得人工智能还无法被应用，2010年随着深度学习的发展，人工智能变得非常有希望，甚至被泛化了。

沈向洋认为，三个原因让人工智能变得非常有希望。首先是数据量的增加，互联网和物联网带来了海量数据。第二是运算能力的急剧增强，摩尔定律还在向前走，18个月会快一倍，计算能力非常强。加上云计算，使得很多东西处理起来能力强大。第三是机器学习，深度学习的技术已经可以投入使用。

沈向洋承认，目前人工智能还没达到五岁小孩解决问题的水准，但他预测，在人工智能的某些方面，像计算机语音识别，五年之内就超越人类，计算机视觉识别，十年之内可以毫无悬念完胜人类。

技术发展给企业带来很大的机会。沈向洋介绍，在语音识别方面，微软最近把机器翻译应用到华为手机Mate 10上，手机翻译器毫无争议的是全世界第一。在软件方面，微软去年和网易针对Office365进行深度的合作，为网易邮箱首批近50万用户提供了深度整合云端办公服务。融合了微软人工智能技术，包括微软翻译器，在WORD里面简历生成器、编译器、PPT设计师等很多应用，所有这些将借助于微软图服（microsoft graph）技术打造这样一个全新的体验。

跟网易合作，另外一个激动人心的项目是《Minecraft》（我的世界）在中国落地，也是通过人工智能寓教于乐很好的例子，在不到三个月的时间内，就有3000多万的用户下载了《Minecraft》。

据沈向洋介绍，微软在人工智能的布局有五方面，首先是微软的技术平台，第二是人工智能的产品：必应搜索，个人语音助手Cortana，和刚刚获得最新成果奖的微软小冰。第三是在所有产品上融合AI，包括所有的office软件。第四是做人工智能的开发者平台，包括基础设施的云服务，在线服务，和研发开发者工具。第五是解决AI的落地问题。

沈向洋表示，AI对人类生活的冲击非常的大，当AI真正应用到正式的场景当中，AI的伦理的问题就立即显现出来。其中很重要的问题是可解释的人工智能，对此，微软成立了AI伦理委员会，很认真的对待这件事情。

以下为沈向洋演讲原文，略经编辑：

今天非常高兴，感谢丁磊的邀请。

今天我想跟大家介绍一下人工智能方面的工作，在座很多专家，网易也有很多公开课，我想对人工智能都比较了解，我谈谈自己对人工智能的一些看法，还有微软这方面的进展和未来的趋势。

既然讲人工智能，我就抡开讲，先讲几个笑话。最近出去讲人工智能的时候，发现每个人都在讲人工智能，特别是公司的领导都在讲人工智能，就担心如果不讲就落伍了，用英语说everyone is freed of not talking about artificial intelligence。So why is that。用英语讲Because the opposite of artificial intelligence natural stupidity。所以大家就明白了，不讲人工智能就不智能了。

还有一个笑话，以前我们念研究生的时候读的都是人工智能，毕业都不好意思跟人家讲自己学的是什么，因为这个东西不work，人工智能对人类的改变可能就是七年前左右。2010年大概是一个分水岭，2010年之前，深度学习出来之前东西都不work，那个时候你问什么是人工智能，大家回答什么东西不work就是人工智能。但是现在慢慢弄得，大家一讲人工智能，我刚刚看老丁也是这个意思，基本什么东西work都是人工智能。所以，人工智能现在的一个问题就是被泛化了，什么东西都叫做人工智能。那么今天计算机科学里什么不叫人工智能？这是一个问题。

人工智能现在是一个激动人心的时代，我想主要有三方面的原因，使人工智能变得非常有希望。

首先第一件事是因为数据量增加，巨大的数据量增加。数据量的增加首先是因为互联网，更重要是以后有物联网，万物互联以后，数据量非常巨大。

第二运算能力急剧增强，现在摩尔定律还在向前走，18个月会快一倍，计算能力非常强。加上云计算，使得很多东西处理起来能力强大。

第三机器学习已经可以应用了，这是非常了不起的事。但并不是说所有人工智能的问题今天都可以解决了。大家觉得目前人工智能很多问题还没有解决。人工智能今天达到什么样的水准？我觉得还没有达到5岁小孩儿解决普通问题的水准。但是在人工智能的某些方面，特别是感知方面，像计算机视觉、语音方面的进展非常了不起。通过大数据、大计算、精准算法可以让计算机语音识别，五年内就会超越人类，计算机视觉十年之内就会超越人类。任何你看到的东西，识别人也好、识别物体也好，十年之内计算机完胜人类，这在我心目中是毫无悬念的一件事。接下来你就想有这样的事之后，你要干什么？大公司也好、小公司也好，初创公司也好，微软也好，都有这样的机会。语音识别有很多这方面的突破。最近我们和华为手机合作，把机器翻译做到华为最新的旗舰手机Mate10上，华为有强大的芯片，我们有非常强大的算法，大家合作以后，在Mate10上做的手机翻译器，毫无正义是全球最准的翻译器，虽然还有一些误差，但翻译质量已经非常好。

人工智能做到现在也并不是什么新话题，人工智能在电子计算机没有出现之前，大家已经在讲人工智能这件事情，其实很多非常聪明的人，像图灵当时在想计算这件事的时候，就在想计算机这个东西出现后，大家应该干什么。图灵想到的第一件事就是模仿人类的智能。所以人工智能虽然是1956年在达特矛斯会议上，M.L.Minsky、J.McCarthy这些非常聪明的人想到怎么去人工智能，怎么去模仿Human intelligent的时候，AI这个词实际上是McCarthy提出来，当时想要做这件事。但不光是这些聪明人很多聪明人都想到做这件事。微软26年前盖茨成立微软研究院，认为我们要做通用人工智能，他当时讲如果有一天计算机能看会想，能听会讲，可以理解人类，那是多么美妙的一件事情。

所以过去一年，我们在微软研究院，也一直在做人工智能这方面的工作。在技术方面，我们取得了很多进展。刚才我也讲到语音识别，国际上有一个Switchboard data set，是美国做的数据集，数据集的来源是两个人打电话。最好的人去标注，误差率5.2，我们几个月前做到5.1%，这些都在不断的进步中。

我们去年和网易针对Office365进行深度的合作，我们为网易邮箱首批近50万用户提供了深度整合云端办公服务。这里融合了微软人工智能技术，包括微软翻译器，在WORD里面简历生成器、编译器、PPT设计师等很多应用，所有这些将借助于微软图服（microsoft graph）技术打造这样一个全新的体验。

跟网易合作，另外一个激动人心的项目是《Minecraft》（我的世界）在中国落地，也是通过人工智能寓教于乐很好的例子，在不到三个月的时间内，就有3000多万的用户下载了《Minecraft》，非常感谢网易各位同事对《Minecraft》项目的支持。

当然微软希望更多的企业可以受益于人工智能，我在这里很难得有这样一个机会，也跟大家介绍一下微软在人工智能整体布局方面的五方面：

首先微软是一个技术平台公司。微软之所以为微软，主要是在技术方面非常强大，我们这么多年在人工智能已经做了很多投入，刚刚我提到微软研究院26年前成立之初就开始做人工智能，接下来的布局，首先在人工智能的技术方面会持续加大研发力度，争取继续成为人工智能技术的世界领先者。

第二人工智能的产品，每家公司都做自己的人工智能产品，微软做人工智能产品的思路和理念是什么？我个人的看法，人工智能最了不起的事情在于对话。我最近这些年花了很多时间，一直在从事研究自然语言方面的工作，我相信懂语言者得天下，最后语言是最重要的。对话是最重要的，我老师讲一个小孩子很聪明，为什么这个小孩子很聪明，因为我问他一个问题他可以给我一个答案。5+4不等于8，等于9，有人说这孩子真聪明，五岁就会这么算了。但是孩子再长大一些，你就说这孩子真的聪明，这孩子为什么聪明呢？这孩子会问问题，他可以想到问什么样的问题。为什么记者都很聪明，记者会问问题。但是真正聪明的是会对话，会持续对话，不断地跟你讲。你想一个人可以持续跟你聊下去，这个人不会太蠢，这是一件很重要的事。

我们的产品线布局上，主要有三大产品，第一是智能搜索，就是Bing，Bing在中国做得不是特别成功，因为种种原因，但美国现在做得相当好，市场份额有33%，英语搜索。在英国20%，德国、法国、加拿大、澳大利亚都有百分之十几的市场份额，在国际上是毫无争议的第二大搜索引擎，只是谷歌太强大，我们还在持续努力，但质量已经做得非常好，特别是英语搜索。今天早上的主题演讲中，发布了微软必应（Bing）国际版英文搜索今天正式上线，希望可以为中国用户带来最好的、全新的英语体验。大家不用翻墙，英语搜索可以做得非常好。第二是智能个人助理，小娜（cortana），主要是帮你做一些工作，比如你是否要点一个餐，是否要买一张票等等。

第三是昨天我们得奖的产品，叫做微软小冰。我不知道有多少人用过。我今天给一个领导做演示，自己弄了一下，自己对小冰都敬仰得不得了，我问他你觉得乌镇互联网大会怎么样？他答得太好了，我相信在座大多数人都答不出这样的水准，你不相信回家可以试一试，不是编程好的，是自动产生出来的。这样一套人工智能产品线主要是以对话式人工智能线路做下来，智能搜索、智能个人助理、智能聊天机器人。

第三微软在人工智能融合到所有的产品中，首先是微软自己的产品，特别是微软的Office，以后WORD、POWERPIONT、EXCEL会变得更加智能，更重要的是OUTLOOK E-mail会变得更加智能，大家会不断地看到我们新的发布出来，下周我在三藩市有一个新的发布，里面会提到Office方面最新的进展。其实更加有意义的事情不光是微软的所有产品融合AI，刚才丁磊也讲到了，其实所有的产品、所有的公司都应该融入人工智能，所以我们把微软一些跟AI相关的数据，整合以后，通过微软图服方式，即Microsoft graph，可以让第三方开发的时候，可以用这样一些东西。

第四是微软的看家本领，如何做AI平台。微软这么多年最主要的是支持这些开发者，让大家做得更好。因为我们公司一直以来都是有平台的思路。

在这方面，其实现在AI做Plus Form肯定是AI和云加在一起的Plus Form。所以过去几年我们打造很强的Cloud AI平台，这里主要有三部分，第一是基础设施，这样的infer structure。因为我们做云已经有很长时间，全世界现在第二，亚马逊还是最强。云有很多数据方面的东西，存储。还有大量的运算东西，今天做大量数据处理，不仅仅要CPU还要GPU、FPGA，还要做一些特别的芯片，微软的基础设施做得特别好。

第二可以提供哪些在线服务，过去三、四年我们做了全球最全面的所谓认知服务，在认知服务里，包括语音、语言、视频图像、包括搜索，我们现在做得最全。

能够提供什么样的在线的服务，这方面我们已经过去这三四年做了一个，可以讲是全球最全面的一个认知服务。在这认知服务里面包括语音、语言、视频、图像，包括姿势，包括搜索这些东西。我们现在是做的最全的这样一个。

第三方面就说是工具，工具这件事非常重要，你说如果帮助别人去开发AI的东西的话，那么你没有一个很强大的工具的话，这大家就不方便。因为现在做AI群雄并起，大家这些大的公司都有自己的一套所谓的开发工具。

那么怎么样可以帮助到大家编译到这些东西以后，可以怎么可以弄到最优的这样一个模型，可以到所有的这样的硬件的平台上去跑，你可以是硬件，可以是嵌入式的非常小的东西，也可以是你的手机，苹果机这样，或者你的PC上，甚至你到云里面。所以是一整套这样的东西，为了开发者做这样的东西。

我们最近做了一套工具，叫做Visual studio tools for AI。大家都知道，写过程序的人都知道，最方便的开发的工具就是visual

studio，微软做了很多很多年了。现在我们再加上这样的一个做AI的工具，令大家非常的方便，这是我讲的第四点。

第五点可能是最接近的大家这些AI怎么落地，真正怎么落地，就是说有商业价值的这样一个方面，就是我们现在在想的，就是怎么样可以去做真正的解决AI的解决方案。所有的这些垂直的这样的一些商业的领域的话，是肯定会被AI颠覆掉的，包括交通也好、医疗也好、教育也好，这是肯定的。

但是可能更加有趣的就是说更多的，更加直接的这样一些机会，我个人的看法反而是在水平的这样一些商业的过程当中。这里面，这些很多东西都会颠覆掉。所以这里我们希望能够找到合适的合作伙伴，因为从微软来讲的话，我们自己大概不会真正去某一个行业真正完全是自己去做了，我们希望能够找到很多的合作伙伴，在有选择性的这样一些垂直或者水平的方面做一些工作。我相信这边除了微软以外，很多很多的公司都会有这样的一些机会。

最后我再简单的点一下，在人工智能的开发方面，大家要注意些什么。现在一个很大的问题就是大家开始认识到，就是AI这件事情对人类生活的冲击非常的大，特别是AI真正应用到正式的场景当中之后，马上这个AI的伦理的问题就出现了。

这件事情并不是我在这里吓唬你，但是它的确有这样的一个问题，而我们今天对这样一些伦理的问题实际上不是很理解。在真实的社会当中，这个社会之所以有一个社会，我们是有这样的伦理道德，大家是一起去遵守的。你不见得这样想过，但是我想提醒大家一下，就是我们会是第一代人类，是和AI共生存的。你喜欢也好，不喜欢也好，AI已经到我们身边了。最简单就是像聊天机器人这样的，以后慢慢会有实际的、物理的这样一些可行走的机器人，可能在家里，在工作的地方，在外面，就很快就会出现这样的事情。

所以我们是要想，这些机器，这些机器人，它们应该遵守一个什么样的一些道德标准？我讲几个方面的问题好了，比如讲就是这个AI如果有偏见会怎么样？人类都是有偏见的，我们都是有偏见的。这个AI做出来这样一些东西，你如果不能解释会怎么样？比如我举偏见这件事情，我举一个我最喜欢的例子，比如像今天你用英文搜索，图片搜索，你打进去一个字叫CEO，你一下子下来几十张照片，你看到的东西是什么？你看不到任何一张是女的照片，全部都是男的。那问你一个问题是说，你觉得这是个问题吗？

所以就是说偏见，它可能是已经在里面了。为什么就是你做CEO的搜索的图片，里面没有一个是女的？并不是说这些搜索引擎的这些同事有什么恶意或者这样，只是它这样的一些算法，它可能原来在这样训练数据，它这样的一些模型，令到这样的结果。

还有一个方面，就是你这些AI做出来的东西你一定要透明，你能够解释。今天一个很大的问题就是，特别是深度学习出来的结果的话，它没法儿解释。结果可能是挺好的，但是你没法儿解释。你没法儿解释的话，比如讲你应用到像医疗这方面就出问题了，比如讲你跟病人讲说，我这个AI做出来的话，它是大概91%的可能性你这个是什么什么病第三期，那病人说为什么，你要跟我讲一讲，什么原因，为什么？家属也会问你这个，所以你要有这样的可以解释，就是说为什么。你要用到就是这个用户可以理解的语言，能够可以解释，到底这里发生了什么情况。

所以最近人工智能这边非常重要的一个研究的方向，就是所谓的可解释的人工智能。这边我们还有很长的路要走，很远的路要走，所以人工智能其实今天虽然很激动人心，其实还很漫长。所以在这方面我们在设计的时候，一定要有这样一些道德标准的一些准则。所以在微软的话，我们是非常认真对待这件事情，我们在公司里面成立了一个AI伦理委员会，由我们一个负责技术的副总和另外一个负责法律的副总，一起来组织这样一个委员会。所有的部门，大的部门都有一个代表，在这样一个委员会里面。

我想人工智能就讲到这里，跟大家讲量子计算也开个头。

量子计算这件事情是非常激动人心的一件事情，而且我可以很负责任的跟大家讲，量子计算这件事情是一定会发生的，只是不知道多少年以后。我刚刚接手，我四年前这个量子计算这个部门归我管的时候，一开始我是没有认识到这个问题有多么的激动人心，我一直觉得量子计算这个东西，可能是五十年以后的问题。后来看到他们做了一些工作以后，至少也是十五年以后的问题。十五年以后我就不用去担心了，那是以后其他人的问题。后来再看看这个东西，哇，这个东西越来越有希望，看起来像五到十年说不定会发生的事情，那就变成自己的事情了。

量子计算它最了不起的地方就是，量子计算跟电子不一样，电子都是0和1，而量子0和1是同时存在的。如果量子计算，当量子计算发生的时候，它这种运算的能力是今天的电子计算是不可想象的这样的能力。它可以解很多很多今天没法解的问题。我们今天对量子计算的理解，就相当于我们大概在五十年前左右是晶体管计算机的这样的境界，就是连这种都还没有。就是真空管，连这个二极管、三极管都还没有出现的时候，所以在这个地方就是很多很激动人心的地方。

但是这个量子计算最难做的一件事情，就是量子这个东西它不稳定，量子它不可观察，在这样的情况下，怎么样可以弄到有量子，真正能够量子很稳定的去做，那么微软走了一条自己跟别人非常不一样的道路，叫做突破量子计算。希望以后还有机会再被你们邀请，回来再跟大家多讲一讲量子计算。

我想今天跟大家的分享就这样，谢谢大家。