网易科技讯11月1日消息,首届中国智谷大会于南京召开。其中,百度技术委员会主席吴华女士为我们带来自然语言处理技术与应用的演讲。
吴华女士演讲中表示在互联网时代,人工智能迎来了新的机遇。由于各种产品产生,进而产生大量数据,促进着时代发展。
关于自然语言处理发展历程,据了解,从1947年wearer翻译备忘录到2015-2016年百度、谷歌等公司发布深度学习为主的翻译系统,期间从萌芽期到发展期到繁荣期,自然语言处理技术越来越成熟。
吴华女士表示了大数据和计算能力可以助人工智能走向复兴之路,在知识库、自然语言处理、机器学习等深度结合可以推动人工智能迈向理解之路。
以下是演讲全文:
吴华:我一直是做自然语言处理的,刚才讲的语音交互分两个部分,一个是语音识别,另外一个是语音离别。自然语言处理技术一直人工智能 的一个分支,所以在介绍自然语言处理之前,我简单回顾一下人工智能,张波院士在底下,我这是班门弄斧,这是弱人工智能,强人工智能,和超人工智能,我们现在处于这个阶段,超人工智能还是处于幻想阶段。简单回顾一下人工智能 发展历程,从1956年提出人工智能 这样一个概念以后,现在经过了整整60周年,之后有两起两落,在80年代的时候,有一个专家系统得到的很大的成功,但是之后也是沉寂下来了。其实真正跨时代的发展是在1997年的IBM的深蓝计算机战胜了围棋,这就证明了在一些领域方面超过了人类,之后IBM的问答系统以及今年的阿法 狗都是在单方面的能力超越了人,这个人工之梦还处于弱智能人工时代。
接下来回顾一下自然语言处理技术的发展历程,自然语言处理技术是人工智能的一个分支,所以他主要三个维度,一个是萌芽期,自然语言处理技术离不开机器翻译的发展,首先1947年提出了机器翻译备忘录的概念,1956年提出了形式语言理论,之后反应期也是进入70基于规则翻译方法,海耶1972年的人机交互系统,都是基于形式理论,之后是繁荣期,得益于互联网的发展得到一些数据,这样的话基于统计的这个翻译方法得到的长足的发展。1991年提出基于统计的翻译方法。
我们看这些进展都是刚才说到跟互联网有关系,一个是大数据,另外一个是存储和计算能力的增长,刚才上午也提到基因测序,其实是五年之前几个亿才可以完成,现在是1千美金就能完成。互联网的发展离不开产品、数据、技术,互联网上出现的各种各样的智能产品,这些产品能够产生各种各样的数据,这些数据又促进技术的发展,这些技术又能够使得越来越多的人用这个智能产品,所以循环往复。现在的互联网还没有理解能力,我们看看机器翻译的例子,第一个例子有困难找警察,基本上翻译找警察很困难。接下来看一下现在智能助手,还是现在非常火的一个领域,但是我们来看这种聊天例子,基本上还是没有理解人的语言,在这种趋势底下,那我们来看背后的技术,其实为什么是这样呢,因为我们背后的技术主要还是深度学习,也就是这是一个深度学习用于机器翻译的一个例子,比如说除计算模型用在机器翻译,用在分子识别标注等等,实际上还是没有达到理解。那么接下来我们看基于现在的挑战是什么,让机器像人一样思考。首先我们要做智能搜索,那我们先要深度理解用户的语言,首先来看知识库理解和推理的关系,首先要做的推理我们需要两种知识,一种是事实性的知识,一种是概念性的知识,事实 性主要代表有YAGO,satori等。在Query推理中,西游记是谁创作的,其实这是非常简单的例子,但他实际上是转化称西游记的作者是谁,这里面要用到概念性 知识和事实 性 知识尤其是动词语义的解释,所以我们在百度的时候我们做的一些概念的表示,比如说治疗这个词,相关的语义以及向下关系,一个聚合的关系,一个组合的关系,如果有这些知识,才能做到刚才的qurey的语义理解。这里面有一个例子,我们基于这样一个知识库作为Query理解,比如说订哪个机票,这个是我当时在用的时候试了这样一个例子,提醒我明天定后天从北京到南京的飞机票,这个是设置成功,除了这样还有基于知识库的关系推理,就是说这个关系比较复杂,比如说有一个妹妹,一个是同母 异父的,这个是Query理解和知识图铺了解,这是一种单人的理解,实际上人机交互的过程中要多人的理解,我们需要结合一个对话系统,而对话系统,我们首先来看一个例子。
定一个飞机票,是非常确定的任务,就是他只要知道出发点、目的地以及时间我就可以定,北京的知识库建一个飞机票的知识库就可以了,但是在query就不一样了我们怎么建立一个对话系统,我们基于意图图谱的对话系统。我们简单看一下,比如说阿拉斯加实际上他有起义,一个是地名,一个是犬,我们建立这样的图谱,我们就可以做大下面这样了一些引导,都是通过我们的意图图谱来的,这个意图图谱也不是单独生效的,我们用一些机器学习的进展比如说我们用的这个点击反馈,这个是增强事实,学习结合,这个例子可以看到,用了机器学习和意图图谱结合以后,我们相信用户的点击会越来越多。基于标签图谱的智能推荐,个性化的推进,我们就是用户兴趣和文档之间的关联,我们通过什么去关联,我们是通过标签网络去关联的,也就是说标签图谱,我们看一个简单的例子,这个是和人口智能相关的,他有实体关系,除了这些关系以外,我们有话题标签,话题标签就是说在互联网上经济按照各种各样的新闻,而这个话题,真的是用户关心的,所以就我们添加了话题标签,所以我们现在能在百度的APP里面能够看到各种各样标签,可能是和你个人兴趣相关的,你可以关注。
其实人的智能除了这种思考、理解以外,其实还有一个很大的技能就是创作,机器人写 诗,还能写文章等等。其实我们当时做这个项目的时候,类似于图灵测试,要人去区分左边和右边那首诗那个是人写的,哪些是机器人写的,那时候基本深骗过了所有的理科生,我们来看其实机器人写是诗 有两个过程,一个是主题规划,因此是做写 诗,规划其实是很重要,如果不规划,主题就会跑偏,当时我们用了其实只用不做主题规划,只用 写 诗的话就会与主题不相关,前面第一句话相关,后面不相关了。我们基于主题规划的过程是这样的。(英)实际上在她的主题扩张,也是一个知识,这个知识不是非常结构化的知识,比如说我们用了两个知识,一个是百度百科,一个是用了广告词,有是一些公司的公告词,每个qur扩展四个主题词,每个对应一个主题,这样的话我每个都是非常相关的。然后谁 诗模型其实是我们经常可以见到的基于深度学习的,只不过有一点变形,左侧是主题,右边是程序生成下一句话。我们也可以在百度APP里面,用语音看,为你写 诗就可以生成这样的写诗,任何的quary都可以。
最后讲两个,大数据和计算能力助人工智能走上复兴之 路,接下来我希望知识库、自然语言处理和机器学习能够深度结合助力人工智能迈向理解之路,谢谢!