斯坦福发布AI年度报告 中国AI论文数全球第二

1545033657000 来源: 网易智能 0人参与


【网易智能讯12月17日消息】近日,斯坦福大学发布了《2018年度全球AI报告》,从学术研究、产业、软件开源、公共利益等方面介绍2018年人工智能(AI)技术的发展,并记录计算机视觉、自然语言理解等领域的技术进展。

据介绍,这份报告致力于追踪、整理、提取和可视化与人工智能相关的数据,并成为政策制定者、研究人员、高管、记者和普通大众全面了解AI的依据,以便对复杂的AI领域形成更直观印象。

报告概述

今年的报告实现了两个目标:首先,刷新了去年的指标。其次,它尽可能在全球背景下解析AI技术的进展。前者对实现这份报告的使命至关重要,即奠定AI对话的基础,这意味着持续推进技术进步。但后者也是必不可少的。没有全球视角,就没有AI故事。

2017年的报告严重偏重于北美地区的活动,这反映出该项目全球伙伴关系数量有限的短板,并非一种固有偏见。今年,我们开始缩小全球差距。我们认识到,要使本报告的覆盖足够全面,还有很长的路要走,且需要进一步的合作和外部参与。不过,我们可以断言AI是全球性的技术。

2017年Scopus数据库的AI论文有83%来自美国以外。其中,28%来自欧洲,是所有地区中比例最高的。全球大学AI和机器学习(ML)课程的招生人数都在增加,尤其是中国清华大学,其2017年AI+ML课程的总招生人数是2010年的16倍。

不仅美国、中国和欧洲取得了进展,2014年,韩国和日本分别是AI专利的第二大和第三大生产国,仅次于美国。此外,南非还主办了第二届深度学习Indaba大会,这是世界上最大的ML教学活动之一,吸引了来自20多个非洲国家的500多人参加。

AI的多样性不仅仅是地理上的。如今,超过50%的AI合作项目都是盈利的,包括来自美国公民自由联盟(ACLU)、牛津大学人类未来研究所以及联合国开发计划署等的项目。与此同时,人们也越来越意识到性别和种族多样性对AI进步的重要性。例如,我们看到AI4ALL和Women in Machine Learning (WiML)等组织的人数都有所增加,这鼓励了弱势群体的参与。

活跃度指标和技术性能指标

这篇文章主要介绍了大会报告的第一部分——数据:活跃度和技术性能

活跃度指标体现了学术界、企业、企业家以及公众对AI活动的参与度。从大学生学习AI的人数,到申请AI工作的女性比例,再到AI初创企业风险投资的增长,这些数据包罗万象。

技术性能指标指AI性能随时间的变化。例如,我们可以测量AI回答问题的质量和计算机在测试中检测对象的速度。《2018年度全球AI报告》为去年的许多指标(如机器人安装和AI会议出席率)增加了额外的国家级粒度。此外,我们还增加了许多新的度量标准和研究领域,如专利、机器人操作系统下载、GLUE度量和COCO排行榜等。

总的来说,我们看到了去年主要成果的延续:几乎所有地方的AI活动都在增加,技术性能也在全面提高。不过,今年还是有些特别有趣的成果特别值得注意。这包括自然语言的显著进步,以及课堂上有限的性别多样性。

活跃度研究

一、2018AI论文发表概况

1.按学科分类

相对于1996年来说,下图显示了2018年度学术论文的年度出版率的增长情况。这张图表比较了所有科研领域、计算机科学(CS)和人工智能(AI)领域的论文增长。从1996年到2017年,每年发表的AI论文增长率都超过了CS领域,这表明AI论文的增长不仅仅是出于人们对计算机科学的兴趣才有所增加的。


图1:1996年到2017年间,每年按学科分类发表的AI论文增速情况

2.按地区分类

下图显示了按地区分类每年发表的AI论文数量。欧洲一直是最大的AI论文出产地,2017年Scopus数据库中28%的AI论文源自欧洲。与此同时,尽管2008年左右中国AI论文数量出现波动,但在2007年至2017年间,中国发表的论文数量增长了150%。


图2:1996年到2017年间,每年按地区分类发表的AI论文数量

3.细分领域分类

下图按细分领域分类显示了Scopus数据库中的AI论文数量。这些子类别并非互相排斥的。

2017年发表的AI论文中,有56%来自机器学习与概率推理这一研究方向,而在2010年,这一比例只有28%。图中展示的2014年到2017年大多数期间论文发表速度,都比2010年到2014年期间快。最值得注意的是,神经网络( Neural Networks )的复合年增长率(CAGR)在2014年只有3%,而到2017年却达到37%。

图3:1998年到2017年间,每年按细分领域分类发表的AI论文数量

4.arXiv上的AI论文

下图显示了arXiv上的AI论文数量,按照每篇论文的主要子类别分类。arXiv是个收集关于物理学、数学、计算机科学、生物学与数理经济学论文预印本的网站。右轴表示arXiv上所有AI论文的总和(以灰色虚线表示)。

arXiv上的AI论文总数以及许多子类别的论文数量都在增加。这些论文无论是经过同行评议还是已被AI会议接受,都表明AI作者倾向于传播他们的研究,这也表明了该领域的竞争性。自2014年以来,计算机视觉(CV)和模式识别一直是arXiv中最大的AI子类别。2014年之前,这一类别的增长与AI和机器学习密切相关。除了显示出对计算机视觉(及其通用应用程序)日益增长的兴趣外,这也表明其他AI应用领域的增长,如计算、语言和机器人技术等。


图4::2010年到2017年间,arXiv上按子类别划分的AI论文数量

5.按地区活动关注度分类

下图显示了美国、欧洲和中国的相对活动指数(RAI)。RAI通过将其与AI中的全球研究活动进行比较来近似区域的专业化程度。RAI的定义是,相对于全球AI出版物份额来说,某个国家的出版物所占比重。数值1.0表明,一个国家在AI方面的研究活动与全球在AI方面的活动完全一致。高于1.0的值意味着更重视,而低于1.0的值意味着较少重视。

中国的AI论文更侧重于工程技术和农业科学领域,而美国和欧洲的AI论文则倾向于人文科学和医疗卫生科学。与2000年的数据相比,2017年的数据显示,这三个地区的专业化程度有所提高,中国的重点正转向农业。这与我们的预期是一致的,因为中国是世界上最大的食品生产国,并且倾向于将研究重点放在应用AI方面。


图5:在2000年和2017年间,各区域AI研究关注重点

6.按机构关注度分类

下面的5张图表显示了与政府、企业和医疗机构合作的Scopus数据库中AI论文的数量。其中,前三张图直接比较了中国、美国以及欧洲这三个地区按机构关注度分类的AI论文数量,后两张图则显示了各地区企业和政府发表的论文数量。

2017年,中国政府发表的AI论文数量是中国企业的近4倍。自2007年以来,中国政府发表的AI论文数量增长了400%,而同期企业发表的论文数量仅增长了73%。

在美国,所有AI论文中,企业论文所占比例相对较大。2017年,美国企业发表AI论文比例比中国企业高6.6倍,比欧洲企业高4.1倍。


图6:1998年到2017年间,中国每年按机构分类发表的AI论文数量

图7:1998年到2017年间,美国国每年按机构分类发表的AI论文数量


图8:1998年到2017年间,欧洲每年按机构分类发表的AI论文数量

图9:2009年到2017年间,各地区企业发表AI论文的增长情况


图10:2009年到2017年间,各地区政府发表AI论文的增长情况

7.AI论文引用概况

下图显示了AI作者的地域加权引用(FWCI)。地域加权引用是是AI作者在该地区接收的平均引用次数除以所有AI作者的平均引用次数。在这张图中,FWCI是重新建立的,这意味着引用次数是相对于世界平均水平显示的。基于1的FWCI的重新计算表明,这些出版物被引用的次数与世界平均水平相当。

若FWCI为0.85,表明论文的被引用率比世界平均水平低15%。尽管欧洲每年发表的AI论文数量最多,但欧洲FWCI仍保持相对平稳水平,与世界平均水平相当。相比之下,中国已大幅增加其FWCI。2016年,中国的AI作者被引用率比2000年高出44%。尽管如此,美国的总引用率仍高于其他地区,比全球平均水平高出83%。


图11:1998年到2016年间,AI作者的地域加权引用

8.AI论文作者流动性

下图显示了国际流动性对AI论文发表率和被引用率的影响。我们研究了四种流动类型:久坐性、暂时性、迁移性流入和迁移性流出。久坐性作者是活跃的研究人员,他们没有在自己的家乡以外发表过文章。暂时性作者在他们家乡意外地区发表文章的时间不超过两年。迁移性作者在两年或更长的时间里向其他地区投稿。


图12:1998年到2017年间,中美欧三个地区AI作者论文的发表率和地域加权引用影响

下图中的X轴表示相对发表率,即每个类别中作者的平均发表次数除以该区域的总体平均发表次数。Y轴表示地域加权引用,即每个迁移性作者收到的平均引用次数除以该区域总体上的平均引用次数。

如果作者的论文中至少有30%涉及AI,那么他就被视为“AI作者”。在美国、中国和欧洲,暂时性作者的出版率最低。此外,在这三个地区,迁移性作者的FWCI最高。因此,他们倾向于是拥有更多引用次数和更频繁发表文章的作者。

在这三个地区中,中国的久坐性AI作者比例最高(76%),其次是欧洲(52%),然后是美国(38%)。虽然中国久坐性作者比例较大,但与其他地区的非久坐性作者相比,中国的非久坐性作者发表率往往较高。换句话说,尽管在地理上具有流动性的中国作者相对较少,但他们往往比其他地方的迁移性作者更多产。

9.各国AAAI论文

下图显示了按国家分类的2018年人工智能促进协会(AAAI)会议提交和接受的论文数量。2018年AAAI会议于2018年2月在美国路易斯安那州新奥尔良举行。在2018年提交给AAAI的论文中,约有70%来自美国或中国。虽然中国的论文投稿数量最多,但美国和中国被接受的论文数量几乎相同,分别为268篇和265篇。因此,美国相关论文的中选率为29%,而中国为21%。德国和意大利的论文中选率最高,达到41%。


图13:2018年AAAI会议提交和中选的论文

二、高校AI课程注册情况

1.学生人数

下图显示了入读AI和机器学习(ML)课程的本科学生所占百分比。虽然选择AI课程的本科生比例往往略高于ML课程(AI平均为5.2%,ML为4.4%),但入读ML课程的本科生人数增长速度更快。这显示了机器学习作为AI子领域变得越来越重要。


图14:2010年到2017年间,入读AI和ML课程的本科生比例

2.美国AI课程

下图显示了美国几所领先的计算机科学大学AI和ML课程注册人数增长情况。2017年入读AI课程的人数比2012年增加了3.4倍,而2017年ML课程入学人数比2012年增加了5倍。美国加州大学伯克利分校2017年入门ML课程的学生人数是2012年的6.8倍。


图15:2012年到2017年间,入读AI和ML课程的学生增长情况

3.国际AI课程

下面两张图显示了美国以外几所领先计算机科学大学的AI和ML课程注册情况。2017年,清华大学的AI+ML课程入学人数比2010年增加了16倍,是非美国院校外增长率最高的高校。在所有被研究的学校中,我们发现AI课程招生的增长相对依赖学校,并没有受到地理位置的特别影响。


图16:2010年到2017年间,美国之外AI+ML课程注册人数增长情况

三、AI会议概况

1.大型学术会议

下图显示了大型AI会议的出席率,以及相对于2012年大型会议出席人数的增长情况。大型AI会议是指2017年超过2000人参加的会议。NeurIPS(前身是NIPS)、CVPR和ICML是参加人数最多的AI会议。自2012年以来,它们的出席人数增长最快。NeurIPS和ICML参与人数增长最快:2018年与2012年相比,NeuRIPS增长3.8倍,ICML增长5.8倍。这表明人们对ML作为AI的子领域仍然非常感兴趣。与此同时,专注于符号推理的会议继续显示出较小的相对增长率。


图17:1984年到2017年间,大型AI学术会议参会情况

2.小型学术会议

下图显示了小型AI会议的出席率,以及相对于2012年小型AI会议出席人数的增长情况。小型AI会议是指2017年参会人数不足两千人的会议。ICLR 2018年的出席人数比2012年增加了20倍。这种增长很可能今天AI内部更加注重深度和增强学习的结果。


图18:1995年到2017年间,小型AI学术会议参会情况

3.多样性组织

下图显示了致力于支持女性机器学习的组织WiML主办的年度会议的出席人数,以及参加AI4All活动的校友人数。AI4All是个旨在提高AI多样性和包容性的阻止。WiML和AI4All在过去几年都看到了项目注册的增加,WiML的参与者比2014年增加了600%,AI4ALL的校友比2015年增加了900%。这些增长表明,AI领域仍在努力吸纳女性和弱势群体。


图19:参加AI和ML学习的女性和弱势群体人数在增加

四、机器人软件下载

下图显示了从ROS.org下载的机器人操作系统(ROS)二进制包的数量。ROS是一种广泛使用的机器人软件栈开源软件,它被许多商业制造商和学术研究人员使用。左轴显示的是总的月平均下载次数,而右轴仅显示来自唯一IP地址的月平均下载次数。自2014年以来,总下载量和独立下载量分别增长了352%和567%。这表明人们对机器人技术和机器人系统的使用越来越感兴趣。由于独立下载的数量比总下载数量增长更快,我们可以推断出有更多的ROS用户,而不仅仅是ROS使用得更频繁。

自2012年以来,ROS.org页面浏览量最大的五个地区中,美国和欧洲的ROS页面浏览量最高。而中国是所有大型地区中增长速度最快的,2017年的中国浏览量是2012年的18倍。


图20:2011年到2018年间,机器人操作系统(ROS)下载数量增长情况

五、AI创业公司与投资

1.AI创业公司

下图显示了在给定年份里,由风险投资支持的活跃美国私人创业公司数量。蓝色的线(左轴)只显示AI创业公司,而灰色的线(右轴)显示所有风险投资支持的创业公司,包括AI创业公司。这张图表显示了每年1月份的创业公司总数。从2015年1月到2018年1月,活跃的AI创业公司增长了2.1倍,而所有活跃的创业公司增长了1.3倍。在很大程度上,活跃创业公司的增长保持相对稳定,而AI创业公司的数量呈指数增长。


图21:1995年1月到2018年1月,美国AI创业公司数量增长情况

2.风险投资

下图显示了风险投资公司(VC)在所有融资阶段向活跃的美国初创企业提供的年度资金数额。蓝色的线(左轴)只显示对AI创业公司的资助,而灰色的线(右轴)显示对所有风险投资支持的创业公司的资助,包括AI创业公司。这些数据都是年度数据,不像上个图表中的数据那样是逐年累积的。从2013年到2017年,扶持AI创企的风险投资资金增加了4.5倍,而所有流向初创企业的资金增加了2.08倍。1997年到2000年期间的风险投资繁荣,可以用网络泡沫来解释。2014年和2015年规模较小的繁荣,则反映了一段时期内经济相对增长较高的情况。


图22:1995年到2017年间,AI初创企业每年获得的风险投资资金

六、AI人才和专利

1.人才需求

下面的图表显示了AI技能领域每年所需的职位空缺数量,以及所需AI的职位空缺的相对增长情况。AI技能之间并非相互排斥的关系。虽然ML是最重要的技能要求,但深度学习(DL)正在以最快的速度增长。从2015年到2017年,需要DL技能的职位空缺数量增加了35倍。


图23:2015年到2017年间,需要AI技能的空缺职位

2.申请人性别多元化

下图显示了2017年AI职位空缺的男女申请者比例。这些数据是按照所需要的技能收集的,而且并非是相互排斥的。在美国,平均而言,男性求职者占AI职位求职者总数的71%,因为机器学习要求的求职者数量最多,这一比例在很大程度上是由机器学习求职者推动的。此外,与其他类别相比,机器人学、深度学习和机器人性别多样性差距更大。


图24:2017年,按性别申请AI职位情况

3.专利

下图显示了AI专利的数量和增长情况,主要按发明人所在区域划分。AI专利的聚合使用的是IPC代码,它属于认知和意义理解以及人机界面技术领域。随着时间推移,追踪专利是十分困难的。2014年,约30%的AI专利源自美国。其次是韩国和日本,这两个国家各自占比达16%。在顶级发明人地区中,韩国和中国台湾增长最快,2014年AI专利数量是2004年的近5倍。


图25:2004年到2014年间,按发明人所在地区划分的AI专利

七、AI采用

1.按地区划分AI嵌入功能

下面的图表显示了麦肯锡公司(McKinsey &Company)对2135名受访者的调查结果,每个人都代表他们的组织给出了回复。这张图表显示的是那些组织至少在一个功能或业务单元中嵌入了AI功能的受访者比例。受访者可以选择多种AI能力。虽然某些区域采用某些AI功能比其他区域更广泛,但是跨区域采用AI的水平基本差不多。


图26:2018年,至少在某个功能中嵌入AI功能的公司比例

2.行业与功能

下面的图表显示了麦肯锡公司对2135名受访者的调查结果,每个人都代表他们所在的组织进行了回答。图表中显示了在特定的业务功能中已经测试或嵌入AI功能的受访者比例。这些组织倾向于将AI功能纳入其行业内最有价值的功能中。例如,金融服务在很大程度上利用AI应对风险,而汽车制造、零售营销/销售也是如此。这意味着AI在特定应用(如制造业)方面的进展速度,可能与在那些专业化尤为重要的行业中的应用程度相关。


图27: 2018年,在特定业务功能中测试或嵌入AI功能的企业比例

八、企业和政府关注度

1.财报电话会议中提及AI和ML的次数

下图显示了按行业划分的公司财报电话会议中,人工智能(AI)和机器学习(ML)等关键词被提及次数。第一张图表仅显示了IT领域科技公司财报电话会议中提及的AI和ML次数,因为该行业与AI和ML的关系更为密切。第二张图表显示了IT以外的行业在财报电话会议提到的AI和ML次数。2015年提到AI和ML的IT公司数量持续增加。但对于大多数其他行业而言,这一增长始于2016年。在财报电话会议中,除了科技行业之外,提及AI次数最多的公司,基本上分布在消费、金融和医疗保健行业。

图28: 2007年到2017年间,科技公司和其他行业公司财报电话会议中提到AI次数

2.机器人安装

下图显示了按地区划分的工业机器人年度安装数据。第一张图表显示了五个机器人安装最大的地区,第二张图表则显示其他地区的机器人安装情况。自从2012年以来,中国年度机器人安装增长了500%,而其他地区(比如韩国和欧洲)分别增长了105%和122%。


图29: 2012年到2017年间,世界不同地区机器人安装情况

3.GitHub明星

下图显示了各种AI和ML软件包在GitHub上加星号的次数,这提供了各种AI编程框架流行程度的粗略度量。最近的趋势是,由大公司支持的框架(即与其他语言相比)越来越受欢迎,包括谷歌的Tensorflow、Facebook的Pytorch以及亚马逊的mxnet等。


图30: 2015年到2018年间,比较受欢迎的AI变成框架

4.媒体覆盖情绪

下图显示了包含AI这个词组的大众媒体文章比例,这些文章被分为积极的、消极的或中性的。AI文章变得不那么中性,反而更加积极,特别是自2016年初以来,正面描述AI文章从2016年1月的12%增至2016年7月的30%。从那以后,正面文章的比例一直徘徊在30%左右。


图31: 2013年到2018年间,提及AI的文章情绪分析情况

5.政府关注度

下列图表显示了美国国会记录、加拿大和英国议会议事记录文本中AI和ML这两个术语被提及的次数。自2016年以来,在这三个国家的政府中,对这些术语的提及大幅提高。不过相对于AI来说,ML在2016年以前很少被提及。

注意,方法上的差异使得国与国之间的比较很困难。


图32:加拿大和英国议会议事记录文本中,AI和ML被提及的次数

技术性能

一、图像识别——ImageNet大赛

下图显示了ImageNet的精准度随着时间变化而获得的性能改进。ImageNet大赛一直持续到2017年,旨在特定于大赛的“测试”数据集上对模型进行评分。由于比赛已经结束,我们的报告选择通过研究论文来跟踪ImageNet的持续进展。结果显示,ImageNet的性能始终在提高。这个度量标准还强调了建模AI进展所固有的挑战:如果某个研究度量是围绕某场ImageNet大赛建立的,那么取消比赛可能会使获得真正进展变得更具有挑战性。然而,由于开放数据集的可用性,可以通过某些巧妙的处理来确保连续性。


图33: 2010年到2018年间,ImageNet的性能始终在提高

二、ImageNet训练时间

下图显示了训练网络对来自ImageNet语料库(图像数据库)的具有高度可信度的图片进行分类所花费的时间,这个度量标准是AI领域中资源丰富的参与者为培训大型网络执行AI任务(如图像分类)所需的时间。由于图像分类是一项相对通用的监督学习任务,因此该指标的进展也与其他AI应用程序的更快培训时间有关。在一年半的时间里,培训网络所需的时间从大约1个小时降到了大约4分钟。ImageNet训练时间度量也反映了AI研究的产业化。减少ImageNet培训时间的因素包括:算法创新和基础设施投资(例如用于培训系统的底层硬件,或用于连接这些硬件的软件)。


图34: 2017年6月到2018年11月,ImageNet训练时间变化图

三、实例分割——COCO

随着计算机视觉算法在ImageNet提供的目标检测和图像分类任务中取得了较高的性能,ImageNet挑战赛于2017年结束,CV领域把重点放在了微软的COCO上,即挑战语义分割和实例分割。从那时起,这个研究团体转向了更困难的计算机视觉任务。该社区将注意力转移到需要更复杂推理的视觉任务上,比如定位具有像素级精度的对象(称为对象实例分割),以及将场景划分为具有像素级精度的区域(称为语义分割)。四年来,COCO数据集上图像分割挑战的精确度已经提升了0.2,2018年的成绩比2015提升了72%。不过,目前还没有超过0.5,这各领域还有充足的进步空间。


图35: 2015年到2018年间,COCO数据集图像分割精度不断提高

四、语义分析

下图显示了AI系统在确定句子句法结构任务中的表现。解析度量是理解某些任务(如回答问题)中理解自然语言的第一步。最初使用类似于解析编程语言的算法完成,现在几乎普遍使用深度学习。自2003年以来,所有句子的F1得分都提高了9个百分点(或10%)。


图36: 1995年至2018年间,选区解析 - Penn Treebank

五、机器翻译

下图显示了AI系统在将新闻从英语翻译成德语、德语翻译成英语任务中的表现。如今,从英语到德语的翻译表现比2008年好3.5倍,而从德语到英语的翻译量也提高了2.5倍。因为每年使用不同的测试集,所以不同年份的BLEU分数并不完全相同。尽管如此,BLEU的分数显示了机器翻译取得的巨大进步。


图37: 2008年至2018年间,新闻翻译- WMT挑战

六、问题解答——ARC

下图显示了AI2推理挑战(ARC)随时间推移在性能方面取得的进展。 ARC数据集包含7787个真正小学水平的多选科学问题,以鼓励高级问答的研究。这问题分为挑战集(2590个问题)和简易集(5197个问题)。挑战集仅包含基于检索的算法和单词共现算法错误回答的问题。问题是纯文本的英语考试问题,涵盖几个年级。每个问题都有多项选择结构(通常有4个答案选项)。这些问题由ARC语料库提供,它包含着1400万条无序的、与科学相关的句子,包括与ARC相关的知识。无法保证可以在语料库中找到问题的答案。ARC基准测试于2018年4月发布。2018年的表现在简易集上从63%上升到69%,在挑战集上从27%上升到42%。


图38: 2018年4月到2018年11月,ARC排行榜

七、问题解答——GLUE

下图显示了GLUE基准测试排行榜的结果。通用语言理解评估(GLUE)是个新的测试基准,旨在测试自然语言理解(NLU)系统在一系列任务上的表现,并鼓励开发不适合特定任务的系统。它由九个子任务组成,分别是两个单句(测量语言可接受性和情感)、三个关于相似性和释义的句子、四个关于自然语言推理的句子,包括Winograd模式挑战。语料库大小从不到1000个到超过40万个不等。测量指标包括准确度/ F1和主题相关系数。尽管该基准测试仅在2018年5月发布,但性能已经提高。


图39: 2018年5月至2018年10月,GLUE基准排行榜

(选自:Stanford University  编译:网易智能 参与:小小)

缃戝弸璺熻创

浜鸿窡璐达紝浜哄弬涓�
璺熻创
鐑棬 鏈�鏂�
鏆傛棤鏁版嵁
姝e湪杞藉叆...
宸叉棤鏇村鏁版嵁
鍐欒窡璐�
{{threadInfo.joinCount}}
鍙栨秷 鍙戝竷