2018...

54
1 2018 中国人工智能指数 China AI Index 2018 陈络、崔晓晖、莫泉、肖蓉、许成钢、杨威 武汉大学大数据与云计算实验室 长江商学院人工智能-制度研究中心

Upload: others

Post on 18-Jun-2020

24 views

Category:

Documents


0 download

TRANSCRIPT

1

2018 中国人工智能指数

China AI Index 2018

陈络、崔晓晖、莫泉、肖蓉、许成钢、杨威

武汉大学大数据与云计算实验室

长江商学院人工智能-制度研究中心

2

3

作者(按姓氏字母排列)

陈络(研究生,武汉大学大数据与云计算实验室)

崔晓晖(主任、教授,武汉大学大数据与云计算实验室)

莫泉(研究生,武汉大学大数据与云计算实验室)

肖蓉(研究生,武汉大学大数据与云计算实验室)

许成钢(主任、教授,长江商学院人工智能-制度研究中心)

杨威(研究生,武汉大学大数据与云计算实验室)

2018 中国人工智能指数

I

目录

摘要 ..........................................................................................................................................................................3

1. 前言 (Overview) ..............................................................................................................................5

2. 中美人工智能发展对比 (AI Development: China vs. US) ...........................................6

2.1学术领域 (Academia) ......................................................................................................................6

2.1.1学术刊物论文发表数量 (Journal Publications) .................................................7

2.1.2学术会议出席人次 (Conference Participation) .................................................8

2.1.3 学术影响力指数:论文引用指数 (Impacts of Publications: Citations)

.............................................................................................................................................................. 10

2.1.4 期刊论文的质量指标:分级引用指数 (Quality of Jurnal Pblications:

Citation Fequency) .................................................................................................................... 13

2.1.5 会议论文的质量指标:分级引用指数 (Quality of Conference Papers:

Citation Frequency) .................................................................................................................. 16

2.1.6人工智能各领域分析 (Sub-areas of AI) .............................................................. 20

2.2人才储备及分布 (AI Talents) ................................................................................................. 28

2.2.1人工智能人才总体情况 (AI Talent Pool) ....................................................... 28

2.2.1人工智能学术人才的分布 (AI Talents in Academia) ..................................... 30

2.3产业领域 (AI Industry) ............................................................................................................ 38

2.4开源人工智能软件包(Open Source AI Softwares) ......................................................... 38

2.5公众认知及媒体报道 (Media Coverage on AI) ................................................................ 41

参考文献 (Reference) .................................................................................................................................. 43

附录 (Appendix).............................................................................................................................................. 44

A1: 学术论文 (A1: Journal Publications) ...................................................................................... 44

主要数据源和数据集 (Data Sources) ........................................................................................... 44

收集的数据的定义 (Definitions of Variables) .................................................................... 44

收集过程 (Data Collection) ........................................................................................................... 44

备注 (Remarks) ....................................................................................................................................... 45

A2: 会议出席情况 (Conference Participation) ............................................................................. 45

主要数据源和数据集 (Data Sources) ......................................................................................... 45

收集的数据的定义 (Definitions of Variables) .................................................................... 45

收集过程 (Data Collection) ......................................................................................................... 45

备注 (Remarks) ....................................................................................................................................... 46

A3: AI领域创业公司 (Startup Companies in AI) .......................................................................... 46

主要数据源和数据集 (Data Sources) ........................................................................................... 46

收集的数据的定义 (Definition of Variables) ...................................................................... 46

数据收集过程 (Data Collection) .................................................................................................. 46

备注 (Remarks) ....................................................................................................................................... 46

A4: 人才分布 (Talents in AI) ................................................................................................................ 47

A5.GitHub开源软件 (Open Source AI Softwares) .......................................................................... 47

主要数据源和数据集 (Data Sources) ........................................................................................... 47

收集的数据的定义 (Definition of Variables) ...................................................................... 47

收集过程 (Data Collection) ........................................................................................................... 47

China AI Index 2018

II

备注 (Remarks) ....................................................................................................................................... 48

A6. 公众认知及媒体报道 (Public Opinions and Media Coverage) ........................................ 49

主要数据源和数据集 (Data Sources) ........................................................................................... 49

收集的数据的定义 (Definition of Variables) ...................................................................... 49

收集过程 (Data Collection) ........................................................................................................... 49

2018 中国人工智能指数

3

2018 中国人工智能指数

陈络、崔晓晖、莫泉、肖蓉、许成钢、杨威

摘要

《2018中国人工智能指数》从学术、产业、开源软件包使用、公众认知及媒体等方面,

进行中美对比,以此度量中国的人工智能在最近十几年里的发展及影响。以下概要我们的基

本发现:

(1) 中国在人工智能的学术领域发展迅速。在学术期刊及专业会议发表论文的总数方面,

中国呈现快速接近美国的趋势。这一趋势在 2016之后尤其明显。中国的中、低等引用率的

论文的发表总数,在最近几年快速接近了美国的总数。但在最具原创性最具影响力的极高引

用率和高引用率的论文方面,中国虽有大的进步,与美国的差距仍然相当显著。在没有被引

用的、通常是狭窄应用的研究论文方面,中国的发表总数超过了美国。在人工智能的一些领

域,包括机器学习、文本分析和 NLP、计算机图像与视频分析、虚拟代理及群体智能等,中

国的论文发表总数和被引用总数,在最近几年里大幅度缩小了与美国的差距。但是在深度学

习、机器人流程自动化、以及包括推理学习等在内的其他领域,从发表总数和引用率方面,

与美国的差距都仍然显著。

(2) 在产业领域,在最近二十几年里,中国活跃的人工智能初创公司整体上呈快速发

展趋势,2016年超过 400家,达到顶峰。中国活跃的人工智能初创公司数字在 2012年之前

多于美国,但是在 2012年以后被美国超越。尤其是在 2016年之后,中美两国在产业领域的

差距加大。2016 年之后,美国的人工智能初创公司数量快速上升,在 2018 年超过 600 家,

而中国则在 2016年之后下降,在 2018年降至不到 200家。

(3)在人工智能的学术人才方面,除了有特大影响的人才外,中国有能力发表有影响

的(即被引用的)论文的作者人数与美国之间的差距持续缩小。 发表没有被引用的论文的

作者人数,最近几年大幅增加,超过美国。但特大影响(特高引用率)作者的人数显著少于

美国。在人工智能的所有人才,包括学术、产业等所有方面的普遍人才方面,据领英(LinkedIn)

人才数据库,中国的 AI人才总数为 5万,而美国的 AI人才总数为 83万。

China AI Index 2018

4

(4)我们用关注开源软件包的统计,度量人工智能研发程度的指标。中国在最近三年

里,关注人工智能开源软件包的总数迅速上升,并在 2017年秋超过了美国。但是,几乎 93%

的中国研究者使用的人工智能开源软件包,是美国的机构开发提供的。中美两国人工智能研

究者使用最多的软件包是 Google 开发的 TensorFlow。在 2018 年初,中美研究人员对此的

关注人数,分别达到将近 9000人和约 7000人。

(5) 人工智能的应用处仍然于起步阶段。其广泛应用和发展的前景,以及人们是否能在

人工智能的发展过程中及时纠正偏差,与公共认知高度相关。我们收集的媒体大数据显示,

在 2014 年之前,中国媒体对人工智能的正面报道略多于负面,差距不大。此后,负面报道

持续下降,正面报道逐年增加,全面压倒负面报道。相比之下,全球英语世界的报道,多数

属于没有正负之分的中性。在2013年到2015年之间,正负报道之间的差距曾经大幅度缩小。

在 2016 之后,正面报道大幅度提高,而负面报道则没有显著变化。 这个趋势与 2016年之

后美国人工智能投资初创企业的快速增长高度相关。

2018 中国人工智能指数

5

1. 前言 (Overview)

自 1950年代提出“人工智能”概念以来,人工智能领域取得了长足的发展。特别是 2010

年以后,随着可用数据量的迅速增长,计算能力的巨大提高,以及深度神经网络的发展,人

工智能迎来了爆发性的增长。人工智能已经渗透到了社会经济的各个方面,在各个领域都产

生了深远的影响,成为正在兴起的产业革命的核心技术。

2016 年初美国白宫科技政策办公室发布《为人工智能的未来做好准备》、《国家人工智

能研究和发展战略计划》以及《人工智能、自动化与经济报告》等报告,推动成立了机器学

习与人工智能分委会(MLAI),负责协调人工智能的研究与发展工作;以及对人工智能相关

产业问题给出技术方面和政策方面的建议[1]。2019 年 2 月 11 日,美国总统特朗普签署行

政令《美国人工智能倡议》,旨在调动美国联邦资源用于人工智能,以确保美国的领先地位。

中国的人工智能在最近十几年里开始快速发展。2016 年 1 月以来中国人工智能学会相

继发布《中国人工智能发展系列白皮书》,包含机器学习、自然语言处理、模式识别等 12

个类别[3]。2017年 7月 8日国务院印发《新一代人工智能发展规划的通知》(以下简称《规

划》),指出,“人工智能作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和

产业变革积蓄的巨大能量,并创造新的强大引擎„。”《规划》指出当前中国在相关领域缺少

重大原创成果;在基础理论、核心算法以及关键设备等方面有较大差距;尖端人才远远不能

满足需求。《规划》为中国的人工智能发展规划了三步战略目标,期望到 2030年,中国成为

世界主要人工智能创新中心[4]。从 2017到 2019 年,在国务院总理的政府工作报告中,连

续三年强调人工智能的重要性。

本文建立中国人工智能指数,以便定量理解中国人工智能发展的现状。我们的度量范围

包括学术、产业、开源软件包使用,以及公众认知等。其中部分指数的构建沿用斯坦福大学

的人工智能指数的方法(《2017人工智能指数年度报告》(Artificial intelligence index

2017 Annual Report,以下简称《斯坦福报告》)[5])。我们的人工智能指数的具体构造如

下表 1所示。

China AI Index 2018

6

表 1. 中国人工智能指数构造方法

Table 1. Indicators of the AI index

1. 学术领域(Academia)

期刊论文发表

(Journal

publications)

学术会议出席情况

(Conference

participation)

论文影响力

(Impacts of

academic

papers)

人工智能子领域分析

(Research in AI

sub-areas)

2. 人才分布 (Human Capital)

总体人才储备

(Stock of human capital in AI)

学术人才储备

(Stock of human capital in AI academia)

3. 产业领域 (AI Industry)

AI领域创业公司(Startup companies in AI)

4. 开源软件包使用和开发 (Development and use of open source package)

GitHub项目统计 (Github projects)

5. 公众认知及媒体报道 (Pulbic opinions and media coverage on AI)

公众舆论倾向 (Trend of public opinions)

我们在学术领域的指数比斯坦福指数更详细。我们的指数针对中国,同时与美国进行对

比。斯坦福指数涵盖的领域比我们更宽(因我们可收集数据的限制所致);是全球性的,除

了个别项目集中于美国外,基本不报告具体国别的发展程度。

2. 中 美 人 工 智 能 发 展 对 比 (AI

Development: China vs. US)

2.1 学术领域 (Academia)

在快速发展的人工智能领域,最重要的学术成果通常首先是在主要学术会议上报告的论

文,其次是在学术刊物发表的论文。我们首先报告中美两国学者在学术刊物以及学术会议上

发表的论文数量以及学术会议出席(即宣读论文)人次等情况, 然后报告度量质量的指数,

2018 中国人工智能指数

7

包括刊物发表论文和会议论文被引用的次数,以及被大量引用的高影响力论文数字等方面的

信息。

2.1.1 学术刊物论文发表数量 (Journal Publications)

首先,我们报告从 1995 年至今,在 Scopus 数据库中,可以被检索到的标注关键字为

Artificial Intelligence 的全部中、美人工智能论文数量[6]。论文的“国家”的定义以

及数据的获取方法见附录 A1。由图 1 可见,中国在人工智能领域发表的研究论文的数量,

整体上少于美国。曾在 2008年到 2012年期间超过美国,后又少于美国。最近再度接近美国

的水平。

图 1.中美人工智能期刊论文年度发表量对比

图 2 报告的是以 1996年本国发表的论文为基数,中美两国人工智能论文发表的增长情

况。 由图可见,中国在期刊发表方面自 2006 年起开始快速增长。2017 年中国发表论文的

数量比 1996年增加了约 41倍,相比之下,美国在 2017年发表的论文增长了约 5.5倍左右。

中国

美国

0

500

1000

1500

2000

2500

3000

3500

4000

4500

1995 2000 2005 2010 2015

Figure 1. The number of journal publications: China vs. US

中国

美国

China AI Index 2018

8

图 2. 中美人工智能期刊论文发表量增长情况对比

2.1.2 学术会议出席人次 (Conference Participation)

人工智能是迅速发展的领域。因此,该领域中最重要工作成果多数首先发表在学术会议,

甚至只发表在学术会议。学术会议的常规是,申请者的论文得到会议学术委员会或组织者接

受,才获得参会资格。因此,参会人数可以视为会议发表的统计。以下分别统计中美学者参

加大型和小型人工智能会议。参考《斯坦福报告》,大型会议(按 2016 年的参会人次超过

1000 人的会议为标准)主要包括:ACL, ICRA, ICML, CVPR, NIPS, IJCAI, AAAI;小型会

议(按 2016年所有参会人次少于 1000人为标准)主要包括:AAMAS, KR, UAI, ICAPS, CP[5]。

数据获取来源于 Scopus数据库[6]。数据获取方法见附录 A2。

图 3 报告 1995 年至今中美学者参加所有大型和小型人工智能学术会议的总人次统计。

由图可见,二十几年来,美国学者参加学术会议的人次始终明显高于中国,中美参会人次的

差距基本恒定。

中国

美国

0

10

20

30

40

50

60

1996 2001 2006 2011 2016

Figure 2: The growth of journal publications: China vs. US

中国

美国

2018 中国人工智能指数

9

图 3. 中美学者参加所有人工智能学术会议的总数

图 4展示从 1995年到 2017年,中美学者参加大型人工智能学术会议的人次。由图可见,

在这方面两国始终有很大差距,尽管在最近两年两者差距有收窄的趋势。

图 4. 中美学者参加大型会议总体对比情况

小型学术会议通常是快速发展的专门领域的、或者更高水平的会议。图 5 显示从 1995

年到 2017 年,中美学者参加小型学术会议出席的人次。由图可见,在参加小型会议的参会

人次方面,美国学者参会人次持续高于中国学者的参会人次,而且最近十年里,二者之间的

差距有增大趋势。

0

1000

2000

3000

4000

5000

6000

7000 Figure 3. Conference pariticpation: China vs. US

中国会议参会人数总和 美国会议参会人数总和

0

1000

2000

3000

4000

5000

6000

7000

8000

1995 2000 2005 2010 2015

Figure 4. Participation to large conferences: China vs. US

China

US

China AI Index 2018

10

图 5. 中美学者小型会议参会总体对比情况

2.1.3 学术影响力指数:论文引用指数 (Impacts of

Publications: Citations)

论文发表数量与论文的影响力之间没有简单关系,因为也有很高质量的论文很少被引用

的情况。本小结报告度量学术影响力的指数。其中包括 (1)所有刊物发表的关于人工智能的

论文的被引用指数 (2)大型人工智能会议论文的被引用指数 (3)小型人工智能会议论文的

被引用指数。获取论文被引用的数据来源为 Scopus数据库[6];的方法见附录 A2。

(1) 学 术 期 刊 论 文 被 引 用 情 况 (Citations of Journal

Publications)

图 6是中美学者每年在期刊发表的所有人工智能论文的被引用总数。由图可见,美国学

者发表的期刊论文被引用数始终明显高于中国学者发表的论文。 但是在 2010 年之后, 中

美之间的差距迅速下降,呈收敛趋势。

0

100

200

300

400

500

600

700

1995 2000 2005 2010 2015

Figure 5. Participation to small conferences: China vs. US

China US

2018 中国人工智能指数

11

图 6. 中美人工智能期刊论文被引用总数

(2) 学术会议论文被引情况 (Citations of Conference Papers)

图 7-9分别报告了中美两国学者参加所有人工智能会议,大型会议以及小型会议的论文

被引用的情况对比。如图 7和 8所示,在所有的人工智能会议以及大型会议的论文被引用方

面, 美国参会论文被引用总量始终远高于中国学者的参会论文,但是两者差距在 2009年有

明显收窄的趋势,2009 年之后差距基本保持平稳。 而在小型会议参会论文的被引用方面,

两国之间差距始终十分明显,尤其是在 2009年之前差距巨大,但是 2009年之后两国之间的

差距逐步收窄。

0

10000

20000

30000

40000

50000

60000

Figure 6. Citations of journal publications: China vs. US

US-citations China-citations

China AI Index 2018

12

图 7. 中美人工智能会议论文被引用总数

图 8. 中美人工智能大型学术会议论文被引数

图 9. 中美学者小型学术会议论文总体被引数

0

5000

10000

15000

20000

25000

Figure 7. Citations of conference papers: China vs. US

China US

0

5000

10000

15000

20000

25000

Figure 8. Citations of papers presented in large conference:

China vs. US

China US

0

500

1000

1500

2000

2500

3000

Figure 9. Citations of papers presented in small conferences:

China vs. US

US China

2018 中国人工智能指数

13

2.1.4 期刊论文的质量指标:分级引用指数 (Quality of

Journal Publications: Citation Frequency)

学术上、技术上,造成重大突破的,最有创造性的一篇论文,其影响力往往超过千百篇

跟随的论文。前小节报告的简单的引用指数,在一定程度上反映了影响力,但仍然不能将最

具创造性的工作区别于普通工作。为进一步将两国学者发表的论文质量进行对比,我们将论

文的引用数量分为 6个等级来进行分析,分别是千级(引用量 1000及以上),百千级(引用

量 500-999),百级(引用量 100-499),十级(引用量 10-99),个级(引用量 1-9)以及零

级(引用量 0)引用量文章。我们报告的年度是论文发表的时间,引用次数是每篇论文截止

2018年 10月的总引用次数。因为在发表后的三年内,多数论文的被引用数字都很少。在所

有的引用指数中,我们只关注 2015年底之前发表的论文。我们的数据来源为 Scopus数据库

[6]。值得提到的是,数据库中提供的信息只包括作者国籍,不包括作者所在机构,因此本

小节的中美作者按照国籍而不按照作者所在机构定义。

本节主要对两国期刊论文的影响力进行对比。 图 10 和 11报告了中美两国学者发表的

千级以及百千级期刊论文的总量以及被引用数。由于最具有影响力的论文被大量引用需要时

间,我们只报告在 2013 年前发表的期刊论文中被引用次数达到或超过 1000 次和 500-999

次的论文的数量以及被引用总频次。美国在千级期刊论文发表数量及总引用量方面均远高于

中国。 中国学者在 2004 年,2005 年和 2007 年各出现了一篇千级期刊论文, 而同一时期

美国学者发表了 12 篇千级引用量的期刊论文。在百千级期刊论文发表方面,美国仍然优势

明显, 但是两者之间的差距自 2008 年开始收窄,并于 2010年基本趋于一致。总体上,中

国学者在 2004年,2005 年以及 2013年各发表了两篇百千级期刊论文;并于 1997年, 2006

年, 2008年以及 2010年各发表了一篇百千级期刊论文。

China AI Index 2018

14

图 10.中美千级期刊论文引用总数量对比分析

图 11. 中美百千级期刊论文引用总数量对比分析

在百级,十级,以及个级引用量的期刊论文的统计上,考虑到被引用的时滞会比千级论

文时滞短,我们将发表的时间截断在 2015年。 图 12-14分别报告了中美学者发表百级,十

级以及个级引用量的期刊论文的总数以及被引用量。如图所示,在百级引用量期刊论文和十

级应用两期刊论文的发表数量以及被引用频次上,中国和美国在 2010 年前始终保持很大差

距,但是在 2010 年之后两国差距逐步缩小。另外值得注意的是,在个级引用量以及无引用

0

1

2

3

4

5

6

7

8

0

2000

4000

6000

8000

10000

12000

14000

16000

Figure10, Journal papers with more than 1000 citations:

China vs. US

US-citations China-citations

US-# of papers China-# of papers

0

5

10

15

20

0

2000

4000

6000

8000

10000

# o

f p

aper

s

##

of

cita

tio

ns

Year

Figure11. Journal Papers with 500-999 citations:

China vs. US

US-citations China-citations

US-# of papers China-# of papers

2018 中国人工智能指数

15

量的期刊论文方面,两国差距不很显著,尤其是从发表数量上看,自 2011 年起中国开始小

幅领先美国。

图 12.中美百级期刊论文引用总数量对比分析

图 13.中美十级期刊论文引用总数量对比分析

0

40

80

120

160

200

240

280

0

2500

5000

7500

10000

12500

15000

17500

20000

Figure12: Journal papers with 100-499 citations:

China vs. US

US-citations China-citations

US-# of papers China-# of papers

0200400600800100012001400160018002000

0

2000

4000

6000

8000

10000

12000

14000

16000

199

5

199

6

199

7

199

8

199

9

200

0

200

1

200

2

200

3

200

4

200

5

200

6

200

7

200

8

200

9

201

0

201

1

201

2

201

3

201

4

201

5

# o

f p

aper

s

# o

f ci

tatio

ns

Year

Figure 13. Journal papers with 10-99 citations: China vs, US

US-citations China-citations

US-# of papers China-# of papers

China AI Index 2018

16

图 14.中美个级期刊论文引用总数量对比分析

图 15.中美零级期刊论文发表总数量对比分析

2.1.5 会议论文的质量指标:分级引用指数 (Quality of

Conference Papers: Citation Frequency)

这一节我们报告两国作者发表的会议论文影响力。所用的方法以及数据来源与上一节相

同。图 16和 17分别报告了中美两国学者在 2014年前发表的千级和百千级会议论文的总量

以及被引用数。如图所示,中国作者在 2004、2005和 2007年各发表过一篇千级引用的论文。

01002003004005006007008009001000

-200

300

800

1300

1800

# o

f p

aper

s

# o

f ci

tatio

ns

Year

Figure 14. Journal papers with 1-9 citations: China vs. US

US-citations China-citations

US-# of papers China-# of papers

0

100

200

300

400

500

# o

f p

aper

s

Year

Figure 15. Journal papers without citation: China vs. US

US-# of papers China-# of papers

2018 中国人工智能指数

17

而美国研究机构的作者发表的千级会议论文在 2004年有 4篇,2005年有 7篇。在 2008年

之后,美国发表的千级会议论文数字下降。但中国从 2007年之后则没有千级会议论文。因

此,中美之间在千级会议论文方面,没有差距缩小的趋势。图 17所示的百千级会议论文两

国对比的总趋势与千级会议论文相似。

图 16.中美千级会议论文引用及发表数对比

图 17.中美百千级会议论文引用及发表总数对比

图 18-20报告中等影响力的会议论文作者统计。如图 18和 19所示,在百级会议论文和

十级会议论文的发表和被引用数方面,美国始终明显优于中国。两者的差距在 2009年之前

尤为巨大,但是在 2009年之后两国之间的差距在逐步缩小。但是在个级会议论文的发表数

0

1

2

3

4

5

6

7

8

9

10

0

2000

4000

6000

8000

10000

12000

14000

1995 2000 2005 2010

pap

ers

cita

tio

ns

Figure 16. Conference papers with more than 1000 citations:

China vs. US

US-cite China-cite US-number China-number

0

5

10

15

20

25

30

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

1995 2000 2005 2010

pap

ers

cita

tio

ns

Figure 17. Conference papers with 500-999 citations: China vs. US

US-cite China-cite US-number China-number

China AI Index 2018

18

和被引用数上,中国曾经在 2008年到 2010年之间短暂超越美国,但是在 2010 年之后,中

国再次落后于美国。

图 18.中美百级会议论文引用及发表总数对比

图 19.中美十级会议论文引用及发表总数

0

50

100

150

200

0

5000

10000

15000

20000

1995 2000 2005 2010 2015

pap

ers

cita

tio

ns

Figure 18. Conference papers with 100-499 citations: China vs. US

US-cite China-cite US-number China-number

0

500

1000

1500

2000

0

5000

10000

15000

20000

25000

30000

1995 2000 2005 2010 2015

pap

ers

cita

tio

ns

Figure 19. Conference papers with 10-99 citations:

China vs. US

US-cite China-cite US-number China-number

2018 中国人工智能指数

19

图 20.中美个级会议论文引用及发表总数

在零级会议论文(从未被引用的论文)方面,图 21显示从 2007年之后,中国作者的会

议论文总数大幅度超过了美国。我们统计的所有会议论文都是在同行评议的专业期刊发表的

会议论文,即会议论文的学术标准有同行评审制度的保证。我们推断,零级会议论文的主体

是应用性的。可能因应用范围狭窄,这些论文没有被引用。相比之下,最高影响力的会议论

文都在普遍方法论方面具有开创性。由此,我们概括,在影响最大的基础方法论方面,美国

持续领先中国。在中间水平的研究方面,中国与美国的差距在缩小。而在具体应用的方面,

中国发表的会议论文数量则超过了美国。

图 21.中美零级会议论文发表总数对比

0

500

1000

1500

2000

2500

0

1000

2000

3000

4000

5000

6000

7000

1995 2000 2005 2010 2015

cita

tio

ns

and

pap

ers

Figure 20. Conference papers with 1-9 citations: China vs. US

US-cite China-cite US-number China-number

0

500

1000

1500

2000

2500

Figure 21. Conference papers without citation: China vs. US

US-number China-number

China AI Index 2018

20

2.1.6 人工智能各领域分析 (Sub-areas of AI)

本小节将人工智能会议按照各领域进行分析,以便更具体反映中国人工智能各个领域的

发展,及对比中美在人工智能各具体领域的状况。根据人工智能学术会议的主题,我们将会

议分为 7类技术,其中包括机器学习、文本分析和 NLP、深度学习、计算机图像与视频分析、

虚拟代理及群体智能、和机器人流程自动化1。 由于 AAAI 和 IJCAI 为综合性会议,未将其

进行分类处理,同时会议有可能属于多个领域,因此可能会被划分到多个领域。我们把所有

不属于以上 7种技术的会议,称为其他领域。

基于表 2的划分,分别从参会人次、论文被引次数角度对比中美两国在各个领域论文发

表情况。会议数据来源为 Scopus数据库[6]。

表 2. 人工智能会议按领域划分

Table 2. Conferences of AI Sub-areas

人工智能子领域 (AI sub-areas) 会议 (Conferences)

机器学习 (Machine Learning) ICML,NIPS

文本分析和 NLP (Text Analysis & NLP) ACL,KR

深度学习 (Depp Learning) NIPS

图像与视频分析 (Image and Video Analysis) CVPR

虚拟代理、群体智能 (Virtual Agent & Group Intelligence) AAMAS

机器人流程自动化 (Robotic Process Automation) ICAPS

其他领域(推理学习等)(Others: Inferential Learning, etc.) UAI

(1) 机器学习 (Machine Learning)

由图22和23分别报告了中美两国在机器学习方面的参会人次以及会议论文被引用的情

况。如图所示,2015 年之前,在机器学习领域参会人次方面,美国明显领先于中国(2015

年之后的美国方面的数据有缺失)。而从会议论文的被引用上看,美国始终明显领先于中国。

1 我们的分类方法受弗雷斯特研究公司(Forrester Research)2017 年的人工智能 TechRadar 报告[7]的启发。

在该报告里,他们把人工智能分为 13 类技术。其中包括:自然语言生成,语音识别,虚拟代理,机器学习

平台,针对人工智能优化的硬件,决策管理,深度学习平台,语义分析技术,生物特征识别技术,图像与

视频分析,机器人流程自动化,文本分析和 NLP,和群体智能。

2018 中国人工智能指数

21

图 22. 机器学习领域中美参会人次对比

图 23. 机器学习领域中美参会论文被引用对比

(2) 文本分析和 NLP (Text Analysis and NLP)

由图 24和 25 可以看出,在本文分析和 NLP 领域,在 2015年之前,美国的参会人次和

论文被引次数均大幅领先中国。但 2015年之后中美趋同。

图 24. 文本分析和 NLP领域中美参会人次对比

0100200300400500600700800900

100011001200130014001500

Figure 22. Participation to conferences in mechine

learning : China vs. US

中国参会人次 美国参会人次

0200400600800

1000120014001600180020002200240026002800300032003400

Figure 23. Conference paper citations in mechine leaning:

China vs. US

中国-引用数 美国-引用数

China AI Index 2018

22

Figure 24. Participation to Conferences in text analysis and NLP: China vs. US

2018 中国人工智能指数

23

图 25. 文本分析和 NLP领域中美参会论文被引用对比

Figure 25. Conference paper citations in text analysis and NLP: China vs. US

(3) 深度学习 (Deep Learning)

从图 26和 27 可见,在深度学习领域,美国的参会人次、论文被引次数均大幅度领

先中国。

图 26. 深度学习领域中美参会人次对比

Figure 26. Participation to conferences in deep learning: China vs, US

China AI Index 2018

24

图 27. 深度学习领域中美参会论文被引用对比

Figure 27. Conference paper citations in deep learning: China vs. US

(4) 图像与视频分析 (Image and Video Analysis)

如图 28和 29所示,在图像与视频分析领域,美国的参会人次和论文被引次数均领先中

国。

图 28. 图像与视频分析领域中美参会人次对比

Figure 28. Participation to conferences in image and video analysis: China vs. US

2018 中国人工智能指数

25

图 29. 图像与视频分析领域中美参会论文被引用对比

Figure 29. Conference paper citations in image and video analysis: China vs. US

(5) 虚拟代理、群体智能 (Virtual Agent & Group Intelligence)

从图 30和 31所示,在虚拟代理、群体智能领域,美国的参会人次和论文被引次数均领

先中国。

图 30. 虚拟代理、群体智能领域中美参会人次对比

Figure 30. Participation to conferences in virtual agent and group intelligence:

China vs, US

China AI Index 2018

26

图 31. 虚拟代理、群体智能领域中美参会论文被引用对比

Figure 31. Conference paper citations in virtual agent and group intelligence:

China vs. US

(6) 机器人流程自动化 (Robotic Processing Automation)

从图 32和 33可以看到,在机器人流程自动化领域,从参会人次、论文被引次数角度来

看美国均领先中国。

图 32.机器人流程自动化领域中美发表论文对比

Figure 32. Participation to conferences in robotic processing automation:

China vs. US

2018 中国人工智能指数

27

图 33. 机器人流程自动化领域中美参会论文被引用对比

Figure 33. Conference paper citations in robotic processing automation:

China vs. US

(7) 其他领域(推理学习等) (Other Areas: Inferential Learning etc.)

从图 34和 35中可以看到,在其他领域(推理学习等),从参会人次和论文被引次数角

度来看美国总体上均领先中国,但是在参会人数和论文被引数量的增长率中国总体超过美国。

图 34. 其他领域(推理学习等)领域中美参会人次对比

Figure 34. Participation to conferences in other AI areas: China vs.US

China AI Index 2018

28

图 35. 其他领域(推理学习等)领域中美参会论文被引用对比

Figure 35. Conference paper citations in other AI areas: China vs. US

通过对中美两国在人工智能子领域的参会论文以及论文被引用的数据来看,在人工智能

的一些领域,包括机器学习、文本分析和 NLP、计算机图像与视频分析、虚拟代理及群体智

能等,中国的论文发表总数和被引用总数,在最近几年里大幅度缩小了与美国的差距。但是

在深度学习、机器人流程自动化、以及包括推理学习等在内的其他领域,从发表总数和引用

率方面,与美国的差距都仍然显著。

2.2 人才储备及分布 (AI Talents)

本节将对比中美人工智能方面的人才分布。我们首先介绍中美两国从事人工智能工作的

人才总体分布状况,之后报告中美两国在人工智能领域学术研究方面的人才分布情况。

2.2.1 人工智能人才总体情况 (AI Talent Pool)

本节数据依据领英发布的《 全球 AI 领域人才报告》,对比中美人工智能方面的人才

总体分布[9]。领英人才数据全面覆盖国际上的教育、科研和企业各领域人才,包括人工智

能。所有参与国际学术或行业交流的中国人才都在其覆盖之中。但不参与国际交流的中国人

才有可能会疏漏。

根据领英发布的报告,中国的 AI人才总数为 5万人,美国的 AI人才总数为 83万人。

美国 AI人才总数是中国的 16.5倍之多。我们进一步把 AI领域人才按从业时间分为五个不

同类别进行中美 AI人才分布的对比。具体数据见图 36。如图所示,在中国,从业年限在一

年以内的 AI人才有 1100人,占比 2.20%,从业年限在 2-3年的有 5750人,占比 11.50%,

2018 中国人工智能指数

29

从业年限在 4-7年的有 14200人,占比 28.40%,从业年限在8-10年的有 9600人,占比 19.20%,

从业年限在 10年以上的有 19350人,占比 38.70%。而在美国,从业年限在一年以内的 AI

人才有 5100人,占比 0.60%,从业年限在 2-3年的有 31450人,占比 3.70%,从业年限在

4-7年的有 95200人,占比 11.20%,从业年限在 8-10年的有 10500人,占比 13.00%,从业

年限在 10年以上的有 607750人,占比 71.50%。从业年限是对人才质量的近似度量,以上

数据表明美国的 AI人才质量优于中国,尤其是通过比较从业年限超过十年的从业人员数量

可知,美国有远为更大比例的人才拥有十年以上的工作经验。而且,在每个年限段美国的人

才总数都大于中国。数据获取方法见附录 A4。

图 36. 2017 中美人工智能人才从业年限分布

Figure 36. Experience of AI talents: China vs US

另外,我们根据领英发布的报告,把人工智能方面的人才按照子领域划分对比两国人工

智能人才分布比例,统计得到如下的数据。如图 37 所示,根据领英发布的报告,在中国,

有45.60%的AI人才专注于算法和机器学习领域,其次有15.90%的人从事机器人领域的工作,

15.10%的人从事硬件、GPU 等领域的工作,6.40%的人从事图像识别领域的工作,其他人才

分别专注于智能精准营销,自然语言处理,语音识别,推荐系统,智能交通,以及搜索引擎

理论等方面的工作。在美国,分布人数最多的领域也是算法、机器学习领域,占比 56.50%。

其他领域分布的人数占比大抵相同,有 16.70%的人从事机器人领域的工作,7.20%的人从事

硬件、GPU等领域的工作。

数据说明中美 AI 人才在重点发展的领域是一致的,只是中国 AI人数总体上相较于美国

要少很多。在人才比例分布上,中国在智能营销和计算机视觉方面的人才比例超过美国,表

China AI Index 2018

30

现中国人工智能在应用方面的特点。另外, 中国在芯片方面的人才比例超过美国,可能反

映了追赶硬件发展方面的人才培养和资源配置。值得注意的是,在算法和机器学习方面,美

国不但人才的比例比中国大,人才总数也是中国在这方面领域的二十几倍, 说明中美在人

工智能软件上面的差距显著。

图 37. 2017 中美人工智能人才各领域分布

Figure 37. Distribution of AI talents: China vs. US

2.2.1 人工智能学术人才的分布 (AI Talents in Academia)

本小节集中讨论中美两国在人工智能研究领域的人才分布。我们将比较两个国家在人工

智能领域发表期刊论文和会议论文的作者数以及发表量机型比较。更重要的是,我们将按照

论文的影响力进一步讨论两国在人工智能学术研究方面的不同质量的人才分布。

(1) 中美期刊论文的作者数和论文数

首先, 我们报告每年在人工智能学术期刊发表论文的中美作者数的统计。图 38报告了

中美人工智能期刊论文作者人数以及发表论文总数的对比。 如图所示,在 2011 年之前,在

人工智能的学术期刊发表论文的美国作者数以及发表数量明显大于中国。但是在 2011 年之

后,两国作者数及发表量趋近。2015年之后,中国作者数以及发表量大幅超越美国。

2018 中国人工智能指数

31

图 38.中美人工智能期刊论文作者人数以及论文数量对比

我们进一步看两国发表有影响力的期刊论文的学者人数以及发表数的对比。图 39和 40

分别报告了中美在人工智能领域发表千级和百千级引用量的论文的作者数以及文章总数。由

于考虑大量引用需要时间,我们这里只统计了 2014年前发表的期刊论文到 2018年的被引用

情况。 如图所示,总体上,能够发表具有重大影响的期刊论文的美国学者数在 2010年前远

高于中国,但是在 2010年之后两国之间的差距缩小。

图 39. 中美人工智能千级期刊论文作者人数和发表数对比

0

500

1000

1500

2000

0

500

1000

1500

2000

2500

3000

3500

4000

4500

1995 2000 2005 2010 2015

pap

ers

au

tho

rs

Figure 38. Authors of journal publications: China vs. US

US-author China-author US-number China-number

0

2

4

6

8

0

5

10

15

20

25

30

1995 2000 2005 2010

papers

Authors

Figure 39. Authors of journal papers with more than 1000

citations: China vs. US

US-author China-author US-number China-number

China AI Index 2018

32

图 40. 中美人工智能百千级期刊论文作者人数和发表数对比

图 41 报告了中美在人工智能领域发表的百级期刊论文的作者数以及文章总数。考虑引

用需要时间,我们这里只统计了 2016年前发表的期刊论文到 2018 年的被引用情况。 如图

所示,在 2006年之前,发表百级期刊论文的美国学者数高于中国,但是在 2006年之后年中

国发表百级期刊论文的作者数超过美国。另外,在百级期刊论文的发表数目上,美国始终优

于中国,只有 2014年例外。

图 41. 中美人工智能百级期刊论文年度作者人数和发表数对比

0

2

4

6

8

10

12

14

0

10

20

30

40

50

60

1995 2000 2005 2010

pap

ers

auth

ors

Figure 40. Authors of journal papers with 500-999 citations:

China vs. US

US-author China-author US-number China-number

0

20

40

60

80

100

120

0

50

100

150

200

250

300

350

400

1995 2000 2005 2010 2015

pap

ers

au

tho

rs

Figure 41. Authors of journal papers with 100-499 citations:

China vs. US

US-author China-author US-number China-number

2018 中国人工智能指数

33

图 42-44分别汇报了中美在人工智能领域发表十级、个级以及零级期刊论文的作者数和

论文数。 如图,在十级期刊论文的发表上,美国无论在作者数还是在发表数量上都明显优

于中国。两国之间的差距在 2004年到 2008 年之间有明显加大的趋势,但是在 2008年之后

差距逐步缩小。在个级和零级期刊论文发表方面,在 2011年之前美国优于中国,但是 2011

年之后中国开始超越美国。

图 42. 中美人工智能十级期刊论文年度作者人数和发表数对比

图 43. 中美人工智能个级期刊论文年度作者人数和发表数对比

0

50

100

150

200

250

300

350

400

450

0

200

400

600

800

1000

1200

1400

1995 2000 2005 2010 2015

pap

ers

au

tho

rs

Figure 42. Authors of journal publications with 10-99 citations:

China vs. US

US-author China-author US-number China-number

0

50

100

150

200

250

300

350

400

450

0

200

400

600

800

1000

1200

1400

1600

1995 2000 2005 2010 2015

pap

ers

au

tho

rs

Figure 43. Authors of journal papers with 1-9 citations:

China vs. US

US-author China-author US-number China-number

China AI Index 2018

34

图 44.中美零级期刊论文年度作者人数和发表数对比

(2) 中美发表会议论文的作者数和论文数

本小节我们报告在人工智能会议发表论文的中美作者数以及论文数的统计。如果按照简

单的加总统计,如图 45所示,自 2007年以来,除 2013年到 2015年之间的三年外,中国在

人工智能会议发表所有论文的作者的总人数超过了美国。但是,在影响力最大的千级和百千

级会议论文作者的人数方面,如图 46和 47所示,中国作者的人数以及论文数远低于美国。

图 45.中美人工智能会议论文作者人数以及论文数量

0

50

100

150

200

0

100

200

300

400

500

1995 2000 2005 2010 2015

pap

ers

auth

ors

Figure 44. Authors of journal papers withut citation:

China vs. US

US-author China-authorUS-number China-number

0

500

1000

1500

2000

2500

3000

3500

4000

0

2000

4000

6000

8000

10000

1995 2000 2005 2010 2015

pap

ers

auth

ors

Figure 45. Authors of conference papers: China vs. US

US-author China-author US-number China-number

2018 中国人工智能指数

35

图 46. 中美千级会议论文年度作者人数和论文数对比

图 47. 中美百千级会议论文年度作者人数和论文数对比

图 48-50报告中等影响力的会议论文作者统计。如图 48所示,在 2010年之后,中国的

百级会议论文作者人数多于美国,虽然中国的百级会议论文总数每年都少于美国。但十级和

个级论文作者的统计则与论文数的统计高度相关,即中国整体低于美国,同时在逐步缩小与

美国的差距。这表明,中国百级会议论文普遍是大规模合作的产物。

0

1

2

3

4

5

6

7

8

0

5

10

15

20

25

1995 2000 2005 2010

Pap

ers

Au

tho

rs

Year

Figure 46. Authors of conference papers with more than 1000

citations: China vs. US

US-author China-author US-number China-number

0

2

4

6

8

10

12

14

0

5

10

15

20

25

30

35

40

45

1995 2000 2005 2010

pap

ers

auth

ors

Figure 47. Authors of conferences papers with 500-999 citations:

China vs. US

US-author China-author US-number China-number

China AI Index 2018

36

图 48. 中美百级会议论文年度作者人数和论文数对比

图 49. 中美十级会议论文年度作者人数和论文数对比

0

20

40

60

80

100

120

140

0

50

100

150

200

250

300

350

400

1995 2000 2005 2010 2015

pap

ers

au

tho

rs

Figure 48. Authors of conference papers with 100-499

citations: China vs. US

US-author China-author US-number China-number

0

200

400

600

800

1000

1200

1400

1600

1800

0

500

1000

1500

2000

2500

1995 2000 2005 2010 2015

pap

ers

auth

ors

Figure 49. Authors of conference papers with 10-99 citations:

China vs. US

US-author China-author US-number China-number

2018 中国人工智能指数

37

图 50. 中美个级会议论文年度作者人数和论文数对比

图 51显示零级论文的作者人数和论文数。如图所示,自从 2006年之后,中国的这类论

文的论文数和作者数都超过美国。尤其是 2014 年之后,中国这类论文普遍有更大规模的合

作,所以中国这类论文的作者数大大超出美国。在 2017年,中国的作者数约 2000人,而美

国只有约 1400人。

图 51.中美零级会议论文作者人数和论文数对比

0

500

1000

1500

2000

2500

0

1000

2000

3000

4000

5000

6000

1995 2000 2005 2010 2015

pap

ers

auth

ors

Figure 50. Authors of conference papers with 1-9 citations:

China vs. US

US-author China-author US-number China-number

0

500

1000

1500

2000

2500

3000

3500

0

1000

2000

3000

4000

5000

1995 2000 2005 2010 2015

pap

ers

auth

ors

Figure 51. Authors of conference papers without citation:

China vs. US

US-author China-authorUS-number China-number

China AI Index 2018

38

2.3 产业领域 (AI Industry)

人工智能作为新兴产业,最近十几年发展迅速。国内在人工智能的产业领域,已经有若

干优秀的报告,特别是腾讯 2017年发表的《中美两国人工智能产业发展全面解读》。因此我

们在这个方面的报告,只是对腾讯报告的补充。 图 52显示风险投资支持的、中美在人工智

能领域的活跃的创业公司总数的统计。数据获取方法见附录 A3。数据来源为投资界网站

(http://zdb.pedaily.cn/inv/)[8]。

如图所示,中国的人工智能创业公司在 2012年之前多于美国,但是在 2012 年以后美国

不仅超过中国,且大幅度加速增长。此外,而中国在 2015 年以后呈大幅下降趋势;相反,

美国方面在 2012 年之后在人工智能领域活跃的创业公司数量呈现快速上升的趋势。人工智

能产业需要长期研发投入,短期很难获得收益。中美两国活跃的创业公司的数量的对比,似

乎表明中国在人工智能领域产业的投入后劲不足。这点在腾讯报告中也有提及。

图 52. 中美人工智能领域创业公司数量对比

Figure 52. Number of startup companies in AI: China vs. US

2.4 开源人工智能软件包(Open Source AI Softwares)

开源人工智能软件包是人工智能研究,尤其是人工智能应用研究方面的重要基础。国

际上多数开源 AI 软件包都由开发者存放在 GitHub 软件库中,供从事 AI 应用方面的研

究者使用[10]。本节对比中美人工智能研究者在 GitHub 软件库中,关注(stare)不同 AI

0

200

400

600

800

1990 1995 2000 2005 2010 2015

国内活跃创业公司的数量 美国活跃创业公司的数量

2018 中国人工智能指数

39

软件包的数字,以此作为使用开源AI软件包使用的指数。我们搜集的 AI软件包有 Google、

Facebook, 及 Microsoft 等 开 发 的 tensorflow/tensorflow, fchollet/keras,

apache/incubator-mxnet, scikit-learn/scikit-learn, caffe2/caffe2,

pytorch/pytorch, Microsoft/CNTK, Theano/Theano, 及 BVLC/caffe. dmlc/mxnet 等;

以及中国的百度和腾讯开发的 PaddlePaddle/Paddle 和 Tencent/ncnn。数据获取方法见

附录 A5。

图 53.中国 AI研究者 AI 软件包关注统计

Figure 53. AI software packages starred by Chinese researchers

图 54.美国 AI研究者的 AI 软件包关注统计

Figure 53. AI software packages starred by US researchers

tensorflow/tensorfl

ow(right)

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

0

500

1000

1500

2000

2500

2015/1/1 2016/1/1 2017/1/1 2018/1/1

apache/incubator

-mxnetBVLC/caffe

caffe2/caffe2

dmlc/mxnet

fchollet/keras

Microsoft/CNTK

PaddlePaddle/Pa

ddlepytorch/pytorch

scikit-learn/scikit-

learnTencent/ncnn

tensorflow/tensorf

low(right)

0

1000

2000

3000

4000

5000

6000

7000

8000

0

500

1000

1500

2000

2500

3000

2015/1/1 2016/1/1 2017/1/1 2018/1/1

apache/incubator-

mxnetBVLC/caffe

caffe2/caffe2

dmlc/mxnet

fchollet/keras

Microsoft/CNTK

PaddlePaddle/Paddle

pytorch/pytorch

scikit-learn/scikit-

learnTencent/ncnn

Theano/Theano

China AI Index 2018

40

图 53和 54分别列出中美 AI研究者们关注的各种开源 AI软件包的统计。如图所示,中

美 AI 研究者们关注 Google TensorFlow 软件包的数字远高于关注其他软件包。为了便

于表达和对比,在这两个图中,关注 TensorFlow 的统计数字表达在右坐标,关注所有

其他软件包的统计数字则表达在左坐标。

图 55.中美 AI 研究者的 AI 软件包关注总数对比 Figure 55. Number of AI software packages starred by Chinese and US researchers

图 55 对比中美应用 AI 研究者使用开源 AI 软件包的总体情况。我们对比他们对所

有开源 AI软件包的关注总数。如图 55所示,中国应用 AI研究者关注开源 AI软件包的数

字,在 2015年之后经历了快速增长,到 2017年中以后,超过了美国。这可能意味着中国研

究者在利用中美开发的开源软件包做 AI应用研究规模超过了美国。

0

5000

10000

15000

20000

25000

2015/1

/1

2015/3

/1

2015/5

/1

2015/7

/1

2015/9

/1

2015/1

1/1

2016/1

/1

2016/3

/1

2016/5

/1

2016/7

/1

2016/9

/1

2016/1

1/1

2017/1

/1

2017/3

/1

2017/5

/1

2017/7

/1

2017/9

/1

2017/1

1/1

2018/1

/1

2018/3

/1

中国开发者star AI项目总和 美国开发者star AI项目总和

2018 中国人工智能指数

41

图 56. 中美 AI 研究者关注中美开发的开源 AI软件包的对比 Figure 56. Developers of AI software packages starred by Chinese and US researchers

图 56 将中美两国 AI 研究者关注的开源 AI 软件包的开发机构按照国别对比。如图

所示,绝大多数中国 AI研究者使用的开源 AI 软件包,都是美国机构开发的,其中使用

最多的是 Google开发的 Tensorflow。整体上,中、美 AI研究者关注的美国机构开发的

开源 AI 软件包的数字,相当于他们关注的中国机构开放的软件包的数字的二十几倍。

这表明中国研究者在基本算法方面,对美国开源软件包的依赖。

2.5 公众认知及媒体报道 (Media Coverage on AI)

公众对人工智能的认知可能会影响人工智能在商业和社会中的应用,也可能会对相

关监管以及立法带来很大的影响。图 57 对比中国和全球英语国家媒体对人工智能的正

面报道和负面报道的比例(按月统计),英语国家媒体的报导和中国媒体的报导数据分别

显示在左方的纵坐标轴和右方的纵坐标轴。其中,中国的数据来源于 36 氪

( http://36kr.com/ )、 51CTO ( http://www.51cto.com/ )、 CIO 时 代

(http://www.ciotimes.com/)、电子工程世界(http://www.eeworld.com.cn/)、虎嗅

网 ( https://www.huxiu.com/ )、 投 资 界 ( http://www.pedaily.cn/ )、 维 科 网

( http://www.ofweek.com/ )、新华网( http://www.xinhuanet.com/)、与非网

( http://www.eefocus.com/)、新浪网( http://www.sina.com.cn/)、云栖社区

中国开发者star AI项目

(除去中国

PaddlePaddle/Paddle

和Tencent/ncnn)(right)

美国开发者star AI项目

(除去中国

PaddlePaddle/Paddle

和Tencent/ncnn)(right)

0

5000

10000

15000

20000

25000

0

200

400

600

800

1000

1200

1400

2015/1

/12015/3

/12015/5

/12015/7

/12015/9

/12015/1

1/1

2016/1

/12016/3

/12016/5

/12016/7

/12016/9

/12016/1

1/1

2017/1

/12017/3

/12017/5

/12017/7

/12017/9

/12017/1

1/1

2018/1

/12018/3

/1

中国开发者star中

PaddlePaddle/Pad

dle和

Tencent/ncnn 美国开发者star中

PaddlePaddle/Pad

dle和

Tencent/ncnn 中国开发者star AI

项目(除去中国

PaddlePaddle/Pad

dle和

Tencent/ncnn)(rig

ht) 美国开发者star AI

项目(除去中国

PaddlePaddle/Pad

dle和

Tencent/ncnn)(rig

ht)

China AI Index 2018

42

(https://yq.aliyun.com/)。英语国家的统计数字来自《斯坦福报告》[5]。数据获取

方法见附录 A6。

图 57. 中国、全球(英语国家)人工智能文章正负比例

Figure 57. Media coverage on AI: Chinese vs. English media

由图 57可见,在 2013 年中国关于人工智能的正负面报道差距不大。伴随着 2014年之

后人工智能的快速发展,中国对于人工智能的正面报道迅速超过负面报道。在 2014年到 2016

年之间,中国媒体对人工智能的正面报道比例在每月均在 64%以上,大幅度超过负面报道。

在 2016年以后每月正面比例均超过 82%,而正负比例相加总和均在 90%左右,中性比例仅占

10%左右。与此相比,英语国家媒体对人工智能的正面报道比例也超过负面报道,但是正面

报导所占的比例最高只到 30%,而中性报道比例均在 66%以上。即,英语国家对于人工智能

报道以中性为主。

negative中国

(right)

positive中国

(right)

10.0%

30.0%

50.0%

70.0%

90.0%

0.0%

10.0%

20.0%

30.0%

40.0%

2013 2014 2015 2016 2017 2018

negative中

国(right)

negative英

语国家

positive英语

国家

positive中国

(right)

2018 中国人工智能指数

43

参考文献 (Reference)

[1] 尹 昊 智 . 美 国 人 工 智 能 报 告 解 析 [EB/OL].

http://www.199it.com/archives/577384.html, 2017-03-28

[2] 蔡 雄山 .特朗普人工智能新政: ”发展能够为美国人民服务的 AI”.

http://www.sohu.com/a/231957658_455313, 2018-05-17

[3] 中 国 人 工 智 能 学 会 . 中 国 人 工 智 能 系 列 白 皮 书 [EB/OL].

http://new.caai.cn/index.php?s=/home/Article/search.html,2016-01-09-201

7-12-08.

[4] 中国政府网. 国务院印发《新一代人工智能发展规划》[J]. 广播电视信息,

2017(8):8-8.

[5] Shoham Y, Perrault R, Brynjolfsson E, et al. Artificial Intelligence

Index—2017 Annual Report[J]. 2017.11. http://cdn. aiindex. org/2017 report.

pdf, 2017.

[6] Elsevier B.V. Scopus[DB/CD].https://www.Scopus.com,2018.

[7] Dowd M. Elon Musk’s billion-dollar crusade to stop the AI apocalypse[J].

Vanity Fair, 2017: 1-19.

[8] 清科集团.投资界[DB/CD].http://zdb.pedaily.cn/inv/,2018.

[9] 领英. 《 全球 AI 领域人才报告》 华人力量正在崛起, 人工智能人才抢夺战开始

[J]. 创业邦, 2017 (8): 17-19.

[10] GitHub. GitHub[EB/OL]. https://github.com/.2018.

China AI Index 2018

44

附录 (Appendix)

本附录介绍了各部分的数据采集方法以及数据的定义。

A1: 学术论文 (A1: Journal Publications)

主要数据源和数据集 (Data Sources)

Elsevier的学术发表数据库 Scopus。其中索引了近 7000万份文档(69794685)。

Scopus数据库

https://www.Scopus.com

收集的数据的定义 (Definitions of Variables)

每年被 Scopus目录索引在"Computer Science" (“计算机科学”)学科领域中,所属国

家为中国以及美国,并且还索引了关键词 Artificial Intelligence(人工智能)的论文数量。

收集过程 (Data Collection)

我们向 Scopus已发表的学术论文数据库进行查询,请求计数所属国家为中国,与人工

智能相关的论文的数量、计算机科学学科领域中的论文数量以及数据库中论文总数,比如说,

用于获取 2000年中国相关论文数量的查询是:

查询中国人工智能:

TITLE-ABS-KEY ( artificial AND intelligence ) AND SUBJAREA ( comp ) AND

AFFILCOUNTRY ( china ) AND PUBYEAR > 1999 AND PUBYEAR < 2001

查询中国计算机科学:

SUBJAREA ( comp ) AND AFFILCOUNTRY ( china ) AND PUBYEAR > 1999 AND PUBYEAR

< 2001

查询中国所有领域:

AFFILCOUNTRY ( china ) PUBYEAR > 1999 AND PUBYEAR < 2001

附录

45

备注 (Remarks)

Scopus系统会追溯式地更新。因此,在给定一个查询时,Scopus系统返回的论文数量

会随着时间增长。 Elsevier 团队评论说 1995年之后的论文发表数据时可靠的,而且那以

后他们的系统处理也更加标准化。因此,本文中收集的 1996年以后的数据更加可靠。

A2: 会议出席情况 (Conference Participation)

主要数据源和数据集 (Data Sources)

Scopus 数据库中储存的会议发表论文记录。主要包括一下会议:

AAAI、 AAMAS、 ACL、 CVPR、 ICAPS、 ICRA、 ICML、 IJCAI、 KR、 NIPS、 UAI 、

CP

Scopus数据库

https://www.Scopus.com

收集的数据的定义 (Definitions of Variables)

与人工智能及其子领域相关的所选会议学术会议的中国学者参会人数以及美国学者参

会人数。我们将大型会议 (large conferences) 定义为 16年参会人数少于 1000人的会议,

我们将 小型会议 (small conferences) 定义为 2016年参会人数少于 1000人的会议。cite

是指文章被引用的次数。

收集过程 (Data Collection)

我们向 Scopus已发表的学术论文数据库进行查询,查询在上述会议组织中,与人工智

能有关并且所属国家为中国的论文列表,导出论文信息之后对作者人数,年份,会议名称以

及 cite情况进行统计。以参加 aaai会议且属于中国的论文为例对相关论文的查询是:

( TITLE-ABS-KEY ( artificial AND intelligence ) AND AFFILCOUNTRY ( china ) )

AND CONF ( aaai ))

China AI Index 2018

46

备注 (Remarks)

并非所有会议组织的论文都可以在 Scopus数据库中被检索,并非所有论文作者都到会

参与了会议。除了所属国家为中国的论文,其他论文也可能包含中国作者。同理,属于中国

的论文中也可能包含其他国家的学者。

并非所有会议都是年度举办的,有些会议跳过了一些年份。

A3: AI 领域创业公司 (Startup Companies in AI)

主要数据源和数据集 (Data Sources)

投资界:http://zdb.pedaily.cn/inv/

收集的数据的定义 (Definition of Variables)

每年被定义为正在开发或部署人工智能系统的活跃创业公司的数量。

数据收集过程 (Data Collection)

我们首先收集了投资界中 IT标签的所有组织机构的列表。再对公司简介中进行内容审

核,如果出现了与人工智能相关的关键词则确认为人工智能公司。

备注 (Remarks)

用于识别人工智能公司的标签列表:

人工智能、智慧、智能、机器学习、自然语言处理、计算机视觉、面部识别、人脸识别、

图像识别、语音识别、语义搜索、语义网、文本分析、虚拟助手、视觉搜索、预测分析、智

能决策

确定某家公司是否与人工智能相关没有什么简单直接的方法,目前的判断方法主要以人

工智能关键技术为重点。

附录

47

A4: 人才分布 (Talents in AI)

数据来源:领英 2017 全球 AI领域人才报告

A5.GitHub 开源软件 (Open Source AI Softwares)

主要数据源和数据集 (Data Sources)

Github Archive 开发者接口

api.github.com https://api.github.com/

GitHub Archive on BigQuery

https://bigquery.cloud.google.com/table/githubarchive:day.20150101](https:/

/bigquery.cloud.google.com/table/githubarchive:day.20150101)

Chinese regions dabatase

https://github.com/xixilive/chinese_regions_db

收集的数据的定义 (Definition of Variables)

不同的 GitHub repositories 获得的来自中国以及来自美国开发者的 Stars 的数量。

特别地,本文加入了来自中国的深度学习框架,百度的 PaddlePaddle深度学习平台以及腾

讯的 ncnn深度学习框架。

这些库包括:

tensorflow/tensorflow, fchollet/keras, apache/incubator-mxnet,

scikit-learn/scikit-learn, caffe2/caffe2, pytorch/pytorch, Microsoft/CNTK,

Theano/Theano, BVLC/caffe. dmlc/mxnet, PaddlePaddle/Paddle, Tencent/ncnn

收集过程 (Data Collection)

GitHub归档数据被存储在了 Google BigQuery上。本报告通过与 Google Query的交互,

统计了每个相关库的用户情况,并对其中中国开发者数量进行了统计。收集 2016年开发者

列表的代码样本如下:

China AI Index 2018

48

SELECT

repo.name,actor.login,actor.url

FROM

TABLE_DATE_RANGE( [githubarchive:day.], TIMESTAMP("20160101"),

TIMESTAMP("20161231")) WHERE

repo.name IN ( "tensorflow/tensorflow", "fchollet/keras",

"apache/incubator-mxnet", "scikit-learn/scikit-learn", "caffe2/caffe2",

"pytorch/pytorch", "Microsoft/CNTK", "Theano/Theano", "dmlc/mxnet",

"BVLC/caffe", "PaddlePaddle/Paddle", "Tencent/ncnn")

AND type = 'WatchEvent'

判断中国国籍的过程。第一步,对获取到的用户地点进行筛选,筛选出地点中含有中文

的用户判断为中国国籍,筛选出地点中含有英文的用户进行下一步判断。第二步,将中国所

有地名数据的小写拼音数据存入数据库,将筛选出的英文地点进行简单的分词后在数据库中

进行匹配,如果匹配成功则认为该用户属于中国国籍。

判断美国国籍的过程。第一步,对获取到的用户地点进行筛选,从候选的用户数据中筛

选出用户所属地点中含有非英文以及非特殊符号的字段(例如德文法文),将这些数据排除

出候选列表。第二步,将候选列表中的用户信息地点选项进行匹配,通过分词后,判断其中

是否含有代表美国,美国各州的缩写,如果有则判断为美国国籍,并排除到候选列表之外。

第三步,将候选列表中地名进行取出符号以及空格的处理,并通过美国地名数据库,判断字

符串中是否含有美国城市名称,如果有则判断该用户为美国开发者。

备注 (Remarks)

Github Archive 目前没有提供统计用户移除项目 Star数量的工具 。在这一方面,本

报告统计 Star 的数量会有所高估。 另外,由于很多 Github用户没有标明自己的地址,因

此统计的中国开发者数量要低于实际的情况。

Github项目的 Fork也值得调研。我们发现 repository 的 Stars 和 Fork 趋势是基本

一致的。如果你有兴趣了解具体的 Fork 数据,可以尝试自己使用 BigQuery 代码进行查询。

(将 type = 'WatchEvent' 改为 type = 'ForkEvent' )。

附录

49

A6. 公众认知及媒体报道 (Public Opinions and Media

Coverage)

主要数据源和数据集 (Data Sources)

数据来源包含网站 36氪(http://36kr.com/)、51CTO(http://www.51cto.com/)、

CIO时代(http://www.ciotimes.com/)、电子工程世界(http://www.eeworld.com.cn/)、

虎嗅网(https://www.huxiu.com/)、投资界(http://www.pedaily.cn/)、维科网

(http://www.ofweek.com/)、新华网(http://www.xinhuanet.com/)、与非网

(http://www.eefocus.com/)、新浪网(http://www.sina.com.cn/)、云栖社区

(https://yq.aliyun.com/)的人工智能板块或按照人工智能关键字检索而提取的数据。

收集的数据的定义 (Definition of Variables)

对所有提取的新闻使用python中文情感分析工具包Snownlp对每篇新闻进行情感分析,

将这些新闻分为“正面”,“负面”和“中性”三类。Snownlp针对每篇新闻给出 0-1之间

的情感值,其中 0表示负情感,1表示正情感,情感值越接近 1 表明新闻更加倾向正情感,

反之倾向负情感。根据人工查看带有情感值的新闻,最终确定情感值介于[0-0.3],之间的为

负情感,(0.3-0.8)之间的为中性情感,[0.8,1]之间的为正情感。

收集过程 (Data Collection)

本报告使用爬虫软件八爪鱼采集器来提取人工智能有关新闻,同时因为 2011年以前的

数据不完整,我们已移除。

同时,本报告使用下面的查询来提取人工智能相关新闻:

查询关键字:“人工智能”

for item in soup.select('div.result > div.box-result.clearfix > div > h2 > a'):

item = item.get('href')

text = soup.select('div.article[0].get_text().strip() if soup.find_all('div')

else [] 或

text = soup.select('div.BSHARE_POP.blkContainerSblkCon')[0].get_text().strip()

if soup./

/find_all('div') else []

China AI Index 2018

50

各大网站包含人工智能的新闻有很多,在数据搜集期间以及搜集结束后我们均进行了过

滤和筛选处理,具体如下:

仅包含中文简体新闻;

移除具体产品信息;

移除介绍个人经历新闻;

移除广告;

移除公告;

这样处理数据增强数据中新闻或新闻报道的单一性,我们这些数据能够更加客观的表现

出人们对人工智能的兴趣程度、了解程度以及对于这个概念的倾向性。