世界人工智能研究储量及技术热点分析-基于2013-2018年SCIE高质量数据

发布时间:2020-05-14

 

摘 要:新一代人工智能持续引发全球政界、学术界和产业界的高度关注。本文以科学引文索引数据库2013-2018年收录的33460篇高质量文献作为研究对象,对世界人工智能研究的发文趋势、储量分布、技术热点、产研融合等方面进行知识图谱分析。研究发现,人工智能高质量发文量呈现整体上升趋势,中国、美国和英国的知识储量全球领先;关键词热点包括神经网络、分类算法、遗传算法、特征选择、支持向量机、聚类算法、数据挖掘、深度学习等;产业界以微软、IBM、谷歌研发实力最为深厚,其中,微软与中国地区学术合作较多。

 

作为信息革命中最具颠覆性、变革性的前沿技术,人工智能已经成为互联网出现以来技术社会形态的第二次世界性萌芽。在爆炸式数据积累、神经网络模型算法与强劲计算力的持续推动下,本轮人工智能领域的飞速推进已经突破最初预测,引发全球政界、产业界和学术界的高度关注,逐渐成为一国发展数字经济的关键要素和重要支撑。

人工智能天然游走于科技与人文之间,一方面建立在统计学、数理逻辑、计算机科学、神经科学等贡献的基础上,另一方面也涉及哲学、心理学、认知科学、法学、社会学等。它通过数据模拟实现逻辑、概率、感知、推理、学习和行动,适用范围从微电子设备到机器人行星探测器等,借助一整套信息处理算法,强化认知洞察和辅助决策,满足人类实际工作的预测和研判需求。根据德勤团队预测,全球人工智能产业到2025年将逾6万亿美元,年复合增长率约30%。

在美欧等国积极布局智能战略的总体环境下,本研究拟采用知识图谱分析方法,以科学引文索引数据库(SCIE)收录的人工智能领域文献为研究对象,利用VOSviewer软件工具呈现2013-2018年中外人工智能研究前沿的知识图谱,以揭示世界主要国家在该领域的研究现状和关键热点,为厘清相关研究的演化脉络和发展趋势提供参考和预判。

一、研究方法与数据来源

随着人工智能在促进降本增效、优化转型创新方面的效果日益显著,世界主要国家在2019年深化了新一代人工智能战略布局。自《美国人工智能倡议》作为国家首份官方AI计划出台之后,白宫又推出奥巴马和特朗普时代智能领域相关政策概述的官方网站,国会先后提出《通过研究推动人工智能法案》《未来国防人工智能技术评估法》《政府人工智能法案2019》,国家科技委员会人工智能问题特别委员会推出《国家人工智能研发战略计划(2019更新版)》,国家标准与技术研究院发布《美国在人工智能领域的领导地位:联邦政府参与开发技术标准和相关工具的计划》指南草案,国防部也公开《人工智能战略摘要》《人工智能原则:国防部人工智能应用伦理的若干建议》等。此外,欧洲《第108号公约》咨询委员会发布《人工智能与数据保护指南》《人工智能道德准则》等,德国推出《联邦政府人工智能战略》,丹麦和韩国发布《人工智能国家战略》,芬兰将向所有欧盟公民免费提供智能基础在线课程。

在诸国争先发展新一代人工智能的热潮下,本文采用知识图谱法开展文献计量研究工作,通过将应用数学、可视化地图等理论与计量学引文分析、共现分析等方法相结合,以期描述人工智能前沿研究的知识资源,探索构建人工智能前沿领域的"知识之网"。科学引文索引系统由科技信息研究所(ISI)Eugene Garfield创建于1960年,为研究学者们提供公开发表论文的引用情况,逐渐成为衡量科技信息影响力的参考依据。SCIE目前收录了自然科学、工程技术领域最具影响力的5600多种重要来源期刊。本文具体以SCIE作为数据来源,首先通过专家咨询法遴选人工智能研究领域的检索主题词,初步框定该领域覆盖文献的大致范围。再根据WOS学科分类或研究方向进行二次筛选。

基于人工智能相关研究的双重检索结果,选取2013年至2018年收录的SCIE论文作为数据集合,每条数据主要涵盖论文标题、作者、摘要、文献来源、发表时间及引用信息。为了从这些数据集中甄选高质量文献,特此筛查人工智能相关的高被引论文、热点论文和JCR一区期刊论文,合计33460篇文献作为研究样本。其中,根据对应领域和出版年中的高引用阈值,高被引论文指截止2018年底受到引用的次数位居某学术领域同一出版年最优秀的前1%;热点论文是指在过去两年内发表,受到引用的次数位居某学术领域中最优秀的0.1%;JCR一区指美国科睿唯安JCR分区的评价模式。该方法以当年的影响因子为基础,每个学科分类按照期刊的当年的影响因子高低,平均分为四个区,发表在一区的论文通常被认为是学科内较为重要的研究成果。

确立目标数据集之后,利用VOSviewer等分析工具对中外人工智能研究文献进行关系构建和可视化分析。该软件工具由荷兰莱顿大学科学技术研究中心(CWTS)Nees Jan Van Eck研究员和Ludo Waltman教授开发于2010年,用于构建包括期刊、研究人员、出版物在内的文献计量网络,能够从大量科学知识中挖掘重要术语的共现关系,并进行知识架构的可视化分析。借助这些软件视图,呈现中外人工智能研究的学术存量和高频热点,分析近几年来智能知识领域的结构、进化与合作等比较优势。

二、人工智能知识储量分析

近几年来,从海量数据中提取和处理的信息有80%-90%是非结构化的,这些环境信息获取及融合分析是逐渐通过自然语言处理、计算机视觉等感知智能技术实现的,更是未来开启认知智能的有效基础。世界不同国家研究机构在智能领域公开发表了较多学术文献,基本反映出全球人工智能领域的知识研究储量。总体而言,中国、美国、英国在科学研究和战略布局方面走在前列,中科院、南洋理工、哈工大等全球知名研究院校的论文研究成果较为丰硕。

(一)高质量研究基本趋势

人工智能的主要目的是赋予机器人特有的视听说及大脑抽象能力,尤其是判断、证明、识别学习和问题求解等思维活动。大致包含三个类别:一是基于规则的分支,即通过计算机按照规定语法结构录入规则,采用不大灵活的规则进行智能处理。二是无规则的分支,即发挥计算机在数据统计、概率分析方面的优势,通过读取大量数据进行智能处理。随着高级机器学习、分布式计算等先进技术的涌现,数据的发展逐渐呈现出高维度、高阶态、异构性的复杂态势。三是神经元网络的深度学习,随着存储成本的降低和处理速度的提升,深度学习进一步优化了智能的精准度。

图1 世界人工智能年度研究趋势

世界各国科研机构发表的人工智能学术文献,大体分为智能基础、机器学习、感知与模式识别、自然语言处理、认知与神经科学等多个子领域。统计不同时间阶段发表情况的可以看出,高质量文献总数由2013年的4674篇提高到2018年的7511篇,其中,2016年和2017年的高质量文献数量持平。各国载文量呈现整体上升的发展趋势,反映出政府组织、学术机构或企业科研团队的相关研究力度没有减弱,经济环境的周期性对人工智能研究进展的影响相对有限。

(二)高质量研究国别分布

世界主要国家较为重视人工智能领域的战略布局,政府和智库机构纷纷发布政策文件或报告,智能芯片、智能软件等核心技术领域已经形成了较多研究机构及领军人才。根据对不同国家相关发文量的统计分析结果,中国人工智能高质量文献数量13776篇,美国和英国分别是5330篇、2646篇,中国文献数量是美国的2.6倍,是英国的5.2倍。西班牙、澳大利亚、印度的高质量文献发表量居于第四至第六位,分别为2160篇、1925篇和1711篇。排名前十的还包括加拿大、伊朗、法国、新加坡,这四个国家之间优秀研究成果刊载量差异不大。

图2 人工智能研究的国别分布

面对国家经济环境的脆弱性,美国、中国、英国等争先抢夺人工智能的历史机遇。美国是首个将人工智能、自主和无人系统列入财政预算并实施优先研发的国家,国防部、中情局等机构自"第三次抵消战略"提出后便密集部署智能化项目研发,面部识别、无人机扫描、外骨骼装置等可穿戴系统已在国土安全领域展开实际应用。中国人工智能技术起步较晚但发展迅速,相关专利、企业数量等指标也居于世界领先地位,2019年国务院政府工作报告在科技领域还提出了"智能+"。英国是欧洲集聚人工智能企业和投融资数额最多的国家,伦敦地区作为欧洲"首位城市"几乎与硅谷并列成为全球人工智能发展的高地。

图3 中国人工智能相关战略计划沿革

(三)高质量研究机构分布

在科研机构的分布方面,各国人工智能学术发文情况与US News有关计算机科学排名结果类似。中国大陆的高校和研究院所的论文成果较为突出,在高质量发文最多的前十位中占据六席,分别是中国科学院、哈尔滨工业大学、清华、华中科大、电子科大、浙大。其中,中科院于2017年5月成立了人工智能学院,由自动化所联合计算所、沈阳自动化所、软件所、声学所、深圳先进技术研究院、数学与系统科学研究院、重庆绿色智能技术研究院等共同承办。该机构下设了模式识别、人工智能基础、脑认知与智能医学、智能人机交互、智能机器人、智能控制等六个教研室,建有模式识别国家重点实验室、复杂系统管理与控制国家重点实验室、国家专用集成电路设计工程技术研究中心、中国科学院分子影像重点实验室等。

高质量发文位居第二位的新加坡南洋理大学在数据科学、机器人等促成第四次工业革命的核心关键领域积累了深厚的专业知识,2018年2月同阿里巴巴成立人工智能联合研究院,围绕人工智能和云计算解决方案在"智慧校园"试点项目进行充分开发和测试;2019年7月又同山东大学成立国际联合研究院,预计在人工智能基础理论、健康与养老、群智理论与智能政务、区块链智能等重要领域开展跨学科研究。值得注意的是,美国专注于人工智能研究的麻省理工学院、卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、宾夕法尼亚大学等机构没有进入前十名之列,可能因为本研究数据来源尚未包括高质量的会议论文。计算机与人工智能科学的最新重要成果一般会在国际人工智能联合会议(IJCAI)、美国人工智能学会年会(AAAI)、计算机学习理论会议(COLT)、计算机视觉与模式识别会议(CVPR)等公布,后续我们将对此类数据开展研究。中美在发文数量上的差异并不否定美国在人工智能基础研究方面的较强实力,也与科研体制、职称考核与激励机制等多重原因有关。

图4 人工智能研究的机构分布

此外,2016年世界高质量发文最多的前三名机构是中科院、哈工大、西安电子科大,2017年发文排名最前的研究机构包括中科院、南洋理工、哈工大、美国东北大学,2018年则为中科院、国科大、美国东北大学。六年内,主要国家内部专注于人工智能技术研究的机构分布也值得关注。

美国高质量发文数排名最前的机构是卡耐基梅隆大学和伊利诺伊大学,英国高质量发文数排名最前的机构是伦敦大学、伦敦国王学院和伯明翰大学,西班牙高质量发文典型机构的机构是格拉纳达大学、马德里理工大学和塞维利亚大学,澳大利亚高质量发文典型机构是悉尼科技大学、阿德莱德大学和迪肯大学,印度高质量发文典型机构是印度理工学院、统计研究院和贾达珀大学,加拿大典型机构是阿尔伯塔大学和波兰科学院,伊朗典型机构是阿扎德大学、阿米卡比尔理工大学和德黑兰大学,法国典型机构是国家科学研究中心、图卢兹大学和巴黎萨克雷大学,新加坡典型机构是南洋理工大学和新加坡国立大学。

三、人工智能技术知识热点分析

(一)关键技术热点分布

学术界和产业界对人工智能的理解与界定因领域分殊而有不同,但在共性技术和基础研究方面存在共识。第一阶段人工智能旨在实现问题求解,通过机器定理证明、专家系统等开展逻辑推理;第二阶段实现环境交互,从运行的环境中获取信息并对环境施加影响;第三阶段迈向认知和思维能力,通过数据挖掘系统和各类算法发现新的知识。

按照学界对人工智能的主流理解,从33460篇高质量学术论文中梳理产生71090个作者关键词,以期开展智能算法技术的深入分析。通过统计这些关键词出现的频次和所在论文的数量,得到2013年至2018年各项具体技术关键词的分布情况。图5呈现了频次和文章数量排名靠前的技术关键词清单。其中,前十项研究频率最高的关键词主要包括神经网络、分类算法、遗传算法、机器学习、特征选择、支持向量机、聚类算法、数据挖掘、深度学习和粒子群优化。

图5 智能技术关键词热点

对比各年度的分布情况:

  • 2016年排名最靠前的技术主题词是神经网络、分类算法和遗传算法,新出现的关键词包括快速收敛、联网系统、数据包丢失、事件触发控制、深层神经网络、区间II型模糊系统等。
  • 2017年排名最靠前的技术主题词是神经网络、分类算法和特征选择,新出现的关键词包括云制造、四元数值神经网络、表现度、光学乐谱识别、组织病理学、情境优先等。
  • 2018年排名最靠前的技术主题词是神经网络、深度学习和卷积神经网络,新出现的关键词包括生成对抗网络、可穿戴设备、深度强化学习、卷积递归神经网络等。

(二)关键技术国别与机构分布

在这些智能关键技术的国别分布上,通过对发文作者单位所在地的标注和梳理,选择关键词出现最多的前十个国家进行关键词分析。具体而言,大部分国家有关神经网络的研究在本国总体文献中占比最高,而新加坡学者对神经网络和深度学习关键词的使用频率相当,法国文献则侧重聚类技术研究。对比中美文献情况,中国学者有关分类算法、特征选择、支持向量机、深度学习关键词的使用热度基本近似;而美国文献中各个关键词分布则更加均匀,反映出其夯实的学术综合实力和基础研究能力。

图6 智能技术关键词国别分布

  • 在机构分布上,涵盖神经网络关键词载文最多的前三个机构是中科院、美国东北大学和伊朗阿扎德大学;
  • 在分类算法关键词方面,发文最靠前的机构是中科院、南洋理工大学、西班牙格拉纳达大学和悉尼科技大学;
  • 在遗传算法关键词方面,发文最靠前的机构是阿扎德大学、巴基斯坦通信卫星信息技术研究所和伊朗德黑兰大学;
  • 在机器学习关键词方面,发文最靠前的机构是中科院、南洋理工大学、格拉纳达大学和巴西圣保罗大学;
  • 在特征选择关键词方面,发文最靠前的机构是中科院、深圳大学和吉林大学;
  • 在支持向量机关键词方面,发文最靠前的机构是中科院、中国农大和哈尔滨工大;
  • 在聚类算法关键词方面,发文最靠前的机构是中科院、西电、南洋理工和阿扎德大学;
  • 在数据挖掘关键词方面,发文最靠前的机构是韩国世宗大学、台湾高雄国立大学和国立中山大学;
  • 在深度学习关键词方面,发文最靠前的机构是中科院、清华大学和西电;
  • 在粒子群优化关键词方面,发文最靠前的机构是阿扎德大学、中科院和台湾科技大学。

(三)关键技术聚类图谱

在2013年至2018年载文数据库中,围绕智能算法技术的研究作者信息进行聚类分析。基于71090个词条数据,选择出现频次大于等于30作为过滤条件,筛选出468个关键词满足该阈值。VOSviewer工具的作者关键词共现分析会对每个关键词开展一次运算,记录其与其他词条共现链接的总强度,汇总提供总链接强度最大的关键词群,采用可视化方式呈现人工智能重点算法技术的知识图谱。如图所示,在三万余篇文献中,最受各国研究人员关注的468个关键词聚类形成了7大类算法技术研究主题,每个主题以不同的颜色表示。

图7 智能关键词共现分析聚类视图

 

类别

代表色

关键词群

聚类1

红色

深度学习、特征提取、稀疏表示、图像分割、图像分类、卷积神经网络、计算机视觉、目标识别、字典学习等

聚类2

绿色

遗传算法、最优化、粒子群优化、人工神经网络、多目标优化、进化算法、群体智能、差分进化、进化计算、预测等

聚类3

深蓝

聚类、数据挖掘、模糊逻辑、大数据、决策、不确定性、模糊聚类、交互信息、本体等

聚类4

黄色

神经网络、强化学习、多智能系统、自适应控制、共识、同步、时延、非线性系统等

聚类5

紫色

分类、特征选择、机器学习、支持向量机、极限学习机、集成学习、增量学习、回归、核方法等

聚类6

浅蓝

人脸识别、降维、模式识别、半监督学习、监督学习、主动学习、流形学习、迁移学习等

聚类7

橙色

情感分析、推荐系统、算法、自然语言处理、文本挖掘、协同过滤、信息检索、社交媒体、社交网络、社区检测等

 
 
  • 第一类技术主要针对深度学习及其模型方法,如稀疏字典编码、卷积神经网络,通过学习特征来解释视觉图像或文本数据;
  • 第二类技术侧重基于遗传算法的多目标寻优策略,在避免陷入局部最优解的同时获得进化思维的随机搜索能力,保持群体多样性;
  • 第三类技术研究数据挖掘的聚类算法,尤其是根据模糊数学原理开展系统聚类分析;
  • 第四类技术关注利用神经网络动力学实现基于模型的强化学习,提高智能系统采样效率以适应复杂高维运动任务;
  • 第五类技术采用支持向量机和极限学习机分类器选择特征信息,借助集成式、增量式改进算法实现全面地、动态地学习;
  • 第六类技术研究基于特征降维的人脸识别系统,通过主动学习、流形学习和迁移学习算法提取特征;
  • 第七类技术注重基于文本情感分析的个性化推荐系统,采用自然语言处理、协同过滤、模型算法对社交媒体、社区行为数据进行情感检索和情感抽取。

四、人工智能产研融合态势

(一)产业界研究先驱

在三万余篇高质量文献中,美国产业界研究人员占据一席之地,以微软、IBM、谷歌的研发实力最为深厚,载文数量分别为252篇、121篇和73篇,相对其他智能领域研发公司而言居于前列。微软曾在2003年使用卷积神经网络开发了光学字符读取(OCR)系统;2016年首次发表有关卷积神经网络的高质量文章,开展了深入的学术研究;2018年,深度学习相关文献所占比例最高;最近启用了全球最大的人工智能和物联网实验室,立足上海为合作伙伴开发智能产品和解决方案。在商业端,Azure云平台提供了优越的公有云、混合云智能服务,如机器人服务、机器学习和认知服务;在消费端,微软推出数字助理Cortana,可用于智能手机和聊天机器人。

表1 人工智能产业界学者载文情况

序号

公司名称

发文数量

基本描述

1

微软

252

成立于1975年,全球PC软件开发的先导

2

IBM

121

成立于1911年,全球最大的信息技术和业务解决方案公司

3

谷歌

73

成立于1998年,全球最大的搜索引擎公司

谷歌公司推行全产业链布局的人工智能战略,覆盖了从底层硬件、操作系统到核心算法和上层应用。2014年的高质量文献中首次出现计算机视觉关键词。2015年发布人工智能系统TensorFlow并在GitHub社区开源,高质量文献中也出现场景理解、贝叶斯非参数检验的关键词。2016年宣布从"移动先行"(Mobile First)转向"智能先行"(AI First)战略,正式应用神经网络机器翻译系统,并基于机器学习、自然语言处理和搜索经验推出一款语音助手;深蓝公司开发的智能机器人AlphaGo战胜世界围棋冠军李世石,曾引爆新一轮人工智能热潮。2017年研发出能自动生成完整软件程序的机器人,发布手机、音箱、笔记本、无线耳机和相机等多款智能硬件;相关高质量论文出现卷积神经网络的关键词。2018年新发无线充电底座,将地图、日历、照片、视频等全线产品整合入智能终端,还利用机器学习解决如医疗、能源、环境等现实问题;高质量文献中首次出现深度学习、条件随机场的关键词。近期,在美国智库发布的《2019人工智能专项调研报告》中,谷歌公司位居"全球人工智能五强"之首。IBM公司在人工智能领域具有六十余年的技术积累。

早在1952年,公司科学家亚瑟·塞缪尔曾使用首台商用科学计算机IBM701,编写出全球第一款会下国际跳棋的人工智能程序。1997年,采用PSSC超级芯片配置的32节点的深蓝计算机,战胜了当时的国际象棋冠军卡斯帕罗夫。2015年,正式确立云计算平台的转型方向,以认知计算为解决方案专注于医疗、法律、金融、农业、交通等行业企业。同年的高质量文献首次出现深度学习、半监督学习、特征选择、图像分割关键词;2017年的研究数量短暂下降,次年回升,深度学习和分类算法关键词明显增多。2019年初开发的智能机器人辩手提升了应对现实复杂的细微语义差别能力,能与世界级辩论选手争锋较量,在辅助全面决策方面向通用智能迈进一步。

(二)产研融合基本形势

在高质量文献数据库中,世界范围内共有427家机构开展了人工智能联合发表研究工作。微软、IBM和谷歌三家公司与高校的人工智能学术合作非常密切。2013年至2018年,微软与伊利诺伊大学、新加坡国立、南洋理工、悉尼科技大学、加州大学伯克利分校、卡内基梅隆大学、韩国先进科技院、华盛顿大学、斯坦福大学、乔治亚理工学院、日本国立情报研究所、德州大学圣安东尼奥分校等开展了3篇以上论文的联合研究;IBM、谷歌也与这些学术机构存在合作关系,但IBM与日本、韩国没有联合发表高质量论文,谷歌与南洋理工、悉尼科技、德州圣安东尼奥分校没有联合发表。

图8 产业界与学术界的高质量论文合作

就跨国合作而言,美国与中国地区有关人工智能科研论文合作的规模最大,构成了全球智能化研究合作网络的中心,中美两国的学术合作深刻影响着人工智能整体的发展水平。微软、IBM和谷歌公司均与中科院、清华大学、上海交大、港大、北京邮电、西电、香港城市大学、人民大学等高校开展过人工智能论文合作。三家公司对比来看,微软与中国地区的大学合作开展论文发表的数量最多,如北京大学、浙江大学、西安交大、北航、哈尔滨工大、电子科大、南京信息工程大学、合肥科大、华中科大、南京大学、南开大学、厦门大学等。

值得注意的是,中国科技大学、香港科大、杭州电子科大、北京交通大学只与微软有过联合发文,与IBM、谷歌没有合作。谷歌公司同中国地区大学合作发表论文的数量最少,与西安交大、合肥科大、杭州电子科大存在少量合作关系。

五、结论

本文利用知识图谱可视化技术,将SCIE数据库2013-2018年有关人工智能的高质量文献作为样本,对世界各国人工智能的知识储量、前沿热点、产研合作情况进行分析,呈现整体智能算法研究的基本现状与发展趋势,涵盖了时间分布、国别分布、机构分布、热点聚类与机构关联,可得到如下结论:

  • 世界人工智能高质量研究的发文量呈现整体上升的发展趋势;中国、美国、英国重视人工智能战略布局,其关键技术高质量文献的知识储量最为丰厚;在机构分布上,中国科学院、新加坡南洋理工大学和哈尔滨工业大学的载文量位居所有学术研究组织前三名,但美国东北大学在2017-2018年的学术发表较为突出;
  • 在人工智能高质量研究热点方面,研究频次和载文量位居前十的技术关键词包括神经网络、分类算法、遗传算法、机器学习、特征选择、支持向量机、聚类算法、数据挖掘、深度学习、粒子群优化等;2018年新出现的热点关键词包括生成对抗网络、可穿戴设备、深度强化学习、卷积递归神经网络等;
  • 在人工智能高质量研究聚类方面,各国智能算法技术研究总体分为七个重点,一是基于深度学习的计算机视觉技术,二是基于遗传算法的多目标寻优策略,三是基于聚类算法的数据挖掘技术,四是基于神经网络的强化学习技术,五是基于特征选择算法的分类学习技术,六是基于特征降维的人脸识别技术,七是基于情感分析的推荐系统;
  • 美国产业界的智能算法科研实力全球领先,以微软、IBM、谷歌的论文发表积累最为深厚,与世界一流科研机构的合作非常密切;美国与中国地区的学术合作成为全球人工智能研究网络的中心,三家公司均与中科院、清华大学、上海交大、港大、北京邮电、西电等有过联合发表,其中微软的合作最多,谷歌合作最少。

来源:学术Plus