重磅!剑桥年度 AI 全景报告出炉:美顶尖 AI 人才中 27% 具备中国教育背景,90%的 AI 人才选择留美
发布时间:2020-10-15近日,剑桥大学的2020 版《AI 全景报告》终于出炉,这是该年度报告的第三期。和往年一样,该报告援引的数据来自知名科技公司和研究小组。新版AI 全景报告全方位总结过去一年来AI 领域的研究成果与突破、人才形势、产业动态等,并作出未来预测。
报告显示,在美国工作的顶尖AI 人才中,27% 有中国教育背景,但他们在毕业后有54% 会去美国攻读研究生博士,这其中又有 90% 选择留美工作。
一、人工智能研究进展:只有15% 的论文会公开代码,PyTorch 超越了TensorFlow
1、开放性不足
AI 研究的开放性并没有我们想象的那么高,只有15% 的论文会开源他们的代码。
研究论文代码的实现对于AI 的可问责性、可再现性和推动进展至关重要。
自2016 年中期以来,该领域在这一指标上几乎没有改善。传统上,学术团体比行业团体更有可能发布他们的代码。没有公开所有代码的著名组织有OpenAI 和DeepMind。
对于科技公司来说,它们的代码通常与无法发布的专有伸缩基础设施交织在一起。这表明人工智能人才和计算机的集中化是一个巨大的问题。
2、PyTorch 超越了TensorFlow
在研究论文中,Facebook 的Py Torch 快速超越了谷歌的Tensor Flow。
20-35% 的会议论文提到了他们使用的框架,75% 引用了PyTorch 而不是TensorFlow。2018 年,有161 位作者发表的TensorFlow 论文多于PyTorch 论文,其中55% 的人改用了PyTorch。15% 情况正好相反。
同时,作者观察到Tensor Flow、Caffe 和Caffe2 仍然是生产AI 的主力。
此外,在GitHub 上,PyTorch 也比TensorFlow 更受欢迎。
据统计现在约有47% 的实现是基于PyTorch 的,而TensorFlow 的大约为18%。PyTorch 提供更大的灵活性和动态计算图,使实验变得更加容易。JAX 是个对数学更友好的Google出品框架,通常在卷积模型和transformer 之外的工作中受到青睐。
3、NLP 模型趋势
另一方面,大尺寸模型正在推动着NLP 领域的技术进步,OpenAI 的GPT-3 等新研究已经把深度学习模型的参数数量推到了千亿。
根据目前的云服务算力价格,训练每1000 参数的模型平均需要1 美元,拥有1750 亿参数的GPT-3 可能需要花费百万美元级别的费用,有专家认为这一数字超过了1000 万美元。高昂的训练费用,让研究人员们在探索新方向时遭遇了挑战。
在AI 模型训练需求越来越多算力的同时,传统计算机架构却在逐渐接近摩尔定律的终点。MIT 等大学的研究称,科学家如果希望将ImageNet 数据集图像分类任务的错误率从11.5% 降到1%,可能需要数百亿美元的投入。
不过,人们也在研究提高模型效率的方法,OpenAI 的统计表明:自2012 年起,训练深度学习神经网络进行ImageNet 图像分类要想达到特定的水平,其所需的算力每16 个月减半。
毋庸置疑的是,GPT-3、BERT 等模型已经让NLP 领域的研究进入了新的阶段。现在甚至出现了自动翻译编程语言的无监督机器翻译工具。在GitHub 上把C++ 函数翻译至Java 准确率达到90%。
4、 生物学的"AI 时刻":仅在2020 年,就有超过2.1 万篇论文
生物研究正在经历「AI时刻」:仅2020 年,就有超过21,000 篇相关论文发表。自2017 年以来,涉及生物领域人工智能方法(如深度学习、NLP、计算机视觉、RL)的出版物同比增长了50%。自2019 年以来发表的论文占2000 年以来所有论文的25%。
不过,当前的大多数机器学习应用是通过统计来实现功能的,其忽略了人类学习知识的重要方法——因果推理。在为患者寻找诊疗方案等任务中,因果推理是更好的方式。Judea Pearl、Yoshua Bengio 等人工智能先驱者都认为,因果推理是使得机器学习系统更好地泛化,更强大稳健,并为决策作出更大贡献的新方向。
5、联邦学习
2018 年至2019 年,提到联邦学习的论文数量增长了近5 倍。2020 年上半年发表的论文比2019 年全年都多。
二、AI 人才:人才外流,27 % 有中国教育背景
人工智能领域研究者的分布情况近几年呈现出几种新的趋势。
1、人才外流
在2004 年至2018 年间,谷歌、DeepMind、亚马逊和微软从美国大学聘请了52 名终身教授和终身教授。卡内基梅隆大学、华盛顿大学和伯克利大学在同一时期失去了38 位教授。值得注意的是,2004 年没有一位人工智能教授离开,而仅2018 年就有41 位人工智能教授离开。
当然,老教授的离开可能会为年轻的学术人才腾出晋升的阶梯。而与此同时,也有一些学者并不买账。
人工智能教授的流失与全美69 所大学的毕业生创业能力下降有关。
一般来说,人工智能终身教授离职4-6年后,毕业生创办人工智能公司的可能性降低了4% ;但这种并不适用于教授在学生毕业前1-3 年就离开的情况,这表明教授和学生之间的互动很重要;但人工智能教授的离职与同一所大学的毕业生成立非AI 公司之间也没有显著的相关性。
2、中国学者的重要性凸显
在2019 年Neur IPS 接受论文的作者中,有29% 在中国获得本科学位。但在离开中国的大学后,54%的毕业生前往美国在NeurIPS 发表论文。
在人工智能领域里,美国仍然是国际研究的中心,有90% 在美国毕业的留学博士都会留美继续工作。
而非美国籍的AI 博士毕业生毕业之后很有可能到大型科技公司就职,而美国籍的博士毕业生更有可能去初创公司就职或加入学术界的研究行列。
与此同时,许多AI 领域的美国博士毕业生毕业之后会前往英国和中国就职。去英国的毕业生中,55%选择在私营部门工作;去中国的人当中40% 选择去私营部门。
还有数据表明,尽管美国的AI 技术领先,但大多数在美国工作的顶级人工智能研究人员都不是在美国接受本科教育的,中国(27%)、欧洲(11%)和印度(11%)是美国AI 人才的最大几个输送国。
3、美国依赖人工智能人才
考虑到美国人工智能产业对移民的依赖程度,特朗普宣布暂停H1-B 签证引起了强烈反弹。 八起联邦诉讼和数百所大学反对 。
4、美国继续主导NeurIPS 2019 年论文
以NeurIPS 2019 为例,谷歌、斯坦福、卡内基梅隆大学、MIT 和微软发表的论文数量位居前五。
5、AI 人才供不应求
AI 领域的人才需求不断增长。许多一流大学也在扩大AI 专业的招生规模。以斯坦福为例,最近几年斯坦福AI 领域的学生是1999-2004 年的十倍之多,与2012-2014 年相比AI 领域学生数量也是翻了一倍。
尽管如此,来自Indeed 的数据显示,招聘职位的数量仍约为求职者数量的三倍。
但不可避免的是,2020 年人工智能领域的人才市场受到了新冠疫情的严重影响。根据领英发布的数据,2020 年机器学习领域职位原本强劲的增长趋势在2 月受到打击,开始下滑。
三、AI 产业:医疗、自动驾驶正在全面利用AI
1、医疗
疫情期间,很多科技公司将AI 医疗影像识别技术投入使用。
比如,深度学习将超分辨率显微镜成像从采集到分析进行了改进,使用监督学习和计算机视觉将人体显微镜下的数小时时间缩短为几分钟。超分辨率显微镜通常需要主题专家来评估样本,ONI 的系统自动化这些视觉检查任务和解锁超分辨率非专业用户。
而且,美国医疗保险和医疗补助服务中心也提出了基于深度学习的医疗成像产品费用标准。未来,优先使用AI 技术将在医疗领域越来越常见。例如,利用人工智能设计药物已经在日本进行了临床试验,而一大批创业公司也得到了大量资金用于实现平台战略发展。
2、自动驾驶
自2018 年以来,在加利福尼亚州拥有自动驾驶汽车测试许可的66 家公司中,只有3 家被允许在没有安全驾驶员的情况下进行测试,其分别为Waymo(谷歌)、Nuro 和AutoX。
即使在政策最为开放的加州,迄今为止自动驾驶汽车的行驶里程相比人类也是微不足道——自动驾驶汽车公司在2019 年的自动驾驶里程比2018 年增加了42%。但这仅相当于2019 年有驾照加州驾驶员行驶里程的0.000737%。
自动驾驶领域的公司,必须要有强大的资金支持。13 亿美元被亚马逊收购的Zoox,其自2015 年以来收获的融资已超过了9.55 亿美元,Zoox 最新的估值约为32 亿美元。交易文件显示,Zoox 在2020 年初每个月要烧掉3000 万美元。
国内的出行公司滴滴最近也把自动驾驶业务剥离,并从软银远景基金等机构筹集了5 亿美元。今年7 月,滴滴在上海推出了自动驾驶汽车服务。
目前,自动驾驶系统中的大多数机器学习算法只专注于车辆周围的事物,并基于工程量巨大的手写规则。研究人员正在开发类似于AlphaGo,学习大量人类驾驶经验进行训练的新算法。最近,Waymo、Uber 和Lyft 都展示了模仿学习和逆强化学习的新技术。
自动驾驶等领域的发展也需求大量算力,Graphcore、英伟达等公司今年推出的新一代芯片成为了人们的希望。
另外,今年AI 在保护人类免受电子邮件钓鱼攻击方面、计算机视觉检测篡改身份文件、反洗钱和恐怖分子融资和经济犯罪等方面也做出了不小的贡献。
四、政策变化
1、伦理道德风险
NeurIPS 和ICLR 都提出了新的伦理规范,但并未强制代码和数据共享。以人工智能领域最顶级会议NeurIPS 为例:
NeurIPS 将创建一个专门的子团队,由机器学习和伦理学交叉领域的专家组成。
NeurIPS 现在要求论文作者提交关于「该工作可能产生的更广泛的影响,包括道德方面以及未来的社会影响」。
鉴于Facebook 和谷歌等公司在NeurIPS 中的影响力日益增强,因此「作者必须提供明确披露资金来源以及竞争利益点」。
NeurIPS「强烈鼓励」共享数据和模型,但没有强制性规定。
在这方面,机器学习领域落后于生命科学领域,例如在Nature 期刊上发表论文的条件之一是,作者必须「及时向读者提供材料、数据、代码和相关协议」。
华为在智能手机领域的主导性增强,并在机器学习技术上大量投资。
2、人脸识别面临争议
目前世界上50% 的人允许使用面部识别。 只有3 个国家(比利时、卢森堡、摩洛哥)部分禁止只允许在特定情况下使用这种技术。
那些头部科技公司,对于人脸识别技术的使用也更加谨慎:
微软删除了其1000 万张人脸的数据库——这是目前可用的最大数据库。数据库中的人脸是从网络上抓取的,并未取得当事人的许可。
亚马逊宣布一年内暂停警方使用其面部识别工具Rekognition,以便「国会有足够时间制定适当的规定」。
IBM 宣布放弃其人脸识别产品及技术。
纽约大都会运输署(MTA) 要求苹果允许乘客戴口罩时启用FaceID,以防止新冠病毒扩散。
3、军用AI 系统被重视
美国继续在实施军事人工智能系统方面进行重大投资。随着机器学习技术的不断工业化,军方对其进行了越来越多的探索。
美国总务管理局和美国国防部联合人工智能中心授予博思艾伦咨询公司一份为期5 年、总共8 亿多美元的订单,内容简介中包括「数据标签、数据管理、人工智能产品开发」等关键词。
在国防层面,还有更多与此相关的AI 公司正在获得丰厚的政府合同和风险投资。戴尔旗下Pivotal 软件公司获得了美国国防部1.21 亿美元的合同,还有一些从事无人机、高分辨率卫星地图、信息管理等业务的公司获得了大量风险投资,例如Anduril、Rebellion、Skydio。
从AlphaGo、AlphaStar 到AlphaDogfight,借助深度强化学习技术,人工智能正在更多的领域击败顶尖人类选手。这也充分说明,在游戏对战环境中所训练的取胜技术,可以迅速迁移到军事环境中。
4、华为智能手机业务主导性增强
华为在智能手机领域的领导力越来越强,并且正大力投资机器学习技术。这是9 年来第一次,除苹果和三星之外,还有其他公司在引领市场。然而,根据美国的制裁,到2020 年9 月中旬,华为的芯片供应将告罄。
使用美国芯片制造设备的外国公司将被要求在向华为供应某些芯片之前获得美国的许可证。华为消费者部门总裁宣称:"没有芯片,就没有供应"。
5、 台湾台积电在研发支出和半导体制造方面仍占主导地位
台积电的研发支出与中芯国际的收入相当。台积电是唯一一家采用5nm 制程(N5)的制造商,目前正致力于3nm 制程(N3),其效率比N7 高2 倍,性能比N7 高33%。
6、中国正在努力减少对美国半导体的依赖
中国政府设立了一项290 亿美元的国家支持基金,以减少对美国半导体技术的依赖。并招聘了100多名台积电工程师,以缩小与中国在半导体能力方面的差距。
新的国家基金得到了财政部、中国国家开发银行、地方政府和国有企业的支持。在此之前,2014 年推出了首只由政府主导的半自动化投资基金。
7、 美国参议院提出CHIPS 法案
虽然世界上一半以上的先进芯片是在美国设计的,但只有12% 是在美国制造的。
美国CHIPS 法案将指定220 亿美元补贴美国芯片制造业,这些项目包括100 亿美元的联邦匹配基金、国防部相关基金以及120 亿美元的相关研发基金。
除此之外,美国要求其盟友也为其生产芯片。
8、人工智能民族主义:AI 预算将持续扩大
人工智能继续被强调为科学和技术方面最重要的投资领域。
国防部联合人工智能中心继续扩大发射预算,从2019 年的9300 万美元扩大到2020 年的2.38 亿美元。
9、各国都在宣布自己的人工智能战略
五、关于未来的预测
报告最后给出了未来十二个月的八大预测:
1、搭建更大语言模型的竞赛仍将持续,我们将会见证第一个10 万亿参数级模型的诞生。
2、基于注意力的神经网络将从NLP 领域迁移到CV 领域,实现新的SOTA。
3、随着母公司战略的调整,一家大型企业的AI lab 即将关闭。
4、作为对美国国防部活动和美国军事AI 初创公司融资的回应,一部分中国和欧洲的国防AI 企业将在未来的12 个月内融资超过1 亿美元。
5、一家头部AI 药物发现初创公司(比如Recursion、Exscientia)要么进入IPO,要么以超过10 亿美元的价格被收购。
6、DeepMind 将在结构生物学和药物发现方面取得重大突破。
7、Facebook 将凭借3D 计算机视觉技术在AR 和VR 上取得重大突破。
8、NVIDIA 最终不会完成对Arm 的收购。
来源:雷锋网