智谱AI“计算机领域十万学者”出炉,共建学术图谱

发布时间:2022-12-28

人才是支撑创新发展的第一资源。党的二十大报告站在推进中国式现代化的战略高度,明确了“教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑”。而如何建立科学合理的人才评价体系,成为科技人才评价改革的核心命题。

近日,科技部会同教育部等7部门联合召开科技人才评价改革试点启动会,部署推进《关于开展科技人才评价改革试点的工作方案》。《方案》围绕国家科技任务用好用活人才,以“评什么、谁来评、怎么评、怎么用”为着力点,强调要构建以创新价值、能力、贡献为导向的科技人才评价体系,为实现高水平科技自立自强和建设世界科技强国提供有力人才支撑。

为推动人才评价体系的科学化、标准化落地,智谱AI公布了“计算机领域十万学者”,旨在通过智谱AI亿级学术文献数据、人工智能算法能力与数据分析能力,提供学者多个维度的数据分析与画像,关注人才趋势,助力人才发展。

构建遴选标准,聚焦人才评价体系

本次公布的“计算机领域十万学者”,为智谱AI研究团队基于AMiner学者数据,选取计算机领域的期刊会议(CCF A、SCI Q1、北大核心)的1,386,522篇论文,筛选出近十年citation值大于10且在AMiner浏览量较高的658,010篇论文,并对论文作者的教育经历、工作经历、个人简介等关键信息进行人工标注,从中筛选出AMiner访问数量最高的10万学者。其中,机器学习、计算机视觉、深度学习、强化学习、物联网五个研究方向的学者更为热门。

基于模型微调,智谱AI“计算机领域十万学者”在学者经历结构化抽取任务上的抽取结果准确率提升0.07,召回率提升0.05,F1 Score达到0.87;在论文、专利聚类消歧、语义特征编码方面,实现6%的提升;团队采用异构图神经网络编码关系特征,在信息较为完整的数据上取得了0.95的准确率和0.82的召回率;在学者信息与论文、专利、基金、新闻的关联上,采用多维度手工特征和集成学习的方式,可以取得0.9的准确率。

画像维度丰富,七所高校“榜上有名”

n  期刊论文数排名

在65万篇论文中,CVPR的年平均论文数为343篇,是范围内年平均论文数最高的期刊。

n  机构地域分布

根据学者当前所在的机构,确定学者的所在地域,共有116,313个学者的机构被标注,其中中国学者人数最多,有57,675人,美国学者22,819人。

n  CCF A类期刊会议学科分布

在CCF A类期刊会议的学科分布中,人数及论文发布数领先的学科为:人工智能、软件工程/系统软件/程序设计语言,以及人机交互与普适计算。

n  机构学者数量

在各机构学者数量方面,排名前三的高校为中国科学院、清华大学和卡内基梅隆大学;排名前三的企业为谷歌、微软和IBM。

高校排名

企业排名

n  学者论文数排行

在团队筛选的论文范围中,论文数量Top10学者如下:

关注人才发展,服务科技战略需求

基于“计算机领域十万学者”数据的发掘,团队构建了计算机领域内近些年相关学者的学术图谱,涵盖了学者的完整人才画像、研究成果、媒体报道等多个维度的信息,并在此基础上构建了学者的研究领域变化、地域活动迁徙等衍生维度的学者知识图谱。

此次标准的知识图谱构建,清晰地展示了计算机领域的研究变化并呈现在大众视野,通过大量学者相关信息的数据灌溉,图谱将一些节点明显的关联在了一起,汇聚出更高维度的信息,例如地域性的研究方向、政策对学者的引流、学科之间的交叉度等。

未来,智谱AI将在其他领域继续探索人才数据,并持续发挥知识图谱丰富的信息与情报价值。基于图谱自我的推理能力,团队将建立百万、千万级的全领域学者学术图谱,实现百亿、千亿级别的关系,并通过学术数据的图谱汇聚推演出更高维度的分析。在大规模学术图谱与大模型技术的结合下,实现更强大的学术推理能力,助力人才发现、培养、使用、激励的评价机制的建立,形成可操作、可复制、可推广的经验做法,支撑并服务国家重大战略需求。

全球十万计算机学者库:http://www.aminer.cn/gallery

来源:智谱