英国皇家科学院发布!《人工智能时代的科学:人工智能如何改变科学研究的性质和方法》

发布时间:2024-07-24

人工智能如何改变科学研究的性质和方法?人工智能技术为科学研究带来了哪些机遇、限制和风险?利益相关方如何更好地支持人工智能在科学研究中的开发和使用?2024年5月,英国皇家科学院(The Royal Society)发布了由牛津大学、剑桥大学等各大著名高校、Deepmind等人工智能企业的100余位专家联合撰写的的最新报告《人工智能时代的科学:人工智能如何改变科学研究的性质和方法》(Science in the age of AI:How artificial intelligence is changing the nature and method of scientific research),深度剖析了人工智能在科研领域的角色、潜力及面临的挑战,进一步强调了在全球科学共同体中构建共识、协同应对人工智能时代科学变革的重要性。

一、摘要

近年来,人工智能以前所未有的速度和规模发展,这表明社会可能正在经历一个拐点。ChatGPT和Midjourney等平台可以生成类似人类的文本和图像内容,其传播进一步引发了公众对这一领域的兴趣,也为那些担心人工智能技术如何融入更广泛社会的政策制定者敲响了警钟。此外,著名计算机科学家和公众人物就人工智能风险发表的评论,也将这一话题转变为主流问题。对于科学研究人员来说,人工智能并不是一个新话题,几十年来一直以某种形式被应用。然而,学术界和产业界主导的研究加大了人工智能投资、兴趣和采用力度,引发了一场“深度学习革命”,正在改变科学发现的格局。

在大数据(例如,从望远镜、卫星和其他先进传感器收集到的大量不同形式的数据)的推动下,基于人工智能的技术正在帮助识别大型数据集中的新模式和新关系,而这些模式和关系在其他情况下是很难识别的。这为科学研究带来了巨大的潜力,并鼓励科学家采用更复杂的技术,以超越其领域内的现有方法。人工智能工具能够从现有内容中识别模式并对新内容进行预测,这也使科学家们能够进行更精确的模拟并创建合成数据。这些模拟从大量不同来源(可能是实时)获取数据,可以帮助决策者更准确地评估潜在干预措施的效果,并应对社会或环境挑战。

除了上述机遇之外,人工智能的日益普及也带来了各种挑战。这些挑战包括:可重复性(其他研究人员无法复制使用人工智能工具进行的实验);跨学科性(人工智能与非人工智能学科之间的合作有限,可能导致人工智能在各领域的应用不够严格);以及环境成本(运行大型计算基础设施需要消耗大量能源)。由于人工智能系统的黑箱性质,有效采用开放科学原则的障碍也越来越多。此外,整个科学生态系统中不断变化的激励机制可能会增加研究人员的压力,迫使他们采用先进的人工智能技术,而忽视更传统的方法,或者“擅长人工智能”而不是“擅长科学”。

二、主要结论

1.除了AlphaFold这样的标志性案例,人工智能的应用遍及所有STEM领域,主要集中在医学、材料科学、机器人学、农业、遗传学和计算机科学等领域。科学、技术、工程和数学领域最突出的人工智能技术包括人工神经网络、深度学习、自然语言处理和图像识别。

2.高质量数据是人工智能应用的基础,但研究人员面临着与可用数据的数量、异质性、灵敏度和偏差有关的障碍。一些科学数据(如从望远镜和卫星收集的数据)的总量可达PB级,这使得数据共享和互操作性等目标难以实现。从传感器数据中收集的数据的异质性也带来了困难,而人工智能模型在有偏差的输入上进行训练很可能会导致有偏差的输出。鉴于这些挑战,信息管理人员等对于保持数据质量,以及应对与人工数据生成相关的风险(如数据伪造、中毒或污染)至关重要。

3.产业界和学术机构正在推进用于科学研究的人工智能创新。在过去十年中,与人工智能科学相关的专利申请激增,其中中国、美国、日本和韩国的专利申请数量占主导地位。本报告委托进行的一项研究表明,全球人工智能市场的估值(截至2022年)约为1069.9亿英镑。

4.中国约占专利总量的62%。在欧洲,英国与生命科学相关的人工智能专利所占比例仅次于德国,牛津大学、帝国理工学院和剑桥大学等学术机构在英国专利申请量最高的大学中占有突出地位。Alphabet、西门子、IBM和三星等公司似乎在科学和工程领域展现出相当大的影响力。

5.人工智能工具的黑箱和潜在专有性质限制了基于人工智能的研究的可重复性。文档不足、对重要基础设施(如代码、数据和计算能力)的访问受限以及对人工智能工具如何得出结论(可解释性)缺乏了解等障碍,使独立研究人员难以对实验进行仔细检查、验证和复制。采用开放科学原则和实践有助于应对这些挑战,提高科学的完整性。

6.跨学科合作对于弥合技能差距和提高人工智能在科学研究中的效益至关重要。通过分享彼此领域的知识和技能,人工智能和领域专家(包括艺术、人文和社会科学研究人员)之间的合作有助于构建更有效、更准确的人工智能模型。然而,各自为政的研究环境和不奖励跨学科合作的激励结构阻碍了这种合作。

7.生成式人工智能工具可以帮助推进科学研究。它们有望加快常规科学任务的完成,如处理非结构化数据、解决复杂的编码难题或支持学术文章的多语种翻译。此外,文本生成模型还可用于学术和非学术书面任务,对学术交流和研究评估具有潜在影响。对此,资助者和学术机构正在制定规范,以防止不可取的使用。

三、未来的研究问题

1.人工智能与科学计算基础设施:考虑到不同科学领域的不同需求,如何优化人工智能工作负载,以便在科学研究中充分发挥异构计算基础设施的潜力?

2.人工智能和小数据:越来越多地使用人工智能对研究人员有何影响?只有少量数据可用?如何有效利用人工智能技术来扩充用于训练目的的小型数据集?在应用于小数据场景时,如何在缩小模型规模和保持性能之间进行权衡?

3.人工智能与科学体系中的不平等:在为代表性不足的群体提供公平获取人工智能技术的机会方面存在哪些障碍?如何利用人工智能扩大专家群体的参与,包括代表性不足的学者和非科学家公众?

4.人工智能与知识产权:人工智能系统的哪些输入(数据集、算法或输出)对知识产权保护至关重要,它与开放科学原则在科学中的应用在哪些方面相互影响?

5.人工智能与科学技能的未来:随着人工智能的日益融合,科学研究的技能要求如何变化?未来研究人员必须具备哪些能力,需要做出哪些努力来促进不同科学学科对人工智能的了解?

6.人工智能与学术交流的未来:随着人工智能技术的融入,学术和科学传播的格局将如何演变?如何利用人工智能改善学术成果中的知识翻译、多语言性和多模态性?

7.人工智能与环境可持续性:人工智能在促进科学界的可持续实践方面能发挥什么作用?人工智能算法如何优化环境建模,以提高能效,并促进气候科学、生态学和环境监测等领域的可持续发展?

8.人工智能标准与科学研究:在基于人工智能的科学研究中,人工智能标准如何帮助应对可重复性或互操作性方面的挑战?科学界如何为建立人工智能标准做出贡献?

四、建议

建议1:政府、研究资助者和人工智能开发者应优化对基本人工智能基础设施的应用

获得计算资源对于重大科学突破至关重要,例如AlphaFold的蛋白质折叠。尽管如此,用于人工智能研究的计算能力和数据基础设施在各研究社区的使用和分布并不均衡。来自不同学科的科学家需要获得基础设施,以采用更复杂的人工智能技术,处理更多数量和类型的数据,并确保人工智能研究的质量。

改善获取途径的建议包括机构赞助获取超级计算和建立地区中心,更广泛的接入可以将人工智能的优势扩展到更多学科,提高非行业研究人员的竞争力,并通过实现大规模可重复性来促进更严谨的科学研究。扩大计算的使用范围还必须借鉴环境可持续计算科学(ESCS)的最佳实践,包括对环境影响的测量和报告。

优化人工智能基础设施和工具应用的行动可能包括:

1. 拥有计算设施的资助者、行业合作伙伴和研究机构积极共享重要的人工智能基础设施,如高性能计算能力和数据资源。

2.利益相关方(如政府机构、研究机构、行业和国际组织)确保跨部门和跨地区获取高质量数据集和可互操作的数据基础设施。这可能涉及通过隐私增强技术和可信的研究环境来促进敏感数据的获取。

3.环境或因计算需求的增加而受到影响,研究资助者应支持相关战略,以监测和减轻相关环境影响,并推动实施人工智能应用中的能源比例原则。

建议2:研究资助者和人工智能开发者应优先考虑为科学研究开发的人工智能工具的可访问性和可用性

获得人工智能并不能保证其得到有意义和负责任的应用。对于非人工智能背景的研究人员来说,有效利用复杂、高性能的人工智能工具和方法可能具有挑战性。同样,整个人工智能生命周期都需要新的技术能力,如了解元数据和数据整理重要性的数据科学家,或熟悉基于图像处理的GPU编程的工程师。

因此,采取措施提高基于人工智能的工具(如软件应用程序、库、应用程序接口或通用人工智能系统)的可用性,应结合各种机制,使非人工智能专家也能理解人工智能,并培养他们负责任应用人工智能的能力。例如,培训应确保每位科学家都能认识到他们的团队何时需要专业数据或编程知识,或何时使用复杂而不透明的人工智能技术会破坏结果的完整性和质量。

提高可用性还可以加强非人工智能科学家作为共同设计者的作用。他们可以确保人工智能工具满足科学界的需求。要为共同设计创造条件,就必须通过开发共享语言、模式和方法,消除人工智能和领域专家之间的学科隔阂。

提高人工智能工具可用性的行动可包括:

1. 研究机构和培训中心:在各科学领域开设人工智能扫盲课程,培养研究人员的能力,使他们了解人工智能工具在其领域和研究环境中的机遇、局限性和适当性。

2.研究机构和培训中心针对人工智能在科学研究中应用的具体需求,开设全面的数据扫盲课程。这涉及数据管理、整理和监管能力建设,以及数据原则的实施,如FAIR(可查找、可访问、可互操作和可重用)和CARE(集体利益、控制权、责任和道德)。

3.研究资助者和人工智能开发者推动相关战略,以提高非人工智能专家对人工智能的理解和可用性,重点关注复杂和不透明的模型。这可能包括进一步研究特定领域的可解释人工智能(XAI)或可访问的人工智能工具,以提高在资源有限的研究环境中的可访问性。

4.研究机构、研究资助者和科学期刊实施促进跨领域知识转化,以及有意义的跨学科合作的机制。这需要将跨学科培训、导师指导、出版渠道和资金结合起来。

建议3:研究资助者和科学界应确保基于人工智能的研究符合开放科学原则和实践,以促进人工智能在科学中的惠益。

越来越多不可再现的人工智能和机器学习(ML)研究正在引起人们对人工智能发现的合理性的担忧。然而,科学家们在提高人工智能工作的可重复性方面正面临着挑战。这些挑战包括:围绕方法、代码、数据或计算环境发布的文档不足;验证复杂机器学习模型的计算途径有限;以及对实施开放科学实践的奖励有限。如果部署不可靠或不可信的人工智能产出导致有害结果,这不仅会给科学带来风险,还会给社会带来风险。

为了应对这些挑战,科学领域的人工智能可以遵循开放科学原则和实践。例如,联合国教科文组织《开放科学建议书》为提高科学的严谨性提供了相关指导,同时指出,在各部门和各地区推行开放性并没有放之四海而皆准的方法。这与越来越多地采用“渐进式”开放模式的趋势不谋而合,即在公开模型和数据的同时,发布详细的指导和可信风险的防范措施。

开放科学原则还有助于更公平地获取人工智能的益处,并培养更多专家的能力,为人工智能在科学领域的应用做出贡献。这包括代表性不足、资源不足的学者、数据所有者或非科学家公众。

需要进一步开展工作,以了解开放科学与人工智能促进科学之间的相互作用,以及如何最大限度地降低因公开发布模型和数据而产生的安全风险。

促进在基于人工智能的科学中采用开放科学的行动可包括:

1.研究资助者和研究机构激励采用开放科学原则和实践,提高基于人工智能的研究的可重复性。例如,为开放科学和人工智能培训分配资金,要求在申请资助时使用可重复性清单31和数据共享协议,或支持制定社区和特定领域的可重复性标准。

2.研究机构和期刊奖励并认可开放科学实践职业发展机会。例如,接受预注册和注册报告作为产出,或承认数据集和文件的发布是职业发展的相关出版物。

3.研究资助者、研究机构和行业参与者通过投资于开放式科学基础设施、工具和实践来鼓励国际合作。例如,通过投资于开放式资料库,实现数据集、软件版本和工作流程的共享,或通过支持开发上下文感知文档,实现人工智能模型在不同研究环境中的本地化。后者还有助于支持代表性不足的研究群体和在低资源环境中工作的科学家。

4.相关政策制定者考虑如何阻止科学领域人工智能封闭生态系统的发展,例如,强制要求负责任地发布行业主导的研究中使用的基准、训练数据和方法。

建议4:科学界应有效监管科学研究中应用的人工智能系统,并确保其应用符合公共利益的道德规范

在科学领域应用人工智能需要仔细考虑潜在的风险和滥用情况。这可能包括数据偏差的影响、数据中毒、错误信息的传播以及恶意利用人工智能模型。除此之外,人工智能的资源密集性质也引发了伦理问题,即科学家使用的人工智能会在多大程度上无意中造成环境和社会危害。

人工智能风险的不确定性加剧了伦理方面的担忧。截至2023年底,有关人工智能安全的公开辩论尚未确定科学家在监测和降低各自领域风险方面的作用。此外,各领域专家的人工智能专业技术水平参差不齐,缺乏进行伦理影响评估的标准化方法,这些都限制了科学家实施有效监管的能力。其他因素包括商业模式的透明度有限、机器学习系统的不透明性,以及滥用开放科学实践会如何加剧安全风险。

随着人工智能进一步融入科学,需要建立人工智能保障机制,以维护公众对人工智能的信任,确保负责任的科学进步造福人类。人工智能专家、领域专家以及人文学科和科学、技术、工程、艺术和数学(STEAM)学科的研究人员之间的合作可以提高科学家监管人工智能系统和预测潜在危害的能力。

同样,与人工智能培训数据集中有代表或没有代表的社群接触,可以提高对基于人工智能的研究项目潜在风险的认识。

支持在科学领域合乎伦理地应用人工智能的行动可包括:

1. 研究资助者和研究机构投资于科学领域,特别是敏感领域(如化学和生物研究)的人工智能风险可操作化和建立特定领域分类的工作。

2.研究资助者、研究机构、行业参与者和相关科学界广泛接受现有的人工智能伦理框架,如联合国教科文组织《人工智能伦理建议书》或经合组织《人工智能伦理准则》所反映的内容,并实施将开放科学与防范潜在风险相结合的做法。

3.研究资助者、研究机构和培训中心提供人工智能伦理培训,培养科学家开展前瞻活动(如地平线扫描)、部署前测试(如红队)或人工智能模型伦理影响评估的能力,以确定与其领域相关的风险和防范措施。

4.研究资助者、研究机构和培训中心支持开发跨学科和参与式的安全审计方法,确保人工智能和非人工智能科学家以及受影响社区参与评估人工智能在科学研究中的应用。

参考来源:英国皇家学会官网

参考题目:Science in the age of AI:How artificial intelligence is changing the nature and method of scientific research

参考链接:

https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/

来源:元战略