微软研究院:2024年值得关注的三大人工智能趋势

发布时间:2024-02-27

对生成式人工智能而言,2023年是具有重要意义的一年。在这一年里,数百万人通过使用 ChatGPT 和 Microsoft Copilot[1] 等工具,让人工智能从实验室走进了我们的现实生活。展望2024年,人工智能将会变得更加便利和实用、更加深入细微,并将融入到那些可以提升我们日常工作和协助解决全球性问题的技术中。

以下是微软研究院认为在2024年值得关注的三个重要的人工智能发展趋势。

本文编译自微软博客:https://news.microsoft.com/three-big-ai-trends-to-watch-in-2024/

小语言模型

如果你曾使用 Microsoft Copilot 来回答复杂的问题,那么相信你已经感受到了大语言模型(LLMs)的强大能力。这些模型非常巨大,需要占用大量的计算资源来运行,所以小语言模型(SLMs)的发展就变得十分重要。

参数是影响模型行为的变量或可调节元素。尽管与大语言模型的数千亿参数相比,小语言模型所拥有的数十亿参数要少得多,可这仍然相当庞大,但已足够在手机端离线运行。

微软研究院机器学习基础组负责人 Sebastien Bubeck 表示:“小语言模型在规模和成本上的优势,将会让人工智能更加普及。与此同时,我们也在探索新的方法,让它们能够达到和大语言模型一样强大的水平。”

目前,微软研究院的研究员们已经开发并发布了两个小语言模型——Phi[2] 和 Orca[3],它们在一些领域展现出了与大语言模型同样甚至更好的性能。而这对“规模是性能的保证”观点也提出了质疑。

不同于使用海量互联网数据进行训练的大语言模型,小语言模型使用的都是筛选的高质量训练数据,研究员们在模型的规模和性能之间取得了平衡。2024年,我们有望看到更多优化过的小语言模型,它们将会推动研究和创新的进一步发展。

多模态人工智能

大多数大语言模型只能处理文本数据,但多模态模型则可以理解来自文本、图像、音频和视频等不同类型的数据。多模态模型强大的综合能力,可以让技术在搜索工具和创意应用等领域发挥更好的作用,提升它们的丰富性、准确性和连贯性。

Microsoft Copilot 的多模态模型能够处理图像、自然语言和必应的搜索数据,因此用户可以使用 Microsoft Copilot 来获得上传图像中的相关信息。例如,借助 Microsoft Copilot 用户可以了解某张照片中的纪念碑的历史故事。

多模态人工智能也为 Microsoft Designer[4] 提供了支持。Microsoft Designer 是一款可以根据用户描述智能生成视觉图像的图形设计应用。除此之外,多模态人工智能还可以实现微软 Azure AI 服务中的自定义神经语音[5],或为文本阅读器和需要语音支持的残障人士提供自然的语音输出。

微软首席技术官办公室首席工程师 Jennifer Marsman 表示:“多模态能够创造更加人性化的体验,更好地利用人类的各种感官,如视觉、语言和听觉。”

科学探索中的人工智能

专家预测,人工智能工具有潜力在促进科学发现方面实现突破,从而帮助应对如气候变化、能源危机和疾病等全球性问题。

为了缓解气候变化并帮助农民更高效地工作,微软的研究员们正在利用人工智能构建更精确的天气预测工具、碳排放估算工具以及其他有利于农业可持续发展的工具。不仅如此,研究员们还在探索能够帮助农民进行田间作业的人工智能技术[6]。比如,使用聊天机器人帮助农民识别陌生的杂草、基于农场特定数据比较不同灌溉方法的效率等。

在生命科学领域,研究员们正在合作构建全球最大的基于图像的人工智能模型以抗击癌症[7],并利用先进的人工智能技术来寻找治疗传染性疾病的新药物[8]和突破性药物的新分子[9]。这类技术的研发通常需要经过数年的科学实验和试错,现在借助人工智能,这个过程将缩短至几个月甚至几周。

材料科学是一个致力于开发具有特定性能的新材料的广泛领域。人工智能也在这个领域发挥着创新作用。最近的一项研究突破就展示了人工智能和高性能计算加速寻找低毒性电池材料的能力[10]。

微软研究院科学智能中心负责人 Chris Bishop 表示:“人工智能正在推动科学发现的革命。这可能是人工智能最令人兴奋的应用领域,也是最重要的应用领域。”

来源:微软亚洲研究院