全球最大规模AI预训练模型“悟道 2.0”重磅发布

发布时间:2021-06-18

6 月1 日上午,由北京智源人工智能研究院主办的2021 北京智源大会在线上线下同步拉开帷幕。会议发布了全球规模最大的人工智能预训练模型"悟道2.0",并邀请国内外专家学者分享有关AI 预训练模型的真知灼见。此外,智源研究院、北京智谱华章科技有限公司(以下简称"智谱AI")和微软小冰团队以"悟道2.0"为技术核心,联合推出了中国首个人工智能虚拟学生"华智冰",这名特殊的学生将进入由智源研究院学术副院长、清华大学唐杰教授领衔的清华计算机系知识工程实验室,开展多模态、跨领域的"学习研究",展现"悟道2.0"的应用潜力。

悟道2.0:大规模、大数据、大算力

华智冰将拥有接近18 岁真实人类女性的嗓音和面孔。更重要的是,与此前大部分只善长进行某个专项任务的机器学习AI 产品不同,华智冰不仅能够如人类一样进行听说读写,甚至还能作诗、绘画、创作音乐。而唐杰团队的"教学目标",正是继续发展并拓宽华智冰的跨领域智能,令其获得解决复杂问题的能力,希望其最终发展为通用人工智能。

这名虚拟学生背后的核心技术正是这次大会上发布的"悟道2.0 大规模预训练模型"。悟道2.0 由唐杰领衔,联合智源研究院、智谱AI 等多家机构的学者和技术人员共同研发,是目前全球规模最大的人工智能预训练模型,具有1.75 万亿的巨大参数和与之对应的超大算力支撑,以4.9 TB 的海量中英文和多模态数据为基础,涵盖了多种其他语言,在图文互检、多模态生成等多项任务上突破了图灵测试,并在多种被国际学界广泛认可的测试指标上获得了优于OpenAI 的GTP - 3 和谷歌的BERT 等预训练模型的结果。

唐杰发布悟道2.0

悟道2.0 包含4 个模型分支:以中文为核心的语言模型"文源",能够写诗作图、完成一定程度的复杂推理的认知模型"文汇",为产业界提供中文图文预训练模型和应用的多模态模型"文澜",以及蛋白质序列与结构预测模型"文溯"。这些模型使用的训练数据规模庞大,包含1.2 TB 的中文数据、1.2 TB 的英文数据和2.5 TB 的图文数据,并且都已经过清洗,具有极高的质量。这确保了模型能够根据中文、英文或图片等不同类型的输入进行转换和分析,给出任意类型的准确回答。大模型、大数据、大算力,加上P-tuning、inverse prompting、FastMoE 等先进算法技术,使得悟道兼具了GTP - 3 和BERT 的优势,在预测和判别类型的任务上都具有极佳表现。

在这样的基础上,结合了微软小冰框架的虚拟学生华智冰已经具有了高水平的中文推断和生成能力,"她"不仅能根据命题进行作诗、作画,还能根据图像生成文字,甚至可以进行音乐编曲创作。

在2021 智源大会上,华智冰也带来了自己的绘画和诗词作品。

会上,唐杰用"你实最大"四个字总结了悟道2.0 的特点。"大"是指这次发布的预训练模型是全球最大,具有1.75 万亿参数,在几万个国产CPU 上进行了预训练,4.9 TB 的数据规模也极大。"最"是最准,悟道在9 个任务上达到了国际第一的水准,在AIC-ICC、SuperGlue 的测试框架中结果明显好于第二名。"实"是指悟道的的实用性:悟道纯中文的预训练模型和对标Dall-E 的图文模型均为开源,任何人都可下载;团队还面向开发者进行设计,提供了高效的开发方法,允许简单地把模型适配到单卡上进行应用,解决了百亿以上模型的加载问题。"你"则表达了悟道团队对人工智能开发者和学习者社群的期望,呼吁社群广泛讨论学习,积极使用API 甚至贡献源代码,共建良好生态。

唐杰用"你实最大"四字总结了悟道2.0 的特点。

不断进化

在人工智能领域,人的大脑被划分为system 1 和system 2 两种模式,前者指的是对信息的被动感知,后者则代表着主动认知的能力,这超越了目前人工智能的水准。system 2 能对新的信息和领域做出理性推断和因果分析,这是处理复杂任务甚至实现通用人工智能的必要前提。

举例来说,基于"悟道2.0" 的华智冰目前已经能够根据设问在图文跨模态生成等领域的任务中给出较为精确的结果。但如果面对一个数学或物理问题,"她"恐怕是难以正确回答的,因为这需要明确的逻辑推断和因果推演,对AI 模型来说是全新的领域。但目前AI 模型拥有的自然语言和图文多模态处理能力是能够在分析科学问题上提供帮助的,在同一框架下通过门(gate)选择出的一个或几个专家(expert)网络,能够对专门领域的问题做出分析。因此科学家们不希望今后的人工智能发展仍然只是独立地关注一个个问题,解决后就抛弃,遇到新问题时又要再次进行基于案例(case-based)的重新研究、重新建模和重新训练,"大炼模型"带来的效率低下和资源浪费是不利于社会健康发展的。与之相反,唐杰教授指出,新的问题完全可能并入原有框架,利用从原有模型中得到的知识,在知识和数据的双轮驱动下分析全新的问题。

这也正是研发团队创造悟道模型,用"炼大模型"取代"大炼模型"的初衷之一。一个超大规模的自然语言和多模态模型,可以成为解决几乎所有复杂问题的坚实基础。不仅在今天的工业界有推荐算法、搜索算法等广泛应用,甚至会成为未来设计行业、新闻行业甚至数学问题、代码编程和科学研究等领域的重要工具。

如此利用现有模型数据和所得的知识,去学习解决全新的甚至更复杂的问题,也正是来自智源研究院和智谱AI 的科学家们对悟道的期望。

通往通用人工智能之路

对于华智冰来说,研发团队也抱有同样的期待。唐杰教授和微软小冰团队认为这名虚拟学生不仅要发展新的多模态学习能力,还要能够将其落地,才算是达到毕业的基本要求。例如,假设用户提出了一个网站项目要求,华智冰不仅需要在完成构思的基础上进行架构设计和代码编写,还要保证代码运行正常,并且要像人类工程师团队一样,确保后续的运营和维护。这样的要求相比简单完成单点任务要高出许多。

曾有人认为,通用人工智能不是30 年内能够看到成果的东西。但悟道团队已经在这条路上看到了希望。唐杰在采访中表示,大规模预训练模型未必是实现通用人工智能的必须条件或唯一路径,但至少是非常可能的一种选择。如果它的确可行,那么通用人工智能将会在未来10 年内初具雏形——这个过程需要慢慢成长,并不能一蹴而就。对于华智冰来说,这或许就是她的"博士学位"。

来源:科研圈