阿里达摩院发布最大中文预训练语言模型 AI可仿写小说
发布时间:2021-05-14自2018 年谷歌发布BERT 以来,预训练模型(Pre-trained Models, PTMs)逐渐成为自然语言处理领域的主流。2020 年5 月,OpenAI 发布了拥有1750 亿参数量的预训练模型GPT-3。作为一个语言生成模型,GPT-3 不仅能够生成流畅自然的文本,还能完成问答、翻译、创作小说等一系列NLP 任务,甚至进行简单的算术运算,并且其性能在很多任务上都超越相关领域的专有模型,达到SOTA 水平。
在这样的发展态势下,构建以中文为核心的超大规模预训练模型及生态势在必行。
4 月19 日,阿里达摩院发布了中文社区最大规模预训练语言模型PLUG(Pre-training for Language Understanding and Generation)。该模型参数规模达270 亿,集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出,其目标是通过超大模型的能力,大幅提升中文NLP 各类任务的表现,取得超越人类表现的性能。
从技术上来看,阿里达摩院的PLUG 与GPT-3 类似,有望广泛应用于文本生成领域,成为「万能写作神器」。较GPT-3 改进的是,PLUG 设计了一个简洁的模型框架,集成了达摩院自研的语言理解及语言生成双模型,通过构建输入文本双向理解能力,显著提升了输出文本的相关性。在语言理解任务上,PLUG 以80.614 的分数刷新了CLUE 分类榜单记录;在语言生成任务上,PLUG 多项应用数据较业内最优水平提升了8% 以上。
4 月19 日,PLUG 刷新CLUE 分类榜单纪录,排名仅次于「人类」。
据了解,PLUG 采用了1TB 以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域,其模型训练依托了阿里云EFLOPS 高性能AI 计算集群。接下来,PLUG 将扩大参数规模至2000 亿级,并进一步提升文本生成质量。
在超大规模预训练模型领域,除了以中文为核心的PLUG 外,达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型「文汇」,以及联合清华大学发布了超大规模多模态预训练模型「M6」。此外,达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。
阿里达摩院语言技术实验室负责人司罗表示:「达摩院NLP 团队将进一步攻克NLP 领域科研难题,完善中文及跨语言人工智能基础设施,让AI 没有难懂的语言,并探索通用人工智能之路。」
270 亿参数、1TB + 训练数据,全球最大中文预训练模型PLUG
PLUG 超大规模预训练中文理解& 生成统一模型,是目前中文社区最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身。旨在通过超大模型的能力,大幅度提升中文NLP 在各大任务的表现,其性能超越人类。
相较于Open AI 的GPT-3 等其他大规模生成模型,PLUG 具备以下独特优势:
- PLUG 是目前中文社区最大规模的纯文本预训练语言模型;
- PLUG 集语言理解与生成能力于一身,在语言理解(NLU)任务上,以80.614 的得分刷新了Chinese GLUE 分类榜单的新记录排名第一;在语言生成(NLG)任务上,在多项业务数据上较SOTA 平均提升8% 以上;
- PLUG 可为目标任务做针对性优化,通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优,弥补之前其它大规模生成模型few-shot inference 的生成效果不足,可应用于实际生成任务上;
- PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用encoder-decoder 的双向建模方式,因此,在传统的zero-shot 生成的表现上,无论是生成的多样性、领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。
目前,PLUG 已经开放了体验功能供学术领域试用。
测试地址:https://nlp.aliyun.com/portal#/BigText_chinese
技术细节
此前,达摩院机器智能实验室自研的NLU 语言模型StructBERT 与NLG 语言模型PALM 均在各自领域取得了SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标对语言结构信息的建模,加强模型对语法的学习能力。PALM 模型则结合了Autoencoding 和Autoregression 两种预训练方式,引入Masked LM 目标来提升encoder 的表征能力,同时通过预测文本后半部分来提升decoder 的生成能力。
此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行NLU&NLG 联合训练。相比于GPT 系列模型,该大规模生成模型以StructBERT 作为encoder,具有很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。
整个训练流程分为两个阶段:
首先在第一阶段,达摩院团队训练了一个24 layers/8192 hidden size 的标准StructBERT 模型作为encoder。这个过程共计训练了300B tokens 的训练数据,规模与GPT-3 的训练规模相当;
在第二阶段,达摩院团队将这个encoder 用于生成模型的初始化,并外挂了一个6 layers / 8192 hidden size 的decoder,在训练生成模型的过程中,在encoder 端和decoder 端均随机确定长度[32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了100B tokens 的训练数据,前90% 的训练中,团队保留了Masked LM 任务以保持模型的NLU 能力,后10% 的训练中,去掉MLM 任务进行微调,以使得生成的PPL 降到更低,能取得更好的生成效果。
PLUG 生成示例展示
PLUG 生成模型有着很强的长文本生成和建模能力,相比于GPT 系列模型的单向建模,PLUG 对输入的理解是双向建模的,因此能够在给定小段输入的条件下,生成和输入内容相关且信息量丰富的长文本。
在小说散文续写、诗歌生成、自由创作等多场景下的生成结果显示出了PLUG 模型的强大性能。此前,阿里巴巴深度语言模型体系已经覆盖了多模态语言模型StructVBERT、多语言模型VECO、生成式语言模型PALM 等6 大自研模型,并登顶了多个国际赛事和榜单。达摩院此次发布的PLUG 模型,为阿里巴巴深度语言模型体系又增添了一员大将。
来源:机器之心