当前位置：动态资讯

横扫6大AI榜单后，阿里将这一顶级语言AI开源

发布时间：2021-07-16

智东西6月22日报道，今日，阿里巴巴达摩院正式宣布已开源预训练语言模型体系AliceMind。

日均调用量超过50亿次、活跃场景超过200个、登顶六大NLP权威榜单，AliceMind身上有许多荣耀的战绩，并入选了2021年世界人工智能大会最高奖项SAIL奖TOP30榜单。

作为阿里的语言技术底座，AliceMind正在让机器学会说"人话"的道路上一路快跑。

达摩院深度语言模型团队负责人黄松芳告诉智东西，AliceMind生态体系完整，能力全面，希望通过开源，推动NLP行业研究突破和应用创新。

开源地址：https://github.com/alibaba/AliceMind/

01.

历史三年研发，登顶6大AI权威榜单

让机器拥有语言能力，学会像人类一样理解学习甚至对话输出，如何实现？

长期以来，自然语言处理（NLP）研究一直在探索这样的方向。传统NLP模型制作复杂，耗时耗力，且用途单一，难以复用，犹如手工作坊，但随着预训练语言模型兴起，这些难点正被击破。

2018年底，谷歌推出在NLP领域具有里程碑意义的预训练模型BERT，这一模型提出了一种全新的技术范式，用大量无标记语料数据进行预训练，显著提高了语言模型的准确率。

在BERT的基础上，达摩院团队提出优化的结构化预训练模型StructBERT，让机器更好地掌握人类语法，理解自然语言。

由阿里巴巴达摩院历经三年研发的AliceMind模型体系，即是以StructBERT为核心，拓展到多语言、生成式、多模态、结构化、知识驱动等领域，将跨语种、多模态的信息打通。

▲AliceMind体系内的模型登顶六大NLP榜单

截至5月，AliceMind体系内的主要工作已登顶GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO等六大AI&NLP权威榜单。

其中的多语言、多模态、结构化预训练三个模型均被国际学术顶会ACL 2021录取。

6月19日，AliceMind体系中的多模态模型StructVBERT，再次登顶多模态权威榜单VQA Challenge 2021。

这个比赛类似看图问答，给定一张图像和关于图像的自然语言问题，AI需要提供准确的自然语言答案。AliceMind战胜了微软、Facebook等几十家国际顶尖团队，将纪录从去年第一的76.36%显著提升到超过79%，接近人类水平（80.78%）。

▲AliceMind登顶VQA Challenge 2021榜单

除了上述6种模型外，AliceMind模型体系还包括超大模型PLUG、知识驱动LatticeBERT等模型。

中文预训练模型PLUG在两个月前刚刚发布，因为高达270亿的超大规模参数，在业界猛刷了一把存在感。黄松芳透露道，PLUG开源目前正在规划中。

目前AliceMind已上线到内部平台，开箱即用，支持继续训练、精调、蒸馏、测试、部署五大功能，只需简单操作，即可完成语言模型从训练到部署的完整链路。

▲AiNLP管控台

02.

已落地数十个应用，助推AI进入大工业时代

开源AliceMind，会带来哪些好处？

达摩院深度语言模型团队负责人黄松芳告诉我们，对于阿里而言，语言模型的落地应用是一个系统工程，不是一个企业能做成的。

因此，通过开源，阿里希望和社区一起来推动语言模型的落地，也在这个过程中，进一步完善和提升AliceMind。

对于外部来说，AliceMind开源降低业界研究和创新应用的门槛，助推语言AI进入大工业时代。

外部开发者可以基于此，快速地搭建智能的NLP引擎，大大降低对于人工标注数据的依赖，也降低了AI从业者的入门门槛。

更重要的是，这将能够大幅提升改善或者超过传统机器学习方法效果。

如果用炼钢来类比，以前训练一个NLP模型，得从铁矿石开始炼钢，周期长，费用高，产量低。

而开源预训练语言模型的好处在于，已经给你提供了现成的粗钢，你需要做的，只是将粗钢炼成所需的特定钢材，这使得开发效率大为提升。

此前，AliceMind已具备阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力，落地于跨境电商、客服、广告等数十个核心业务应用。

▲AliceMind诗词生成示例

以云小蜜智能客服场景为例，StructBERT和PALM等模型被深度运用于FAQ匹配、QA挖掘和Paraphrase数据增强等业务，其中匹配模型帮助将政务行业top1准确率提升2.9%，并支持了疫情问答在九个地市机器人上线应用。

在阿里之外，AliceMind还被应用于医疗、能源、金融等多个行业。

比如，在电力能源领域，浙江电网公司以AliceMind为底座为员工构建了智能化运维平台，应用于变压器检修、供电抢修等业务，已开始在国家电网公司统一推广。

再比如，AliceMind在阿里云医疗行业应用于病历质检和健康档案产品，落地几十家医院。

而在AliceMind开源后，它将进一步推动语言AI走向可规模化复制的大工业时代。

AliceMind官网：https://nlp.aliyun.com/portal#/alice

03.

体系内的不同模型：各有侧重，理念共通

总体来看，AliceMind具有覆盖模型全面、技术领先、开放普惠的特点，它将围绕"预训练+精调"语言模型持续进行生态性的技术开源。

在"预训练"阶段，模型从大规模文本中学习到词与词的搭配关系，及句子之间的上下文关系等语言通用知识。

然后，在进一步的自学习过程中，模型掌握到特定领域任务的特定知识，从而在大量的上下游任务中达到更好的性能。

▲AliceMind深度语言模型体系

黄松芳告诉智东西，AliceMind体系内的模型既各有侧重，同时创新理念上有共通之处。

各有侧重是指AliceMind在围绕语言理解（NLU）和语言生成（NLG）上，分别延伸扩展。

围绕语言理解（NLU），团队提出"纯文本"理解模型StructBERT、"图文混合"理解模型StructVBERT、以及"文本表格"理解模型Structural-LM。

围绕语言生成（NLG），团队先提出能进行文本生成的单语言生成模型PALM，继而扩展到可以处理多种语言的多语言生成模型VECO，最后是今年4月已实现百亿参数的超大模型PLUG，其规模正在进一步提升。

创新理念上有共通之处则体现在于，比如StructBERT、StructVBERT和Structural-LM均是充分挖掘文本、图像、表格的"结构"信息，而PLUG则联合了语言理解模型StructBERT和语言生成模型PALM。

04.

AliceMind体系中的8处创新

具体到AliceMind体系内的各个模型，它们分别有一些创新之处。

1、通用语言模型（StructBERT）

StructBERT通过在句子和词级别引入两个新的目标函数，好比给AI装上"语法识别器"。

在面对语序错乱或不符合语法习惯的词句时，AI依然能准确理解并给出正确回应，大大提高机器对语言的整体理解力。

该模型去年多次在自然语言处理领域顶级赛事GLUE Benchmark上夺冠。

2、多语言语言模型（VECO）

跨语言预训练初衷是为多种语言建立起一个统一联合的语义表示，AliceMind体系内的跨语言预训练模型VECO一经提出，便在国际权威多语言榜单XTREME排名第一，远超Facebook、Microsoft等业界代表性模型。

VECO目前支持100种语言的理解和生成任务。其出色表现主要源于两项创新：一是其可以更加"显式"得进行跨语言信息的建模（图1）；二是VECO在预训练的过程充分学习用于NLU和生成NLG任务，并让二者互相学习提高彼此（图2）。

据悉，VECO模型是多语言领域内的第一个同时在多语言理解（NLU）和语言生成（NLG）任务上均取得业内最佳效果的模型，已被顶会ACL2021录用。

3、生成式语言模型（PALM）

PALM模型可被用于问答生成、文本复述、回复生成、文本摘要、Data-to-Text等生成应用。

与之前生成模型的预训练方式不同，该模型将预测后续文本作为其预训练目标，而非重构输入文本。它在一个模型中使用自编码方式来编码输入文本，同时使用自回归方式来生成后续文本。

这种预测后续文本的预训练，促使该模型提高对输入文本的理解能力，从而在下游的各个语言生成（NLG）任务上取得更好的效果。

该模型在MARCO NLG自然语言生成公开评测上取得第一，并在摘要生成标准数据集CNN/DailyMail和Gigaword上超过了现有的各个预训练生成语言模型。

4、结构化语言模型（StructuralLM）

StructuralLM在语言模型StructBERT的基础上扩展到结构化语言模型，充分利用图片文档数据的2D位置信息，并引入box位置预测的预训练任务，帮助模型感知图片不同位置间词语的关系，这对于理解真实场景中的图片文档十分重要。

Structural LM模型在DocVQA榜单上排名第一，在表单理解FUNSD数据集和文档图片分类RVL-CDIP数据集上也超过现有的所有预训练模型。

5、多模态语言模型（StructVBERT）

StructVBERT是在通用的StructBERT模型基础上，同时引入文本和图像模态，在统一的多模态语义空间进行联合建模，在单流架构的基础上同时引入图像-文本描述数据和图像问答数据进行多任务预训练，并在多尺度的图像特征上进行分阶段预训练。

此外，模型利用attention mask矩阵控制实现双流架构，从而提升跨模态双流建模能力，结合单流、双流结构的优点进一步提升模型对文本和图像两个模态的理解能力。相关文章已被顶会ACL2021录用。

6、机器阅读理解模型（UED）

自最开始声名大噪的SQuAD榜单起，阿里围绕着机器阅读理解发展路线：单段落抽取->多文档抽取/检索->多文档生成->开放式阅读理解，拿下了一系列的榜单冠军。

其UED曾于2018年在单段落机器阅读理解领域顶级赛事SQuAD上首次超出人类回答精准率；同年在多文档机器阅读理解权威比赛TriviaQA和DuReader上双双刷新第一名纪录。

2019年，该模型在信息检索国际顶级评测TREC 2019 Deep Learning Track上的段落检索和文档检索任务上均取得第一名；在机器阅读理解顶级赛事MS MARCO的段落排序、多文档答案抽取以及多文档答案生成3个任务均取得第一名，并在多文档答案抽取任务上首次超越人类水平。

7、超大规模中文理解和生成统一模型（PLUG）

PLUG是目前中文社区已开放API的最大规模的纯文本预训练语言模型，集语言理解与生成能力于一身，今年4月其参数规模已达到270亿。

PLUG可为目标任务做针对性优化，通过利用下游训练数据微调（finetune）模型，使其在该特定任务上生成质量达到最优，弥补之前其它大规模生成模型小样本推理（few-shot inference）的生成效果不足，适于应用在实际生成任务。

同时，PLUG采用encoder-decoder的双向建模方式，因此在传统的zero-shot生成的表现上，无论是生成的多样性、领域的广泛程度，还是生成长文本的表现，较此前的模型均有明显的优势。

8、知识驱动的语言模型LatticeBERT

LatticeBERT在预训练模型中训练中有效地融合了词典等知识，能同时建模字和词的结构，来线性化地表示这种混合粒度的输入。

第一步是将涵盖多粒度字词信息的中文文本用词格（Lattice）表示起来，再把这个词格线性化作为BERT的输入。

该模型在2020年9月取得中文予以理解评估基准CLUE榜单base模型的第一名。

05.

结语：打通AI模型到产业的最后一公里

黄松芳说，AliceMind团队的重点任务将是围绕如何将预训练模型（甚至是超大预训练模型）有效落地，打通AI模型到产业的最后一公里。

后续，团队将开源改进版本的多模态模型E2E-VLP（端到端Pixel预训练），并会开源将预训练模型落地到实际业务场景的有效方案，如小样本场景的微调技巧、针对大模型的压缩蒸馏加速等算法、如何融合行业知识等，从而进一步降低NLP领域研究和应用创新的门槛。

来源：智东西

新闻公告

横扫6大AI榜单后，阿里将这一顶级语言AI开源