不止GPT-3,2020年10篇必读的NLP突破论文丨年度盘点

学术头条 2020-12-30

nlp测试模型人工智能

4468 字丨阅读本文需 14 分钟

尽管 2020 年是充满挑战的一年,但人工智能学术研究并未因此停滞,仍然诞生了许多有意义的技术突破。在 NLP 领域,OpenAI 的 GPT-3 可能是其中最 “出圈” 的,但除它之外,肯定还有很多其他研究论文值得关注。

整体来看,2020 年的主要 NLP 研究进展仍以大型预训练语言模型为主,特别是 transformers。今年出现了许多有趣的更新,使得 transformers 架构更加高效,更适用于长文档。

另一个热点话题与 NLP 模型在不同应用中的评估有关。业界仍然缺乏普适的评估方法以清晰定义一个模型究竟哪里失败了,以及如何修复这些问题。

另外,随着 GPT-3 等语言模型能力的不断增强,对话式人工智能正受到新一轮的关注。聊天机器人正在不断改进,今年顶级技术公司推出的多款聊天机器人(例如 Meena 和 Blender 等)令人印象深刻。

在 2020 年年尾,国外 AI 技术博客 topbots.com 总结了 2020 年的 10 篇重要机器学习研究论文,入选论文也多为今年的顶会论文奖斩获者,具有较高的权威度,“数据实战派” 在此基础上有所延伸,以便让读者对今年的 NLP 研究进展有一个大致的了解,当然,名单之外,也仍有很多突破性的论文值得阅读。也欢迎读者后台留言与我们交流反馈。

2020 年 10 篇必读的 NLP 突破论文 LIST:

1.WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2.Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

3.Reformer: The Efficient Transformer

4.Longformer: The Long-Document Transformer

5.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

6.Language Models are Few-Shot Learners

7.Beyond Accuracy: Behavioral Testing of NLP models with CheckList

8.Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

9.Towards a Human-like Open-Domain Chatbot

10.Recipes for Building an Open-Domain Chatbot

1、WinoGrande 挑战

WSC 挑战是一个人类常识推理的测评集。它包含了 273 个由专家设计的问题,这些问题无法单纯依靠统计模型来解决。但是,最近的语言模型在这个测试集上取得了 90% 的准确率。这就提出了一个问题,即语言模型是真正学会了推理,还是仅仅依靠一些对数据集的偏好?

为回答这个问题,华盛顿大学艾伦人工智能研究所的一支团队提出了一个新的挑战 ——WINOGRANDE,一个用于常识推理的新的大规模数据集。WINOGRANDE 是对 WSC 挑战的升级,同时增加了问题的难度和规模。

WINOGRANDE 的开发有两大关键:在众包设计过程中,众包人员需要写出符合 WSC 要求并包含某些 anchor words 的双句子,最终收集的问题会通过一组众包工作者进行验证。在收集的 77,000 个问题中,有 53K 被视为有效。

另一个关键在于研究人员开发用于系统减少偏差的新颖算法 AfLite,将出现的人类可检测偏差巧妙转换为了基于嵌入的机器可检测的偏差。应用 AfLite 算法后,去除偏见的 WinoGrande 数据集包含 44K 样本。

在 WINOGRANDE 测试集上,现在最好的方法只能达到 59.4 – 79.1% 的准确率,比人类表现(94.0%)低 15%-35%。

一句话总结现实影响:有助于探索减少系统偏差的新算法,并避开其他 NLP 基准的偏差。

这篇文章获得了 AAAI2020 的最佳论文奖 (Outstanding Paper Award)。

2、打造更强大的 Transformer

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 一文中,谷歌研究团队建议在 NLP 中采用统一的转移学习方法,目标是在该领域树立一个新的标准。为此,他们提出将每个 NLP 问题都视为一个 "文本到文本" 的问题,这样的框架将允许在不同的任务中使用相同的模型、目标、训练过程和解码过程,包括总结、情感分析、问题回答和机器翻译。

研究人员将他们为此打造的模型,称为文本到文本传输转化器 (Transfer Text-to-Text Transformer,T5),并在大量网络抓取数据的语料库上对其进行训练。

通过探索和比较现有的技术,T5 的诞生为 NLP 领域的发展提供一个全面的视角。特别是提出把每个 NLP 问题都当作文本到文本的任务来处理,为 NLP 的迁移引入了新的方法。由于在原始输入句子中添加了特定任务的前缀(例如,"将英语翻译成德语:","总结:"),T5 可以理解应该执行哪些任务。

伴随着 T5 的诞生,还有一个名为 C4 的数据集。研究团队从 Common Crawl(一个公开的网页存档数据集,每个月大概抓取 20TB 文本数据) 里整理出了 750 GB 的训练数据,取名为 “Colossal Clean Crawled Corpus (超大型干净爬取数据)”,用来训练 T5.

最终,文中提到的 24 个任务中,拥有 110 亿个参数的 T5 模型在 17 个任务上取得了最先进的性能,包括:GLUE 得分 89.7 分,在 CoLA、RTE 和 WNLI 任务上的性能大幅提升;在 SQuAD 数据集上的精确匹配得分 90.06 分;SuperGLUE 得分 88.9,比之前最先进的结果 (84.6) 有非常显著的提高,非常接近人类的表现 (89.8);在 CNN/Daily Mail 抽象总结任务中,ROUGE-2-F 得分 21.55。

一句话总结现实影响:即使该研究引入的模型仍具有数十亿个参数,并且可能过于笨重而无法在业务环境中应用,但是所提出的思想,仍有助于改善不同 NLP 任务的性能,包括摘要、问题回答和情感分析。

3、更高效的 Reformer

因为参数数量非常大、需要存储每一层的激活以进行反向传播、中间前馈层占内存使用的很大一部分等诸多原因,Transformer 模型需要大量的计算资源。

面对这样一个 “庞然大物”,往往只有大型研究实验室才有条件对其进行实际训练。

为了解决这个问题,谷歌的研究团队在 Reformer: The Efficient Transformer 一文中,介绍了几种可提高 Transformer 效率的技术。

特别是,他们建议,使用可逆层以仅对每个层而不是每个层存储一次激活,以及通过局部敏感散列来避免昂贵的 softmax 计算。在多个文本任务上进行的实验表明,该论文引入的 Reformer 模型可以与完整的 Transformer 的性能相匹配,但是运行速度更快,内存效率更高。Reformer 在表现出更高的速度和内存效率的同时,可以与完整的 Transformer 模型媲美,例如,在将机器从英语翻译成德语的 newstest2014 任务上,Reformer 基本模型的 BLEU 得分为 27.6 ,而 Transformer 的 BLEU 得分为 27.3 。

一句话总结现实影响:Reformer 实现的效率改进可以助推更广泛的 Transformer 应用程序,特别是对于依赖于大上下文数据的任务,例如文字生成、视觉内容生成、音乐的产生、时间序列预测。

该论文被选为 ICLR 2020 的 oral presentation 。

4、为长文档而生的 Longformer

Self-Attention 机制是成功实现 Transformer 体系结构的关键因素之一。但是,它也使得基于 Transformer 的模型很难应用于长文档。

现有技术通常将长输入分成多个块,然后再使用复杂的结构在这些块中组合信息。艾伦人工智能研究所的研究团队,则为这个问题介绍了一种更为优雅的解决方案。

他们提出的 Longformer 采用了一种新的注意力模式,即将局部自注意力和全局自注意力相结合,在提高效率的同时又不失效果。这种关注机制与序列长度成线性比例,并可以处理具有数千个 tokens 的文档。由于 sliding window 注意力模式的实现需要带状矩阵乘法的形式,而现有的深度学习库(如 PyTorch 和 Tensorflow)不支持这种形式,因此作者还引入了自定义 CUDA 内核来实现这些注意力操作。

实验表明,Longformer 在字符级语言建模任务上取得了最先进的结果,并且在经过预培训后,在长文档任务上始终优于 RoBERTa。

一句话总结现实影响:对于经常需要处理长文档的下游 NLP 任务,Longformer 体系结构可能会有更明显的优势,这些任务包括文件分类、问答、共指解析、总结、语义搜索等。

5、GAN 的巧妙运用之 ELECTRA

诸如 BERT 和 XLNet 这类颇受欢迎的语言模型,在预训练任务中会屏蔽一小部分未标记的输入,然后训练网络以恢复此原始输入。

尽管这种名叫 MLM(Masked language modeling)的训练方式效果很好,但是由于它只能从一小部分 tokens(通常约 15%)中学习,因此其数据效率并不是特别高。这种方式迁移到下游 NLP 任务时能够得到较好的结果,但往往需要大量的算力。

作为替代方案,斯坦福大学和谷歌大脑的研究人员基于 BERT 的模型,与 GAN 的想法相融合,提出一种新的预训练方法 ——RTD ,replaced token detection。RTD 不会对输入进行遮蔽,而是从生成器中采样得到可信的 tokens,再替换掉原始输入上的 tokens。

结果显示,该方法可显着加快下游 NLP 任务的训练速度并提高准确性:ELECTRA-Small 的 GLUE 得分为 79.9,优于同类的 BERT 模型(得分为 75.1)和更大的 GPT 模型(得分为 78.8);可与 XLNet 和 RoBERTa 媲美的 ELECTRA 模型,仅使用其预训练计算量的 25%;ELECTRA-Large 在 GLUE 和 SQuAD 基准测试中优于其他最新模型,同时仍需要较少的预训练计算。

一句话总结现实影响:由于其计算效率高,ELECTRA 方法可使从业者更容易使用预训练的文本编码器。

6、GPT-3 的诞生

如果每一个新的语言任务都需要一个与之对应的、标签化了的数据集,那这绝对会限制语言模型的适用性。

考虑到语言任务的范围很广,而且通常很难收集到大量带标注、可用于训练的数据集,OpenAI 的研究人员提出了另一种解决方案,即扩大语言模型的规模,训练出含 175 B 参数的 GPT-3。

该团队希望 GPT-3 能够成为更通用化的 NLP 模型,解决当前 BERT 等模型的两个不足之处:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。

他们在三种不同的设置中评估了 GPT-3 :

・Few-shot learning,在推理时给模型一些任务演示(通常是 10 到 100),但不允许权重更新。

・One-shot learning,仅允许一次演示,以及对任务的自然语言描述。

・Zero-shot,不允许进行演示且模型只能访问任务的自然语言描述时。

这三种评估表明,只训练了一个语言模型、没有针对任何任务进行 Fine-tuning 的 GPT-3,可以完成多项 NLP 任务,并且每一项任务都可以得到很好的效果。

也就是说,当将这样的语言模型扩展到前所未有的参数数量时,该语言模型本身可以用作少样本学习的工具,无需任何额外的训练就可以在许多任务上取得非常有竞争力的表现。

一句话总结现实影响:一个带有 175B 参数的模型,其资源消耗也是不符合现实考虑的,但是如果研究人员设法将此模型精简为可行的大小,则可以将其应用于各种语言任务,包括问答和广告文案生成。

7、全新的 NLP 模型测试方法 “CheckList”

开发诸如 GLUE(General Language Understanding Evaluation)和 SuperGLUE 之类的基准,可以用来评估经过微调的 NLP 模型执行自然语言理解任务的能力。通常,将 NLP 模型的性能与验证准确性的结果进行比较。需要注意,使用验证准确性存在固有的局限性,例如过拟合,验证集的数据分布不同等均可能干扰正确的判断。

而在 ACL 2020 年的 Best Paper 论文 “Beyond Accuracy: Behavioral Testing of NLP Models with CheckList” 中,作者提出了一个框架,一种新的 NLP 模型评测方法:CHECKLIST。CHECKLIST 借鉴了传统软件工程的测试准则,通过模板快速生成大量样例,全面测试模型的各种能力,可以用于几乎所有 NLP 任务。

CHECKLIST 建议使用三种不同的测试方法:

・最小功能测试(MFT, Minimum Functionality Tests),其中使用预期的金标生成示例;

・不变性测试(INV, INVariance Tests),其中从给定的示例中,创建新示例,其中金标被翻转;

・方向预期测试(DIR, Directional Expectation Tests)对原始句子进行修改,金标往期望的方向(正向 / 负向)变化。

作者建议对于 NLP 模型的每一种能力,都尽量采用这三种测试方法测试一遍。

一句话总结现实影响:CheckList 可用于为各种 NLP 任务创建更详尽的测试,有助于识别更多的错误的,带来更强大的 NLP 系统。

该论文在 ACL 2020 上获得了最佳论文奖(Best Paper)。

8、重新评估自动机器翻译评估指标

自动化指标是开发和评估机器翻译系统的基础。判断自动化度量标准是否与人类评估的黄金标准相一致,并非易事。

墨尔本大学计算与信息系统学院 的这项研究表明,当前的指标评估方法对用于评估的翻译系统非常敏感,尤其是存在异常值时,这通常会导致对评价效果产生错误的自信判断。例如,如果使用大量翻译系统来计算领先指标和人工评估之间的相关性,则该相关性通常很高(即 0.9)。但是,如果仅考虑几个最佳系统,则相关性会显着降低,在某些情况下甚至可能为负相关。

因此,他们提出了一种在自动度量标准下以人为判断为阈值提高性能的方法,可以量化所引起的 I 型错误与 II 型错误,即可以接受的人类评判质量差异,以及不能接受的人类评判差异。与 BLEU 和 TER 相比,优先考虑 chrF,YiSi-1 和 ESIM 等评估指标。

一句话总结现实影响:这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。

这项研究在 ACL 2020 上入围荣誉提名论文奖(Honorable Mention Papers)。

9、聊天机器人 Meena

开放域聊天机器人仍然存在明显的弱点,比如说它们的响应通常没有意义,或者过于模糊或笼统。

为了解决这些问题,谷歌研究团队引入了 Meena(一个具有 2.6B 参数的生成式会话模型)。Meena 的 seq2seq 模型每层使用的是 Evolved Transformer (ET) 块。Encoder 端使用了 1 个 ET 层(相当于 2 层 Transformer),Decoder 端使用了 13 个 ET 层(相当于 26 层 Transformer)。

在多回合会话中训练模型,输入序列包括上下文的所有回合(最多 7 个),输出序列为响应。相比于 GPT-2 训练使用了 40GB 的文档数据,Meena 训练使用了 341GB 的对话数据。Meena 的模型参数规模达到了 2.6B,在 GPT-2 的基础上又大了不少。

与此同时,为了测量诸如 Meena 之类的开放域聊天机器人的质量,研究人员引入了一种新的人类评估指标,称为敏感度和敏感度平均值(SSA),它可以测量聊天机器人的两个基本方面 —— 有道理和具体。

Meena 的出现是一个进一步将计算机交互人性化的探索,可以帮助改善外语练习、使交互式电影和视频游戏角色具有关联性等应用场景。

不过,考虑到模型中与安全性和偏差有关的挑战,研究团队尚未开源该模型。

10、BlenderBot

Facebook AI Research 团队显示,有了适当的训练数据和生成策略,大型模型可以学习许多重要的会话技巧,例如提高参与度、运用知识、富有同情心和保持角色一致性等等。

他们建立了一个先进的对话机器人,名为 “BlenderBot”。利用这个具有 9.4B 参数的模型,团队对它进行了一项名为 Blended Skill Talk 的新任务的训练。

建立 BlenderBot 这样的开放域聊天机器人,有以下三个关键要素:

・规模大。最大的模型具有 94 亿个参数,并在提取的对话的 15 亿个训练示例中进行了训练。

・混合技能。聊天机器人接受了 “混合技能对话” 任务的培训,以学习诸如使用个性,使用知识和表现同情心之类的技能。

・用于解码的 Beam search 。

与上面的第九项研究 Meena 相比,Facebook 的这项工作进一步提升了基于预训练模型构建的聊天机器人的回复效果,甚至在短对话(14 轮以下)的人工评估中获得了非常接近人类的得分。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:学术头条
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...