TsinghuaNLP实验室2020年度亮点成果回顾
2021-01-14

前言

刚刚过去的 2020 年是不平静的一年。贯穿全年的新型冠状病毒肺炎疫情仍未平息,各类偶发事件也层出不穷。即便如此,TsinghuaNLP实验室仍在这一年中做出了许多有价值的成果。

下面,我们将从
古典诗词机器写作研究、复杂场景的知识获取研究、高效文本对抗攻击、法律智能、机器翻译、机器学习、大规模预训练模型、网络表示学习
几大主题回顾 TsinghuaNLP 实验室 2020 年度的亮点成果。

一、古典诗词机器写作研究

开源中国古典诗词预训练模型BERT-CCPoem。BERT-CCPoem(开源网址:https://github.com/THUNLP-AIPoet/BERT-CCPoem)是完全基于一个囊括了几乎所有中国古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。BERT-CCPoem的模型参数系针对中国古典诗词库规模“度身定做”,采用了512维隐层向量、8层、每层8个注意头的适度配置。BERT-CCPoem以汉字为基本语言单元,将频度低于3的字处理成UNK,所形成的字典含11, 809个字型。BERT-CCPoem能提供任何一首古典诗词的任何一个句子的向量表示,可广泛应用于古典诗词智能检索与推荐、风格分析及情感计算等诸多“下游”任务。一个典型的应用场景是,可根据用户指定任一句子的向量表示,计算出与该句具有“语义”关联性的句子子集。

开源"九歌"多样化古典诗歌机器写作模型MixPoet。区别于模型生成的诗歌,人类诗人创作的诗歌往往是高度新颖多样的。对大多数现有的模型来说,生成的诗歌中最高频的20个词占了所有生成内容的20%,即大量的内容是雷同重复的。相比之下,人类诗作词汇分布更加均衡多样(最高频的20词只占了约5%)。这是因为每一位诗人都有自己独一无二的写作风格,即使在同样的主题下,每个诗人在遣词用句、情感表达及主题立意上都有所不同,这些差异性赋予其诗作较好的区分度。MixPoet提出了一个基于学习可控混合隐空间的半监督模型,通过结合不同的风格来提升生成诗歌的多样性和差异性。Mixpoet可以实现可控风格混合,对于一个给定的关键词,用户可以自己制定不同的风格混合,从而生成不同的诗歌,也可以为关键词自动预测合适的混合,无需人为指定。相关成果发表于AAAI 2020。

  • Yi, X., Li, R., Yang, C., Li, W., & Sun, M. (2020, March).
    MixPoet: Diverse Poetry Generation via Learning Controllable Mixed Latent Space.
    In Proceedings of AAAI 2020. pages 9450-9457,New York, USA, February 7-12.

二、机器翻译推断信心校准

现有的神经机器翻译主要采用神经网络,模型在进行预测时往往存在偏差:预测或者高于真实值,或者低于真实值。信心校准(confidence calibration)是一种将模型预测校准为真实值的技术,为分析机器翻译系统输出中存在的错误提供了重要的指示信息。虽然前人工作表明利用标签平滑技术可以很好地在训练集上对模型进行校准,我们发现由于训练和推断的差异性,神经机器翻译模型在推断阶段仍然存在严重的偏差问题。

我们在三个语言对上精心设计了实验,对语言特性、信心校准和机器翻译之间的关联性进行深入分析,为更好地分析、理解和提高神经机器翻译模型提供了重要支撑。基于上述分析,我们进一步设计了一种渐进式标签平滑方法,该方法能够有效降低模型预测偏差并提升翻译质量。该工作作为长文被自然语言处理重要国际学术会议ACL 2020上接受发表,并开源推断校准偏差计算工具InfECE(开源网址:https://github.com/shuo-git/InfECE)。相关成果发表于ACL 2020。

  • Shuo Wang, Zhaopeng Tu, Shuming Shi, and Yang Liu. 2020. 
    On the Inference Calibration of Neural Machine Translation. 
    In Proceedings of ACL 2020, pages 3070-3079, Seattle, USA, July 5-10.

三、残差与非残差网络的插值

尽管深度神经网络已经取得了显著的成功,但其背后的理论仍然难以捉摸。深度学习理论中,一个重要的方向是将深层神经网络与常微分方程联系起来,而常微分方程的理论已经在数学中有了大量的探索。目前,常微分方程和非残差神经网络的关系仍不明确。本工作中,我们通过引入阻尼项,提出了一个全新的常微分方程模型。我们发现,通过调整一个插值系数,这一模型既可以表征一个残差网络,也可以表征一个非残差神经网络。李雅普诺夫分析指出新提出的模型具有更好的稳定性,进而证明了训练的插值网络具有更好的鲁棒性。在不同基准任务上的实验表明,我们的模型能够大幅提升不同网络架构在多种输入扰动下的准确率。此外,损失函数平面分析表明,我们的方法能够提升模型在攻击方向上的鲁棒性。相关成果发表于ICML 2020。

  • Zonghan Yang, Yang Liu, Chenglong Bao, and Zuoqiang Shi. 2020. 
    Interpolation between Residual and Non-Residual Networks.
     In Proceedings of ICML 2020, Vienna, Austria, July 12-18.

四、复杂场景的知识获取研究

关系抽取是从文本中获取结构化知识的重要途径。在当前新数据、新领域不断出现的背景下,传统关系抽取方法面临挑战。对此,我们从面向开放环境、扩大数据引入、增强学习能力、丰富语境信息四个角度出发,构建更为有效的关系抽取系统。

持续学习关系抽取

持续关系学习关注如何持续地在新的数据上训练关系抽取模型习得新的关系,同时不会“灾难性”地遗忘(catastrophic forgetting)旧的知识。一些前人工作已经证明,使用记忆机制存储旧的训练数据的例子,并在后面的学习中“重放”这些例子,可以起到一定的防止遗忘的效果。然而,这些方法容易过拟合于所存储的例子。受到人脑长期记忆机制的启发,我们提出了记忆激活与巩固机制(episodic memory activation and reconsolidation)并用于持续关系学习中。在训练中,模型同时接收新数据和旧数据的激活,同时利用原型机制保持旧关系表示的稳定,以避免过拟合。实验结果证明,我们的新机制可以有效减缓“灾难性”遗忘,并取得了state-of-the-art的结果。相关成果发表于ACL 2020。

  • Xu Han, Yi Dai, Tianyu Gao, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou. 2020.
    Continual Relation Learning via Episodic Memory Activation and Reconsolidation.
    In Proceedings of ACL 2020, pages 6429-6440, Seattle, USA, July 5-10.

关系抽取预训练

神经关系抽取具有提供端到端训练的优势,模型自动抽取特征进行学习。但是还没有工作系统地分析过神经关系模型所依赖的特征对模型效果的影响。本篇工作针对神经关系抽取的两个主要特征(上下文信息和实体信息)进行了分析。我们发现:(1)上下文信息是神经关系抽取模型的主要信息来源,同时模型也存在对实体信息(大部分是实体类型信息)的过度依赖问题。(2)现有的数据集可能会通过实体泄露浅层的启发式信息,这可能也导致了一些关系抽取任务的效果虚高。基于以上分析,我们提出了采用实体遮蔽的对比学习框架,旨在帮助模型更好的借助上下文信息和实体类型信息,同时避免因为仅仅记住简单的特征造成的模型偏差(bias)。该预训练框架提高了多个场景下神经关系抽取模型的有效性和鲁棒性。相关成果发表于EMNLP 2020。

  • Hao Peng, Tianyu Gao, Xu Han, Yankai Lin, Peng Li, Zhiyuan Liu, Maosong Sun and Jie Zhou. 2020. 
    Learning from Context or Names? An Empirical Study on Neural Relation Extraction.
     In Proceedings of EMNLP 2020.

少次学习关系抽取

近些年基于神经网络的关系抽取模型取得了较大进展,然而神经网络往往需要大量样例数据训练才能达到较好的效果。少次关系抽取(Few-shot Relation Classification)旨在充分利用少量关系样例,学习关系分类器。元学习(Meta-learning)为不同关系类别学习共享的初始化点,使得少数几次基于样例的梯度更新即可以将关系分类器优化到较佳位置,是目前主流的少次学习方法。我们受到人类学习过程的启发,使用关系的描述性信息对元学习的参数初始化和优化两个过程进行指导,从而建立关系的描述性语义信息和样例信息的关联。实验结果表明,我们的模型在FewRel评测中取得了超过人类的表现,并且可以提供一定的可解释性。相关成果发表于COLING 2020。

  • Bowen Dong, Yuan Yao, Ruobing Xie, Tianyu Gao, Xu Han, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. 2020.
    Meta-Information Guided Meta-Learning for Few-Shot Relation Classification.
    In Proceedings of COLING 2020.

文档级别关系抽取

远程监督机制通过对齐知识图谱与文本中的实体对来实现关系样例的自动标注。该机制已被广泛应用于句子级关系抽取任务中。然而句子级关系抽取只关注于句子内部的实体关系,因此在实践中它的通用性和覆盖面有很大的限制。文档级关系抽取旨在从文档中识别出所有的句内和句间的关系事实。现有的文档级关系抽取模型大多依赖于高质量的精标数据。然而文档级远程监督将在数据中引入大量的噪音。本文提出利用预训练机制来利用高噪音的文档级远程监督数据,提出了实体匹配、关系检测和关系事实对齐三个预训练任务。该模型显著提升了文档级关系抽取效果。相关成果发表于EMNLP 2020。

  • Chaojun Xiao, Yuan Yao, Ruobing Xie, Xu Han, Zhiyuan Liu, Maosong Sun, Fen Lin, Leyu Lin. 2020.
    Denoising Relation Extraction from Document-level Distant Supervision.
    In Proceedings of EMNLP 2020.

五、高效文本对抗攻击

现有的文本对抗攻击模型按照对被攻击的受害模型的可见性可以分为以下四类:(1)基于梯度(gradien-based)的攻击,又称白盒攻击,这类攻击模型需要完全了解被攻击模型以进行梯度计算;(2)基于分数(score-based)的攻击,这类攻击模型只需知道被攻击模型输出的分数(例如分类模型输出的各类的预测分数);(3)基于决定(decision-based)的攻击,这类攻击模型只需知道被攻击模型输出的结果(例如分类模型输出的类别);(4)盲(blind)攻击,这类攻击模型对受害模型一无所知。其中第一类攻击对受害模型的已知信息要求较多,很难适用于现实的攻击场景;第四类攻击往往效果很差。第二和第三类攻击更适合真实的攻击场景。

然而,现有的Score-/Decision-based攻击模型效率很低,平均攻击一个instance需要调用被攻击模型上千次。其主要原因在于现有的方法主要基于简单的优化算法,如贪心、遗传算法,不具有学习能力,因此效率较低。因此,我们提出基于强化学习的攻击模型,具有学习能力,进而有非常高的攻击效率。在SST、AG News、MNLI三个数据集上攻击ALBERT、XLNet、RoBERTa三个SOTA模型以及Microsoft、MeaningCloud两个API,实现了更高的攻击成功率、更快的效率、更好的对抗训练效果。

  • Yuan Zang, Bairu Hou, Fanchao Qi, Zhiyuan Liu, Xiaojun Meng, Maosong Sun. 2020.
    Learning to Attack: Towards Textual Adversarial Attacking in Real-world Situations.
    arXiv preprint arXiv:2009.09192

六、法律智能

法律智能旨在利用人工智能的技术,尤其是自然语言处理技术,来帮助法律从业人员高效地完成法律相关任务。近些年,法律智能引起了越来越多人工智能研究人员和法律专业人士的关注,法律技术的不断发展将有利于法律专业人员从繁重的文书工作中解放出来。我们总结了法律智能的发展历史、现状以及思考了若干未来研究方向。本文中,我们从技术、引用等角度对法律领域多个代表性任务进行总结、综述,并开展了系列实验,在法律数据集上对现有NLP技术的优缺点进行深入分析,并讨论了未来可能的发展方向。相关成果发表于ACL 2020。

  • Haoxi Zhong, Chaojun Xiao, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun.
    How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence.
    In Proceedings of ACL 2020. pages 5218-5230, Seattle, USA, July 5-10.

法律自动问答旨在利用算法模型为法律问题提供解释、建议和解决方法。法律自动问答系统不仅可以为非专业人士提供专业的咨询服务,还可以帮助专业人员提高工作效率,更准确地分析相关案例。法律问答要求模型能够理解法律专业知识,实现复杂的知识记忆、逻辑推理、数值计算,现有的模型均无法在法律问答任务中取得可观的效果。本文中,我们收集了中国大陆2009年-2017年所有的司法考试真题,及互联网中司法考试模拟题,构建了一个包含有26,365道不定项选择题的大规模司法问答数据集。基于此数据集,我们举办了2020年“法研杯”中国司法人工智能挑战赛,比赛吸引了数百支队伍参赛,在工业界及学术界取得了较大影响。相关成果发表于AAAI 2020。

  • Haoxi Zhong, Chaojun Xiao, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun.
    JEC-QA: A Legal-Domain Question Answering Dataset.
    In Proceedings of AAAI 2020. pages 9701-9708, New York, USA, February 7-12.

七、预训练模型

预训练语言模型(Pre-Trained Language Models)是一种用于自然语言处理的人工智能技术,主要特点在于其采用两步训练的构建方法。第一步,将模型在大规模无标注数据(如互联网文本)上进行训练,学习通用的语言特征和规则。第二步,将模型在多个自然语言处理任务上的小规模的有标注数据进行二次训练(即微调),快速提升模型在这些任务中的性能,最终形成可部署应用的模型。我们在结合知识和大规模预训练等方向上进行了研究探索。

知识语言联合预训练

预训练语言表示模型(PLM)无法很好地从文本中捕获事实知识。相反,知识嵌入(KE)方法可以有效地表示知识图中的关系事实,但是传统的KE模型没有利用富文本数据。在本工作中,我们提出知识嵌入的统一模型和预训练的语言表示(KEPLER),它不仅可以将事实知识更好地整合到PLM中,而且还可以通过丰富的知识有效地学习KE文字信息。在KEPLER中,我们编码实体的文本描述作为它们的嵌入,然后共同优化KE和语言建模目标。实验结果表明,KEPLER在处理各种NLP任务达到了最佳的性能,并且KE模型在链接预测任务上也非常出色。相关成果发表于TACL 2020。

  • Xiaozhi Wang, Tianyu Gao, Zhaocheng Zhu, Zhengyan Zhang, Zhiyuan Liu, Juanzi Li, Jian Tang.
    KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. 
    In Proceedings of TACL 2020.

指代消解增强的预训练语言模型

近年来,以BERT为代表的预训练语言模型可以有效地从文本中提取语义信息,并在下游任务中取得优异的表现。然而,现有的模型没有显式地考虑指代信息,使得他们在一些指代相关的任务中表现不佳。指代关系将同一事物出现的多个位置连接起来,常常是通顺地理解全文内容的关键因素。近年来,已经有一些工作在具体的下游任务中引入指代信息并取得了有效的提升。在本篇工作中,在预训练阶段引入指代消解知识的学习。在自然语言文本中,存在许多由实体重复出现而产生的指代。我们认为一个实体在一段文本第二次出现时,大概率与它第一次出现时指代同一个事物。基于这个远程监督的假设,这个我们提出了提及指代预测任务(Mention Reference Prediction, MRP)。具体来说,我们遮盖重复出现名词的其中一个出现位置,并通过基于拷贝机制的损失函数显式地建立它与其他出现位置的指代联系。相关成果发表于EMNLP 2020。

  • Deming Ye, Yankai Lin, Jiaju Du, Zhenghao Liu, Peng Li, Maosong Sun, Zhiyuan Liu.
    Coreferential Reasoning Learning for Language Representation.
    In Proceedings of EMNLP 2020.

结合任务知识的语言模型预训练

已有预训练语言模型主要是遵循预训练然后微调的范式,在各种下游任务上取得了出色的表现。但是,由于预训练阶段通常与任务无关,并且微调阶段通常会受到监督数据不足的影响,模型无法总是很好地捕获特定于域的特定于任务的模式。本研究提出了由任务指导的预训练。模型进行掩盖语言建模,在特定领域内的无监督数据中学习特定于任务的特征,具体来说,我们设计了一种方法测量序列中每个字符的重要性并有选择地掩盖重要字符。在两个情感分析任务上的实验结果表明,我们的方法使用低于50%的计算量就可以达到相当甚至更好的性能,这表明方法既有效又高效。相关成果发表于EMNLP 2020。

  • Yuxian Gu, Zhengyan Zhang, Xiaozhi Wang, Zhiyuan Liu, Maosong Sun.
    Train No Evil: Selective Masking for Task-Guided Pre-Training.
    In Proceedings of EMNLP 2020.

以中文为核心的大规模预训练语言模型

2018 年以来,预训练语言模型 (Pretrained Langauge Model, PLM) 的研究风起云涌。与直接训练具体任务模型相比,在预训练语言模型基础上微调得到的模型在自然语言处理各大任务上均取得了显著的性能提升。此项成果与黄民烈、韩文弢等老师团队合作完成。

与已有的中文预训练模型相比,CPM 大规模预训练模型具有以下特点:(1)学习能力强:能够在多种自然语言处理任务上,进行零次学习或少次学习达到较好的效果;(2) 语料丰富多样:收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型;(3)行文自然流畅:基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果;(4)模型规模大:CPM-LM 的参数规模为 26 亿,预训练中文数据规模 100 GB,使用了 64 块 V100 GPU 训练时间约为 3 周。

推理代码:https://github.com/TsinghuaAI/CPM-Generate

微调代码:https://github.com/TsinghuaAI/CPM-Finetune

  • Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun.
    CPM: A Large-scale Generative Chinese Pre-trained Language Model.
    Arxiv 2020.

八、网络表示学习

属性图嵌入是图分析中的一项具有挑战性的任务,它从图的拓扑和节点特征中学习向量表示。近年来,基于图卷积网络 (GCN) 的方法在这方面取得了很大的进展。然而,现有的基于GCN的方法有三个主要缺陷。首先,我们的实验表明,图卷积滤波器和权重矩阵的耦合会损害算法的性能和鲁棒性。其次,我们证明了这些方法中的图形卷积滤波器是广义拉普拉斯平滑滤波器的特例,但它们不能保持最优的低通特性。最后,现有算法的训练目标通常是恢复邻接矩阵或特征矩阵,这与实际应用并不总是一致的。为了解决这些问题,我们提出了一种新的属性图嵌入框架:自适应图编码器(AGE)。

AGE由两个模块组成:(1) 设计良好的非参数化拉普拉斯平滑滤波器进行低通滤波,以获得平滑的特征;(2) 经过平滑的节点特征被输入自适应编码器,学习表示能力更强的节点嵌入。为了代替基于重构的训练目标,我们在这一步采用自适应学习,从节点对相似矩阵中选择训练样本,并迭代地对嵌入进行微调。

我们使用四个公共基准数据集对AGE在节点聚类和链接预测任务上进行了验证。实验结果表明,在这些任务中,AGE的表现一直明显优于最新的图表示学习方法。我们的代码已在Github上开源:https://github.com/thunlp/AGE。相关成果发表于ACM SIGKDD。

  • Ganqu Cui, Jie Zhou, Cheng Yang, Zhiyuan Liu. 2020.
    Adaptive Graph Encoder for Attributed Graph Embedding.
    In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

九、总结与展望

一直以来,我们以“揭示自然语言处理机理,实现真正的智能语言理解”为目标,始终奋斗在自然语言处理第一线。

今年我们有27项专利获得授权,在国内外高水平学术期刊、会议上发表论文47篇,其中AAAI 7篇,ACL 8篇,EMNLP 11篇。100余个工具包在世界最具影响力的开源社区GitHub上开源(开源网址:https://github.com/thunlp),获近4万星标关注,近1万次复刻。

过去的2020年是必然会被载入史册的一年,如何让这个世界变得更好已成为更多人积极思考和探索的问题,而科技必将在其中发挥至关重要的作用。

2021年我们将与学界同仁一起,继续为自然语言处理事业贡献中国力量!

十、往期推荐