新闻|我组多篇论文被EMNLP、AACL、NeurIPS录用
2020-09-30

近日,我组多篇论EMNLP 2020、AACL 2020 以及NeurIPS 2020接收。其中,EMNLP是计算语言学和自然语言处理领域的顶级国际会议,AACL是ACL第一届亚洲分会议,NeurIPS是人工智能领域国际顶级会议。

No.1

■ EMNLP 

题目:
Coreferential Reasoning Learning for Language Representation

作者:
叶德铭、林衍凯、杜家驹、刘正皓、李鹏、刘知远、孙茂松

类型:
长文

简介:
近年来,以BERT为代表的预训练语言模型可以有效地从文本中提取语义信息,并在下游任务中取得优异的表现。然而,目前的模型没有显式地考虑指代信息,使得他们在一些指代相关的任务中表现不佳。指代关系将同一事物出现的多个位置连接起来,常常是通顺地理解全文内容的关键因素。在本篇工作中,我们在预训练阶段引入指代消解知识的学习。在自然语言文本中,存在许多由实体重复出现而产生的指代。我们认为一个实体在一段文本第二次出现时,大概率与它第一次出现时指代同一个事物。基于这个远程监督的假设,这个我们提出了指代预测训练任务。具体来说,我们遮盖重复出现名词的其中一个出现位置,并通过基于拷贝机制的损失函数显式地建立它与其他出现位置的指代联系。与遮盖语言建模任务相比,我们提出的指代预测训练任务更鼓励模型建立长距离的指代联系。通过无监督的指代消解学习,我们的模型在指代消解问答,文档级关系抽取和事实验证任务上取得较好的效果。模型和代码即将开源于https://github.com/thunlp/CorefBERT.

No.2

■ EMNLP 

题目:
Learning from Context or Names?An Empirical Study on Neural Relation Extraction

作者:
彭皓*、高天宇*、韩旭、林衍凯、李鹏、刘知远、孙茂松、周杰(*同等贡献)

类型:
长文

简介:
神经关系抽取旨在利用神经网络模型进行关系抽取。近年来,神经关系抽取已经在关系抽取任务上取得了SOTA的效果。神经关系抽取提供端到端的训练,模型自动抽取特征进行学习。但是还没有工作系统地分析过神经关系模型所依赖的特征对模型效果的影响。本篇工作针对神经关系抽取的两个主要特征(上下文信息和实体信息)进行了分析。我们发现:(1)上下文信息是神经关系抽取模型的主要信息来源,同时模型也存在对实体信息(大部分是实体类型信息)的过度依赖问题。(2)现有的数据集可能会通过实体泄露浅层的启发式信息,这可能也导致了一些关系抽取任务的效果虚高。基于以上分析,我们提出了采用实体遮蔽的对比学习框架,旨在帮助模型更好的借助上下文信息和实体类型信息,同时避免因为仅仅记住简单的特征造成的模型偏差(bias)。该预训练框架提高了多个场景下神经关系抽取模型的有效性和鲁棒性。代码和数据即将开源。

No.3

■ EMNLP 

题目:
MAVEN: A Massive General Domain Event Detection Dataset

作者:
王晓智、王子奇、韩旭、蒋王一、韩荣、刘知远、李涓子、李鹏、林衍凯、周杰

类型:
长文

简介:
事件检测任务旨在从文本中识别事件触发词并正确分类事件类型,它是事件抽取的第一步,对事件语义建模有重要意义。然而现有事件检测数据集存在两个严重的问题:(1)数据稀缺,现有小规模数据集不足以充分训练和稳定评测复杂的神经网络模型。(2)覆盖率低,现有数据集关心的有限数据类型不足以覆盖通用域中的广泛事件语义,也限制了事件检测模型的应用范围。为了缓解这些问题带来的影响,本文构建了一个大规模通用域事件检测数据集MAVEN,它包含4480篇文章和118732个事件实例,覆盖了168种事件类型。同时我们也在MAVEN数据集上复现了一系列当前最佳的模型并进行了全面的实验。实验结果显示在传统数据集上表现极好的模型并不能在MAVEN上也取得理想的表现,这表明事件检测仍是一个具有挑战性的方向。我们也通过一些实证分析讨论了事件检测任务后续的发展方向。

No.4

■ EMNLP

题目:
IsOBS: An Information System for Oracle Bone Script

作者:
韩旭*、白钰卓*、邱可玥*、刘知远、孙茂松(*同等贡献)

类型:
Demo

简介:
甲骨文是目前已知最早的汉字,在语言学与历史学等方面均有很大的研究价值。为了推进甲骨学研究,我们搭建了甲骨文信息系统(IsOBS),对甲骨文数据进行整理和分析。IsOBS中包含支持单字与甲片双向检索的细粒度、序列化甲骨文数据库。此外,我们基于原型学习算法,面向甲骨文存在的少次学习场景,构建出有效的甲骨文单字识别系统。在未来,IsOBS将持续收录更多单字与甲片信息,并通过生成学习算法与对抗算法等方式加强模型的鲁棒性。更多系统信息可访问:http://123.56.70.83:8080/。

No.5

■ EMNLP 

题目:
Denoising Relation Extraction from Document-level Distant Supervision

作者:
肖朝军、姚远、谢若冰、韩旭、刘知远、孙茂松、林芬、林乐宇

类型:
短文

简介:
关系抽取旨在抽取出文本中实体之间的关系。远程监督机制可以通过对齐知识图谱与文本中的实体,实现大规模关系抽取数据的自动标注。该机制也在句子级别的关系抽取任务中取得了成功。然而远程监督机制无法被直接用于文档级关系抽取,相比于句子级别,远程监督将引入更多的噪音,从而极大降低模型性能。为了解决这个问题,我们提出了利用预训练的方式来应对远程监督中存在的大量噪音。实验结果表明,该方式能够有效地利用大规模的远程监督数据,实现效果提升。

No.6

■ EMNLP 

题目:
WantWords: An Open-source Online Reverse Dictionary System

作者:
岂凡超、张磊、杨延辉、刘知远、孙茂松

类型:
Demo

简介:
反向词典以词的描述作为输入,输出符合输入描述的相关词语。例如,输入“山很高”,反向词典应输出“高峻”“巍峨”等词语。反向词典有重要的实用价值,包括解决写作时的词穷(舌尖现象)的问题、帮助新语言学习者巩固、学习词汇等。目前只有英语反向词典系统,并且他们的性能还有待提高。在这篇文章中,我们研制了万词王(WantWords)在线反向词典系统,它的英语反向查词性能超过了现有的其他反向词典系统,而且还首次支持汉语反向查词和英汉、汉英跨语言反向查词功能。该系统完全公开免费,欢迎试用并提出宝贵意见。系统网站:https://wantwords. thunlp.org/。

No.7

■ EMNLP

题目:
Train No Evil: Selective Masking for Task-guided Pre-training

作者:
顾煜贤、张正彦、王晓智、刘知远、孙茂松

类型:
短文

简介:
近年来,以BERT为代表的预训练语言模型在多种下游任务上取得了极好的效果。这些模型普遍采用预训练+微调的两阶段训练模式,即先在通用领域的超大规模无标注数据上进行自监督的预训练,然后再在有标注的下游任务数据上进行训练。然而,自监督预训练任务通常与下游任务无关,而下游任务的数据量又较小,导致模型无法有效地利用下游任务和下游领域中特有的信息。因此,在这篇论文中,我们提出了一种三阶段训练方式,即在预训练和微调之间加入一个任务指导的预训练阶段。在这个阶段中,模型会在中等规模的、下游领域相关的无标注数据上使用掩码语言模型进行预训练,从而更好地学习领域相关的信息。同时,由于BERT模型原来的随机掩码机制较为盲目和低效,并不适合针对特定领域、任务的预训练。因此,为了更好地利用任务相关的信息,我们还提出了一种新颖的选择性掩码机制,通过对无标注数据中的词进行针对特定任务的选择性掩盖,使模型更有效地学习任务相关的信息。在实验中,我们发现选择性掩码机制可以较为准确地选择对特定任务更重要的词进行掩盖,并且我们提出的预训练方法可以在节省50%以上预训练开销的情况下达到和基线相似,甚至更高的性能。

No.8

■ EMNLP 

题目:
Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph

作者:
吕鑫、韩旭、侯磊、李涓子、刘知远、张伟、张亦弛、孔昊、吴夙慧

类型:
长文

简介:
基于知识图谱的多跳推理被广泛研究,这是一种有效且有解释性的知识图谱自动补全方法。多数已有的多跳推理模型主要针对稠密的知识图谱设计,假设这些图谱的实体之间有丰富的路径联系。对于稀疏知识图谱而言,这样的假设往往难以成立,因而已有模型在稀疏知识图谱上表现较为有限。究其原因,主要在于稀疏知识图谱含有的信息更少,难以支持模型选择正确的路径。此外,而有效路径的缺乏,使得多跳推理的过程会较难进行。为了解决这些问题,我们提出了两个针对性的策略,并基于这些策略构建出面向稀疏知识图谱的多跳推理模型DacKGR。其中动态预测策略引入了预训练的知识图谱表示学习模型来帮助多跳推理模型找到更有可能为正确的路径。而动态补全策略则是在推理过程中动态地为知识图谱补全缺失的边,这可以进一步缓解知识图谱稀疏性带来的影响。我们在基于Freebase、NELL和Wikidata的5个数据集上进行了实验。实验结果表明,DacKGR模型可以显著地优于之前的多跳推理模型,而且知识图谱越稀疏,性能提升越明显。

No.9

■ EMNLP 

题目:
Exploring and Evaluating Attributes, Values, and Structure for Entity Alignment

作者:
刘致远、曹艺馨、潘亮铭、李涓子、刘知远、蔡达成(本篇文章与新加坡国立大学合作)

类型:
长文

简介:
实体对齐旨在通过链接多个知识图谱中的等价实体来构建统一的知识图谱。基于图神经网络的方法对知识图谱中由关系三元组所定义的图结构进行建模,在实体对齐任务上取得了不错的表现。然而,同样能提供重要对齐信号的属性三元组还没有被广泛探索。本文中,我们提出将知识图谱分割为多个子图并利用一种属性值编码器来学习不同类型的属性三元组。在此之外,由于实体对齐数据集存在“名字偏差”,现有实体对齐模型的表现被估计过高。为了做出客观的评价,我们构建了一种困难实验设置,其中选择不能被名字匹配对齐的样本作为测试集。在跨语言和单语言数据集上,实验结果显示本文的方法在常规和困难实验设置下显著超过了12个基线模型。对多个子图的消融实验和对属性类型的案例分析进一步证明了本文方法的有效性。代码和数据即将开源。

No.10

■ EMNLP 

题目:
Partially-Aligned Data-to-Text Generation with Distant Supervision

作者:
付子豪、石贝、林伟、邴立东、刘知远(本篇文章与香港中文大学,腾讯AI Lab,阿里达摩院合作)

类型:
长文

简介:
数据到文本任务(data-to-text task)旨在生成人类可读的文本来直观地描述给定的结构化数据。然而,现有的模型要求训练的数据和文本是严格对齐的(well-aligned),不幸的是这样的数据非常稀少且标注代价高昂,因此,现有的经典生成任务只限于少数几个特定的领域。本文旨在探索使用部分对齐(partially-aligned)的数据来解决数据稀缺的问题。部分对齐的数据可以自动爬取、标注,从而能将文本生成任务推广到更多的数据稀缺的领域。但是,直接使用此类数据来训练现有的模型会导致过度生成的问题(over-generation),即在生成的句子中添加与输入无关的内容。为了使模型能够利用这样的数据集来训练,我们将传统的生成任务扩展为“部分对齐的数据到文本生成的任务”(partially-aligned data-to-text generation),因为它利用自动标注的部分对齐数据进行训练,因此可以很好地被应用到数据稀缺领域。为了解决这一任务,我们提出了一种新的远程监督(distant supervision)训练框架,通过估计输入数据对每个目标词的支持度,来自动调节相应的损失权重,从而控制过度生成的问题。我们通过从Wikipedia中抽取句子并自动提取相应的知识图谱三元组的方式制作了部分对齐的WITA数据集。实验结果表明,相较于以往的模型,我们的框架能更好地使用部分对齐的数据,缓解了过度生成问题,从而验证了使用部分对齐的数据来训练生成模型的可行性。本文的数据和源代码可以从 https://github.com/fuzihaofzh/distant_supervision_nlg  上获取。

No.11

■ EMNLP

题目:
Accurate Word Alignment Induction from Neural Machine Translation

作者:
陈云,刘洋,陈冠华,蒋欣,刘群(本篇文章与上海财经大学、香港大学、华为诺亚方舟实验室合作)

类型:
长文

简介:
Transformer模型是当前神经机器翻译的主流模型,延续RNNSearch的思路,它设计的最初目标是同时学会词对齐和翻译。然而,现有的方法难以从Transformer模型的注意力机制中抽取出准确的双语词对齐信息。本文旨在探索这一问题,并提出了Shift-Att和Shift-AET两种新型词对齐方法。为了抽取某目标语言词所对应的源语言词,传统的方法利用目标语言词作为输出时某一层的编码器-解码器注意力向量来进行计算。由于该注意力向量不依赖于目标语言词,这一方法忽略了目标语言词本身所包含的信息。为了解决这一问题,本文提出在抽取某目标语言词所对应的源语言词时,利用目标语言词作为输入时某一层的编码器-解码器注意力向量来进行计算,从而成功将目标语言词的信息引入到词对齐结果中。Shift-Att方法直接从标准Transformer模型的注意力矩阵中抽取词对齐信息;而Shift-AET方法向预训练好的Transformer模型中引入一个词对齐模块,通过自我训练的机制对该模块进行训练,从而进一步提升词对齐的性能。多个数据集上的实验结果显示,我们所提出的两种方法超过了现有的神经词对齐模型,特别地,Shift-AET显著超过了GIZA++。

No.12

■ AACL 

题目:
More Data, More Relations, More Context and More Openness:A Review and Outlook for Relation Extraction

作者:
韩旭*、高天宇*、林衍凯*、彭皓、杨耀良、肖朝军、刘知远、李鹏、孙茂松、周杰(*同等贡献)

类型:
长文

简介:
事实知识是人类知识的重要组成部分,并且大量蕴藏在无结构化的文本之中。为了从文本中提取这些事实知识,人们多年来一直致力于研究关系提取算法。可以说,从早期的模式匹配、特征工程、统计方法到如今的神经网络模型,现有的关系抽取方法已经取得了重大进展。然而,伴随着当前数据的爆炸式增长以及不断定义出的新关系类型,相关的事实知识也在急剧增加,因此我们比以往都更需要利用关系抽取获取“更多”信息:我们认为,一个功能更强大的关系抽取系统,应当能够利用更多数据,高效地学习更多关系,善于处理更复杂的上下文,并能灵活地面向开放域进行适配。从上述四点出发,我们回顾现有的方法,分析关键挑战,展现迈向更强大的关系抽取模型的可行方向。

No.13

■ AACL
 

题目:Neural Gibbs Sampling for Joint Event Argument Extraction

作者:王晓智,贾圣钰,韩旭,刘知远,李涓子,李鹏,周杰

类型:长文

简介:事件要素抽取旨在从文本中预测实体的事件要素角色,是事件抽取的一个重要子任务。现有的事件要素抽取模型独立或按次序地预测事件要素的角色,因而不能充分建模事件要素和角色之间的联合概率分布。本文中我们提出了一种神经网络吉布斯采样模型以联合地预测事件要素。特别地,我们分别训练了两个神经网络以建模事件要素的先验概率分布和条件概率分布,并通过吉布斯采样算法依据这两个分布近似潜在的联合概率分布。为了避免吉布斯采样算法的高时间复杂度,我们进一步使用了模拟退火方法来更高效地估计事件要素的联合概率分布。我们在两个广泛使用的数据集ACE 2005和TAC KBP 2016上进行了实验,实验结果显示我们的模型可以取得与现有最佳模型相当的效果。

No.14

■ AACL

题目:
ExpanRL: Hierarchical Reinforcement Learning for Course Concept Expansion in MOOCs

作者:
于济凡、王辰昱、罗干、侯磊、李涓子、刘知远、唐杰

类型:
长文

简介:
大规模在线课程MOOC近年来发展迅速,每天都有更多的新课程、新学生进行在线学习。在这种新的教学场景下,教师很难像传统课堂中一样为每个学生提供适合的课外辅学知识。本文提出基于一个游戏化场景中收集到的学生行为反馈,利用层次强化学习的方法完成课外知识的自动搜索和补充。通过将课外知识搜索任务分解为种子词选择与搜索结果排序两个阶段,我们可以有效避免知识扩展过程中的语义漂移等问题;同时,使用层次强化学习可以有效搜索到适合不同课程的知识扩展策略,提高模型的泛化能力,这使得当有新课程上线时,原有课程中训练好的模型可以保持较优的效果。我们为此构建了9个单学科-跨学科数据集,并通过实验证明我们的方法可以在MOOC场景中取得最好的效果。

No.15

■ NeurIPS 

题目:
Graph Policy Network for Transferable Active Learning on Graphs

作者:
胡声鼎、熊铮、瞿锰、袁星柢、Marc-Alexandre Côté、刘知远、唐建(本篇文章与蒙特利尔学习算法研究所以及微软研究院合作)

简介:
图神经网络(GNN)由于其在各个领域的简单性和有效性而受到越来越多的欢迎。但是,训练这些网络通常需要大量的标签数据,在某些领域中这些标签数据可能非常昂贵。在本文中,我们研究了图上的主动学习,即如何高效地对图上的节点给予标签以减少GNN训练的标注成本。我们将问题表达为图上的序列决策过程,并通过强化学习训练一个同样基于GNN的策略网络,以学习最佳标注策略。通过在已有标签的几个训练图上进行联合优化,我们的策略网络能学习一种可迁移的主动学习策略,该策略可以在目标图上直接使用,而不需要新的训练。在多个数据集上的实验结果证明了我们提出的方法学习的策略在相同领域的图和跨不同领域的图之间的迁移时,都对其上的主动学习十分有效。

No.16

■ NeurIPS 

题目:
Towards Interpretable Natural Language Understanding with Explanations as Latent Variables 

作者:
周王春澍*、胡锦毅*、张汉林*、梁小丹、孙茂松、熊辰炎、唐建(*同等贡献,本篇文章与蒙特利尔学习算法研究所合作)

简介:
近年来,对于NLP模型的可解释性受到越来越多的关注。通过生成对于模型分类结果的自然语言解释,既可以提升可解释性,同时也可以对于分类提供额外的信息从而提升模型的分类效果。目前的一些工作都需要依赖大量的人工标注的解释,我们的工作对于NLU模型提出了一个通用的框架,将自然语言解释作为隐变量,利用variational EM算法,同步的训练一个解释生成器和解释增强的分类器。相比之前的工作,我们不需要依赖大量的人工标注,还可以拓展到半监督的实验设定下。实验结果显示,这个框架在有监督和半监督两种设定下,既可以有更好的分类效果,还可以生成对于分类结果的解释。