我组多篇论文被ACL2018、IJCAI-ECAI2018、WWW2018录用

近期我组多篇论文被ACL2018、IJCAI-ECAI2018、WWW2018录用，内容涉及问答系统、义原推荐、信息检索、机器翻译、诗歌生成、查询推荐多个领域。下面对相关会议和录取论文作简要介绍。

相关会议介绍：

自然语言处理领域顶级国际会议ACL 2018（the 56th Annual Meeting of the Association for Computational Linguistics）将于2018年7月15日至20日在澳大利亚墨尔本举行。本届会议共收到1621篇投稿，录用率约为20%。

人工智能领域顶级国际会议IJCAI-ECAI 2018（the 27th International Joint Conference on Artificial Intelligence and the 23rd European Conference on Artificial Intelligence）将于2018年7月13日至19日在瑞典斯德哥尔摩举行，由IJCAI、EurAI和SAIS联合发起举办。本届会议共收到3470篇长文投稿，录用率约为20%。

国际万维网大会WWW 2018（the 26th International World Wide Web Conferences）于2018年4月23日至27日在法国里昂举行。本届会议共收到1172篇投稿，录用率为15%。

录取论文介绍：

Denoising Distantly Supervised Open-Domain Question Answering

作者：林衍凯、计昊哲、刘知远、孙茂松

会议：ACL 2018

简介：

开放域自动问答着眼于从大规模的无标注文本中提取出给定问题的答案。现有的基于远程监督的开放域自动问答系统通常从文本库中检索出和问题相关的文本段落，然后利用机器阅读理解对其中检索到的文本段落逐一进行分析，最后从最相关的文本段落中提取出最终的答案。这些方法在回答问题的过程中都无法综合考虑多个文本段落的信息。此外，采用远程监督的思想简单认为自动检索得到的文本段落都与问题有关存在一定的问题，会给自动问答带来大量噪音。针对这些问题，我们借鉴了人类进行阅读理解的方式，提出一个新型的基于远程监督的开放域自动问答的模型，包含了段落选择和段落阅读两个模块：段落选择可以对检索到的文本段落进行粗读，初步过滤掉和问题无关的文本段落；段落阅读可以综合考虑过滤后的所有和文本段落，精读后提取出问题的最终答案。在大量真实数据中的实验表明我们的模型可以极大地提升开放域自动问答的效果。

Incorporating Chinese Characters of Words for Lexical Sememe Prediction

作者：金晖明*、朱昊*、刘知远、谢若冰、孙茂松、林芬、林乐宇（*同等贡献，本篇文章与腾讯微信合作）

会议：ACL 2018

简介：

义原（sememe）是人类语言中的最小的概念单位，人类语言的每个词义都是由一个或者多个义原构成的。人们常常使用人工的方法对每个词标注其义原并构建能够在多种自然语言处理任务中使用的数据库。最近也有一些工作开始讨论自动标注义原，这些工作有助于提升标注的效率和一致性。然而，现有的义原自动标注方法，都只利用了大规模文本信息（我们称为外部信息），对于低频词的推荐效果很差。针对这个问题，我们提出了一个新颖的框架，充分利用词的内部汉字信息和外部上下文信息进行义原推荐。在实验中，我们发现，这种方法在不同频率的词表上表现均比现有最好方法有显著提升，特别是在低频词上呈现出更加鲁棒的性能。我们还给出了定性案例分析，讨论了汉字词中内部信息和外部信息与词义的关系，有助于进一步开展基于字（character）级别的自然语言处理模型研究。

Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval

作者：刘正皓、熊辰炎、孙茂松、刘知远（本篇文章与CMU熊辰炎合作）

会议：ACL 2018

简介：

本文着眼于信息检索领域，研究如何将外部知识引入基于神经网络的信息检索模型中，并提升信息检索模型的排序能力。现有的神经信息检索模型建立了问题-文档之间交互矩阵（interaction matrix），通过交互矩阵学习到一些复杂的匹配模式，并达到了现有模型的最好水平。知识图谱（knowledge graph）中使用实体来表示客观事物，包含很多的语义信息，例如实体的描述，实体类型等等，通过实体的语义信息可以帮助模型更好的理解文本。随着大规模知识图谱的发展，很多信息检索模型开始根据知识图谱提供的外部知识来人工抽取问题-文档中的特征。在本文中，我们使用信息抽取的方式，将知识图谱的语义信息整合到分布式表示中，从而使得模型自动提取出知识图谱中重要信息。我们提出了neural-duet模型，建立问题文本，问题实体，文档文本，文档实体之间的交互矩阵，从而使得模型可以基于端到端的方法从大规模语料库中学习到更加复杂的匹配模式。我们在搜狗的商业搜索日志（Sogou query log）上的实验证明了引入外部知识对于信息检索模型有效性，此外我们引入三个不同的场景来测试我们的模型，说明知识图谱语义信息能够使模型的泛化能力显著增强。

Towards Robust Neural Machine Translation

作者：程勇、涂兆鹏、孟凡东、翟俊杰、刘洋（本篇文章与腾讯AI实验室合作）

会议： ACL 2018

简介：

由于神经机器翻译是一个端到端的翻译系统，其对于输入中的微小扰动极其敏感。例如，将输入中某个词替换成其近义词，会导致输出结果发生剧烈变化，甚至修改翻译结果的极性。本文提出了对抗性稳定训练准则来同时增强神经机器翻译的编码器与解码器的鲁棒性。给定一个输入句子x，我们首先生成与其对应的扰动输入x’，接着采用对抗训练鼓励编码器对于x和x’生成相似的中间表示，同时要求解码器端输出相同的目标句子y。本文中，我们提出了两种构造扰动输入的方法，第一种在特征级别（词向量）中加入高斯噪声，第二种在词级别中用近义词来替换原词，我们的框架可以扩展到更多得噪声扰动方法。实验表明我们的方法可以同时增强神经机器翻译模型的鲁棒性和翻译质量。

Chinese Poetry Generation with a Working Memory Model

作者：矣晓沅、孙茂松、李若愚、杨宗瀚

会议：IJCAI 2018

简介：

受认知神经学中工作记忆机制的启发，我们提出了一种新的工作记忆模型用于诗歌生成任务。不同于以往模型，我们的模型基于一个动态的工作记忆模块，其包含主题记忆模块、历史记忆模块和局部记忆模块三个部分。在一首诗生成的过程中，模型将已生成诗句的显著部分写入记忆槽；生成每个字时，再从记忆槽中读取。通过在生成过程中动态地读写和构建工作记忆，模型能够维护较为相关的上下文信息流并忽略噪音带来的干扰，并且能较为灵活地表达用户输入的主题词。我们在中文绝句、宋词和古风歌词上进行了实验，结果表明我们的模型取得了新的state-of-the-art效果，尤其是在较长的诗歌上，生成效果提升较为明显。

Query Suggestion With Feedback Memory Network

作者：武彬、熊辰炎、孙茂松、刘知远（本篇文章与CMU熊辰炎合作）

会议：WWW 2018

简介：

查询推荐（Query Suggestion）是信息检索中的重要任务，即通过用户前序的查询行为预测下一步可能的查询内容。现有模型通常只考虑一个查询周期中Query与Query之间的关系。而实际上用户点击不同的文档能够表明不同的查询需求，本文着眼于利用用户的点击反馈信息进一步优化查询推荐的结果。我们提出反馈记忆网络（Feedback Memory Network），利用查询内容、文档标题、搜索引擎对文档的排序及用户的点击行为，对用户查询意图进行建模。该模型可以对用户不同的反馈信息进行建模，从而针对相同的查询序列给出不同的查询推荐。评测表明使用反馈记忆网络的查询推荐在MRR、MISS3、MISS5等多项评测指标中均达到了当前最好的结果，且在检索信息过少或查询内容有歧义等复杂度高的情况下有着很好的鲁棒性。