最新动态

新闻|我组多名本科生入选“科技创新,星火燎原”清华大学学生创新人才培养计划

近日,“科技创新,星火燎原”清华大学学生创新人才培养计划第十四期录取学员名单正式出炉,我组多名本科生入选。 入选同学 个人简介: 臧原,清华大学计算机系2018级本科生,导师为刘知远副教授。主要研究方向为义原计算、文本对抗。曾以第一作者身份在ACL 2020发表一篇长文。 项目名称: 文本领域对抗性攻击与防御 项目简介: 对抗攻击指通过设计对抗样本使机器学习模型判断出错,以揭示模型的弱点。对抗防...
了解更多

第十九届中国计算语言学大会(CCL 2020) 系统展示征集

“第十九届中国计算语言学大会”(The Nineteenth China National Conference on Computational Linguistics, CCL 2020)将于2020年10月30日—11日1日在海口举行,会议主办单位为中国中文信息学会,承办单位为海南大学。中国计算语言学大会创办于1991年,是中国中文信息学会(CIPSC)的重要会议。经过二十多年的发展,CCL...
了解更多

矣晓沅,孙茂松:计算机的诗意

《计算机的诗意》(作者:矣晓沅、孙茂松)本文收录于《輶轩使者:语言学家的田野故事》一书。 “九歌”·起点 “西风吹起银河水,散作江南万里天。”看到这样诗句,您是否会想到它竟不是人类所作,而是出自机器人“九歌”之手? 自1956年达特茅斯会议以来,人工智能研究者们在国际象棋、围棋、绘画等一个个人类擅长的领域内不断探索着计算机的极限。诗歌作为人类语言智慧高度凝练化和艺术化的体现,早在上世纪六十年代就进...
了解更多

OpenAttack:文本对抗攻击工具包

清华大学自然语言处理与社会人文计算实验室(THUNLP)近日开源了文本对抗攻击工具包OpenAttack。OpenAttack基于Python开发,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。对抗攻击能够帮助暴露受害模型的弱点,有助于提高模型的鲁棒性和可解释性,具有重要的研究意义和应用价值。OpenAttack具有如下特点: 高可用性。Op...
了解更多

OpenNE-Pytorch:开源网络嵌入工具包

清华大学自然语言处理与社会人文计算实验室(THUNLP)近日升级了网络嵌入开源工具包OpenNE。本次升级将之前的工具包从TensorFlow版本全面迁移至PyTorch,而且从代码、使用、结构和效率等方面进行了全面优化,让工具包更加易于使用、定制、阅读和进一步开发,同时使运行速度和模型效果得到大幅提升。新的工具包被命名为OpenNE-Pytorch。 本次升级后,OpenNE-Pytorch主要...
了解更多

OpenMatch:开放域信息检索开源工具包

清华大学自然语言处理与社会人文计算实验室近日开源了开放域信息检索工具包:OpenMatch和神经网络信息检索必读论文集:NeuIRPapers。OpenMatch是清华大学计算机系与微软研究院团队联合完成的成果,基于Python和PyTorch开发,它具有两大亮点:一是为用户提供了开放域下信息检索的完整解决方案,并通过模块化处理,方便用户定制自己的检索系统。二是支持领域知识的迁移学习,包括融合外部...
了解更多

计算人文新进展:大数据为选辑中华古诗词经典另辟蹊径

中国古典诗词多如繁星,对平素忙碌于各行各业的人士来说,抽空读哪些诗词更好呢?显然应从最基本的诗词读起,最好熟读到能够背诵下来。唐代是我国诗词文化格外璀璨的历史时期。近日,清华大学人工智能研究院自然语言处理与社会人文研究中心(THUNLP)特面向大众选辑推荐最受近现代人喜爱的唐代诗词三百首(TangPoemTop300)。 与迄今为止其他甄选方式不同,我们根据文本大数据精选了最受近现代人欢迎的300...
了解更多

专著《Representation Learning for Natural Language Processing》正式出版!

语义表示是自然语言处理的基础,我们需要将原始文本数据中的有用信息转换为计算机能够理解的语义表示,才能实现各种自然语言处理应用。表示学习旨在从大规模数据中自动学习数据的语义特征表示,并支持机器学习进一步用于数据训练和预测。以深度学习为代表的表示学习技术,能够灵活地建立对大规模文本、音频、图像、视频等无结构数据的语义表示,显著提升语音识别、图像处理和自然语言处理的性能,近年来引发了人工智能的新浪潮。本...
了解更多

清华大学自然语言处理与社会人文计算实验室招聘科研助理

受疫情影响,部分2020届毕业生出国深造的计划被延期,为了帮助这些优秀毕业生顺利地完成两个学业阶段的衔接与过渡,实验室公开招聘科研助理。 实验室简介 清华大学计算机系自然语言处理与社会人文计算实验室成立于 20 世纪七十年代末,是国内开展自然语言处理研究最早、深具影响力的科研单位之一,也是中国中文信息学会(全国一级学会)计算语言学专业委员会及中国人工智能学会(全国一级学会)不确定性人工智能专业委员...
了解更多

九歌多样化古典诗歌机器写作模型MixPoet开源

中文古典诗歌形式规则,表达凝练,同时具有丰富的情感和内容,是研究文学性文本自动理解和生成的重要切入点。近年来诗歌自动写作这一任务在自然语言生成领域逐渐受到重视, 多个不同的模型相继被提出。然而大多数模型只关注到评价诗歌质量的一些基本指标(如上下文连贯性,扣题程度,韵律的匹配),却忽略了生成诗歌的多样性。 图1 :一个基础的Seq2Seq模型依据两个不同的关键词生成的两首五绝。 如图1所示,当我们输...
了解更多
...
14
...