开源项目

THUNLP-AIPoet:诗歌自动生成模型及数据资源

“九歌”是清华大学自然语言处理与社会人文计算实验室(THUNLP)在负责人孙茂松教授带领下研发的中文诗歌自动生成系统。作为目前最好的中文诗歌生成系统之一,“九歌”曾于2017年登上央视一套大型科技类挑战节目《机智过人》第一季的舞台,与当代优秀青年诗人同台竞技比拼诗词创作。2017年上线至今,“九歌”已累计为用户创作超过1000万首诗词,并荣获全国计算语言学学术会议最佳系统展示奖(2017,2019...
了解更多

THUMT:神经机器翻译工具包

THUMT是清华大学自然语言处理与社会人文计算实验室开发的神经机器翻译工具包。目前THUMT有三种实现:THUMT-PyTorch、THUMT-TensorFlow以及THUMT-Theano。其中,THUMT-PyTorch实现了主流的Transformer[3]模型;THUMT-TensorFlow实现了Seq2Seq[1]、RNNSearch[2]和Transformer[3]模型;THUM...
了解更多

OpenKE:知识图谱表示学习工具包

OpenKE是THUNLP基于TensorFlow、PyTorch开发的用于将知识图谱嵌入到低维连续向量空间进行表示的开源框架。在OpenKE中,我们提供了快速且稳定的各类接口,也实现了诸多经典的知识表示学习模型。该框架易于扩展,基于框架设计新的知识表示模型也十分的方便。具体来说,OpenKE具有如下特点: 接口设计简单,可以轻松在各种不同的训练环境下部署模型。 底层的数据处理进行了优化,模型训练...
了解更多

OpenNRE:可一键运行的开源关系抽取工具包

关系抽取是自然语言处理当中的一项重要任务,致力于从文本中抽取出实体之间的关系。比如从句子“达芬奇绘制了蒙娜丽莎”中,我们可以抽取出(达芬奇,画家,蒙娜丽莎)这样一个关系三元组。关系抽取技术是自动构建知识图谱的重要一环。知识图谱是由真实世界中的实体和实体间复杂关系构成的结构化表示,是帮助机器理解人类知识的重要工具,在问答系统、搜索引擎、推荐系统中都有着重要的应用。 一个知识图谱的简单例子 总体介绍 ...
了解更多

OpenAttack:文本对抗攻击工具包

OpenAttack基于Python开发,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。对抗攻击能够帮助暴露受害模型的弱点,有助于提高模型的鲁棒性和可解释性,具有重要的研究意义和应用价值。OpenAttack具有如下特点: 高可用性。OpenAttack提供了一系列的易用的API,支持文本对抗攻击的各个流程。 攻击类型全覆盖。OpenAtta...
了解更多

OpenNE-Pytorch:开源网络嵌入工具包

OpenNE-Pytorch是对网络嵌入开源工具包OpenNE的一次整体升级,本次升级将之前的工具包从TensorFlow版本全面迁移至PyTorch,而且从代码、使用、结构和效率等方面进行了全面优化,让工具包更加易于使用、定制、阅读和进一步开发,同时使运行速度和模型效果得到大幅提升。新的工具包被命名为OpenNE-Pytorch。 本次升级后,OpenNE-Pytorch主要包含了三个新特性,包...
了解更多

OpenMatch:开放域信息检索开源工具包

开放域信息检索工具包OpenMatch是清华大学计算机系与微软研究院团队联合完成的成果,基于Python和PyTorch开发,它具有两大亮点:一是为用户提供了开放域下信息检索的完整解决方案,并通过模块化处理,方便用户定制自己的检索系统。二是支持领域知识的迁移学习,包括融合外部知识图谱信息的知识增强模型以及筛选大规模数据的数据增强模型。 工具包地址:https://github.com/thunlp...
了解更多

THULAC:一个高效的中文词法分析工具包

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。 准确率高。该工具包在标准数据集Chinese Treebank(...
了解更多