THUNLP-AIPoet：诗歌自动生成模型及数据资源

“九歌”是清华大学自然语言处理与社会人文计算实验室（THUNLP）在负责人孙茂松教授带领下研发的中文诗歌自动生成系统。作为目前最好的中文诗歌生成系统之一，“九歌”曾于2017年登上央视一套大型科技类挑战节目《机智过人》第一季的舞台，与当代优秀青年诗人同台竞技比拼诗词创作。2017年上线至今，“九歌”已累计为用户创作超过1000万首诗词，并荣获全国计算语言学学术会议最佳系统展示奖(2017，2019)和最佳论文奖(2018)。

“九歌”团队开源了AIPoet诗歌自动生成模型及数据资源，包含如下内容：

诗歌数据集：涵盖绝句数据、诗歌情感标注数据、格律韵表等资源。
诗歌生成模型：开源了包括风格诗歌生成、多关键词诗歌生成等模型。
预训练资源：基于大规模古诗文预训练的Masked Language Model。
Poetry&AI 论文列表：收集整理了诗歌和AI交叉方向的论文。

资源地址：

https://github.com/THUNLP-AIPoet/

“九歌”在线系统网址：

http://jiuge.thunlp.org/

诗歌数据集

图1：开源数据集列表

AIPoet目前开放了四个中文诗歌数据集：

中文古典诗歌数据集THU-CCPC：包含约13万首中文绝句(已划分训练、测试、开发集)，可用于相关模型的训练。
中文格律及韵律数据集THU-CRRD：包含整理好的平声字表、仄声字表以及平水韵表，可用于诗歌生成以及诗歌自动分析研究。
中文诗歌细粒度情感标注语料THU-FSPC：包含5,000首人工标注的绝句，每首诗包含诗歌整体以及每一句的情感标签。可用于训练情感可控的诗歌生成模型，以及进行诗歌情感自动分析。
中文诗歌质量标注数据集THU-PQED：包含173首古人诗作，每一首诗附有诗歌质量不同侧面(如通顺性、上下文连贯性等)的人工评分。可用于诗歌评价指标分析和研究。

诗歌生成模型

AIPoet已开源如下诗歌自动生成模型：

WMPoetry

基于Memory Network的诗歌生成模型。该模型支持多关键词输入，并将中文古典诗歌的格律拆解为字级别的格式embeding，能够较好地控制生成诗歌的格律和韵脚，并提升诗歌的上下文关联性和扣题程度。相关论文发表于IJCAI 2018。

StylisticPoetry

基于互信息解耦的无监督风格诗歌生成模型。该模型无需任何标注数据，能够自动将生成的诗歌划分为用户指定的任意数量个不同风格。相关论文发表于EMNLP 2018。

MixPoet

基于对抗因素混合的半监督风格诗歌生成模型。该模型利用少量标注数据，通过组合不同的影响因素，创造出多种可控的诗歌风格。相关论文发表于AAAI 2020。

预训练资源BERT-CCPoem

AIPoet基于超过90万首古诗文训练的BERT模型，该模型能提供任何一首古典诗词的任何一个句子的向量表示，可广泛应用于古典诗词智能检索与推荐、风格分析及情感计算等诸多下游任务。

Poetry&AI 论文列表

AIPoet整理了人工智能与诗歌交叉领域的相关论文列表。此清单列出了针对诗歌这一文学体裁的相关论文，包括 1.中文古典诗歌(绝句、宋词等)生成，2.中文对联生成，3.中文现代诗生成，4.外文诗生成，5.多模态诗歌生成, 6.诗歌自动分析, 7.诗歌自动翻译, 8. Demo及Survey 等部分。每篇论文都附有下载链接，部分论文也附上了作者公开的源码和数据链接。此清单在不断更新中，力求为读者提供该领域较为全面和最新的研究方法与趋势。

结语

近年来AI和文学艺术不断交融，产生了很多有趣的研究方向，如自动绘画生成、诗歌生成、音乐生成、小说生成等。这些研究在学术界和普通人群中都引起了热烈的讨论，并且具有娱乐、教育、辅助文艺研究等广泛的应用价值。本团队会持续维护和开放AI+Poetry的相关资源，助力NLP和计算人文方向的研究。

开发团队

指导教师：

孙茂松清华大学计算机系教授，

https://nlp.csai.tsinghua.edu.cn/staff/sms/

团队成员：矣晓沅、杨成、陈慧敏、郭志芃、梁健楠、胡锦毅、李文浩等。