THUNLP-AIPoet:诗歌自动生成模型及数据资源
2020-08-17

“九歌”是清华大学自然语言处理与社会人文计算实验室(THUNLP)在负责人孙茂松教授带领下研发的中文诗歌自动生成系统。作为目前最好的中文诗歌生成系统之一,“九歌”曾于2017年登上央视一套大型科技类挑战节目《机智过人》第一季的舞台,与当代优秀青年诗人同台竞技比拼诗词创作。2017年上线至今,“九歌”已累计为用户创作超过1000万首诗词,并荣获全国计算语言学学术会议最佳系统展示奖(2017,2019)和最佳论文奖(2018)。

“九歌”团队开源了AIPoet诗歌自动生成模型及数据资源,包含如下内容:

  1. 诗歌数据集:涵盖绝句数据、诗歌情感标注数据、格律韵表等资源。
  2. 诗歌生成模型:开源了包括风格诗歌生成、多关键词诗歌生成等模型。
  3. 预训练资源:基于大规模古诗文预训练的Masked Language Model。
  4. Poetry&AI 论文列表:收集整理了诗歌和AI交叉方向的论文。

资源地址:
https://github.com/THUNLP-AIPoet/

THUNLP-AIPoet资源网址.png

“九歌”在线系统网址:
http://jiuge.thunlp.org/

九歌在线系统网址.png

诗歌数据集

THUNLP-AIPoet开源数据集列表.jpg

图1:开源数据集列表

AIPoet目前开放了四个中文诗歌数据集:

  • 中文古典诗歌数据集THU-CCPC:包含约13万首中文绝句(已划分训练、测试、开发集),可用于相关模型的训练。
  • 中文格律及韵律数据集THU-CRRD:包含整理好的平声字表、仄声字表以及平水韵表,可用于诗歌生成以及诗歌自动分析研究。
  • 中文诗歌细粒度情感标注语料THU-FSPC:包含5,000首人工标注的绝句,每首诗包含诗歌整体以及每一句的情感标签。可用于训练情感可控的诗歌生成模型,以及进行诗歌情感自动分析。
  • 中文诗歌质量标注数据集THU-PQED:包含173首古人诗作,每一首诗附有诗歌质量不同侧面(如通顺性、上下文连贯性等)的人工评分。可用于诗歌评价指标分析和研究。

诗歌生成模型

AIPoet已开源如下诗歌自动生成模型:

  • WMPoetry

基于Memory Network的诗歌生成模型。该模型支持多关键词输入,并将中文古典诗歌的格律拆解为字级别的格式embeding,能够较好地控制生成诗歌的格律和韵脚,并提升诗歌的上下文关联性和扣题程度。相关论文发表于IJCAI 2018。

  • StylisticPoetry

基于互信息解耦的无监督风格诗歌生成模型。该模型无需任何标注数据,能够自动将生成的诗歌划分为用户指定的任意数量个不同风格。 相关论文发表于EMNLP 2018。

  • MixPoet

基于对抗因素混合的半监督风格诗歌生成模型。该模型利用少量标注数据,通过组合不同的影响因素,创造出多种可控的诗歌风格。相关论文发表于AAAI 2020。

预训练资源BERT-CCPoem

AIPoet基于超过90万首古诗文训练的BERT模型,该模型能提供任何一首古典诗词的任何一个句子的向量表示,可广泛应用于古典诗词智能检索与推荐、风格分析及情感计算等诸多下游任务。

Poetry&AI 论文列表

AIPoet整理了人工智能与诗歌交叉领域的相关论文列表。此清单列出了针对诗歌这一文学体裁的相关论文,包括 1.中文古典诗歌(绝句、宋词等)生成,2.中文对联生成,3.中文现代诗生成,4.外文诗生成,5.多模态诗歌生成, 6.诗歌自动分析, 7.诗歌自动翻译, 8. Demo及Survey 等部分。每篇论文都附有下载链接,部分论文也附上了作者公开的源码和数据链接。此清单在不断更新中,力求为读者提供该领域较为全面和最新的研究方法与趋势。

结语

近年来AI和文学艺术不断交融,产生了很多有趣的研究方向,如自动绘画生成、诗歌生成、音乐生成、小说生成等。这些研究在学术界和普通人群中都引起了热烈的讨论,并且具有娱乐、教育、辅助文艺研究等广泛的应用价值。本团队会持续维护和开放AI+Poetry的相关资源,助力NLP和计算人文方向的研究。

开发团队

指导教师:
孙茂松 清华大学计算机系教授,
https://nlp.csai.tsinghua.edu.cn/staff/sms/

团队成员:矣晓沅、杨成、陈慧敏、郭志芃、梁健楠、胡锦毅、李文浩等。

九歌logo.jpg