近日,清华大学人工智能研究院自然语言处理与社会人文计算研究中心在GitHub上开源了中国古典诗词预训练模型BERT-CCPoem(BERT-based Pre-trained Model for Chinese Classical Poetry)。
BERT-CCPoem是完全基于一个囊括了几乎所有中国古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。BERT-CCPoem的模型参数系针对中国古典诗词库规模“度身定做”,采用了512维隐层向量、8层、每层8个注意头的适度配置。BERT-CCPoem以汉字为基本语言单元,将频度低于3的字处理成UNK,所形成的字典含11, 809个字型。
BERT-CCPoem能提供任何一首古典诗词的任何一个句子的向量表示,可广泛应用于古典诗词智能检索与推荐、风格分析及情感计算等诸多“下游”任务。一个典型的应用场景是,可根据用户指定任一句子的向量表示,计算出与该句具有“语义”关联性的句子子集。例如,输入诗句“一行白鹭上青天”,BERT-CCPoem通过计算向量间夹角余弦所给出的10个最相关的诗句如下(排位越靠前越相关):
这个结果与基于字符串匹配算法(最长公共子序列)给出的10个最相关的诗句是有较明显差异的,呈现出不同的特点:
BERT-CCPoem由研究生郭志芃、本科生胡锦毅在导师孙茂松教授指导下完成。其在GitHub上的开源地址https://github.com/THUNLP-AIPoet/BERT-CCPoem,欢迎研究者下载使用。