计算人文新进展:大数据为选辑中华古诗词经典另辟蹊径
2020-07-10

中国古典诗词多如繁星,对平素忙碌于各行各业的人士来说,抽空读哪些诗词更好呢?显然应从最基本的诗词读起,最好熟读到能够背诵下来。唐代是我国诗词文化格外璀璨的历史时期。近日,清华大学人工智能研究院自然语言处理与社会人文研究中心(THUNLP)特面向大众选辑推荐最受近现代人喜爱的唐代诗词三百首(TangPoemTop300)。

与迄今为止其他甄选方式不同,我们根据文本大数据精选了最受近现代人欢迎的300首唐代诗词。(1)首先建立了一个规模在14亿字以上的高质量现代汉语语料库(涵盖五四运动至2003年间发表的各类中外经典名著、典型新闻报刊、百科全书等);(2)其次尽可能全地搜集整理了唐代(含五代十国)诗词5万4千余首;(3)然后综合考虑这些诗词在现代汉语语料库上的多种统计数据(如双句连用频度、单句频度、单句异常频度等)以及多个相关因素(如单句长度、诗词总长度、变体字词影响等),设计了专门算法,对每一首诗词进行客观打分。最终按照分值高低降序排列,形成榜单TangPoemTop300。显然,这个视角充分体现了唐代诗词在现代文化传播中的传承与使用度。

TangPoemTop300中,排在最前列的五首为(这一点应该与您的语感是大体吻合的):

  • 第1名(分值100.00)

五言绝句·登鹳雀楼(唐·王之涣)

白日依山尽 黄河入海流

欲穷千里目 更上一层楼

  • 第2名(分值76.37)

悯农(唐·李绅)

锄禾日当午 汗滴禾下土

谁知盘中餐 粒粒皆辛苦

  • 第3名(分值75.97)

登幽州台歌(唐·陈子昂)

前不见古人 后不见来者

念天地之悠悠 独怆然而涕下

  • 第4名(分值70.18)

五言律诗·赋得古原草送别(唐·白居易)

离离原上草 一岁一枯荣

野火烧不尽 春风吹又生

远芳侵古道 晴翠接荒城

又送王孙去 萋萋满别情

  • 第5名(分值60.61)

五言绝句·静夜思(唐·李白)

床前明月光 疑是地上霜

举头望明月 低头思故乡

紧接其后的可能出乎您的意料:

  • 第6名(分值60.59)

偈(唐·慧能)

菩提本无树 明镜亦非台

本来无一物 何处惹尘埃

正值疫情期间,下面一首也会让您很有感触吧?

  • 第158名(分值28.61)

绣袈裟衣缘(唐·长屋)

山川异域 风月同天

寄诸佛子 共结来缘


本项工作由THUNLP孙茂松、郭志芃、胡锦毅完成。这只是一个初步尝试,在算法上还有不少改进空间,今后会持续改进完善。此外,所使用的大规模文本语料库是一个极为重要的可变控制因素,更加有代表性的语料库会导致更加有说服力的古诗词排行。

TangPoemTop300完整榜单已在国际最大开源社区GitHub上开放:

此外,清华“九歌”人工智能诗歌写作全部开源软件、数据集及资源见其上位目录:

声明:未经本榜单完成者许可,任何人不得将TangPoemTop300用于商业开发用途。