中国古典诗词多如繁星,对平素忙碌于各行各业的人士来说,抽空读哪些诗词更好呢?显然应从最基本的诗词读起,最好熟读到能够背诵下来。唐代是我国诗词文化格外璀璨的历史时期。近日,清华大学人工智能研究院自然语言处理与社会人文研究中心(THUNLP)特面向大众选辑推荐最受近现代人喜爱的唐代诗词三百首(TangPoemTop300)。
与迄今为止其他甄选方式不同,我们根据文本大数据精选了最受近现代人欢迎的300首唐代诗词。(1)首先建立了一个规模在14亿字以上的高质量现代汉语语料库(涵盖五四运动至2003年间发表的各类中外经典名著、典型新闻报刊、百科全书等);(2)其次尽可能全地搜集整理了唐代(含五代十国)诗词5万4千余首;(3)然后综合考虑这些诗词在现代汉语语料库上的多种统计数据(如双句连用频度、单句频度、单句异常频度等)以及多个相关因素(如单句长度、诗词总长度、变体字词影响等),设计了专门算法,对每一首诗词进行客观打分。最终按照分值高低降序排列,形成榜单TangPoemTop300。显然,这个视角充分体现了唐代诗词在现代文化传播中的传承与使用度。
TangPoemTop300中,排在最前列的五首为(这一点应该与您的语感是大体吻合的):
紧接其后的可能出乎您的意料:
正值疫情期间,下面一首也会让您很有感触吧?
本项工作由THUNLP孙茂松、郭志芃、胡锦毅完成。这只是一个初步尝试,在算法上还有不少改进空间,今后会持续改进完善。此外,所使用的大规模文本语料库是一个极为重要的可变控制因素,更加有代表性的语料库会导致更加有说服力的古诗词排行。
TangPoemTop300完整榜单已在国际最大开源社区GitHub上开放:
https://github.com/THUNLP-AIPoet/Resources/tree/master/TangPoemTop300
此外,清华“九歌”人工智能诗歌写作全部开源软件、数据集及资源见其上位目录:
https://github.com/THUNLP-AIPoet
声明:未经本榜单完成者许可,任何人不得将TangPoemTop300用于商业开发用途。