近年来,自然语言处理(Natural Language Processing, 简称NLP)领域发展迅猛。在中文自然语言处理(Chinese Natural Language Processing, 简称CNLP)中,词汇之间缺少边界,故文本分词和词汇发现是中文文本分析的首要任务,也是下游分析任务(如文本分类、情感分析等)的基础。本文介绍了通过统计学框架将中文分词和词汇发现有机结合的方法--TopWORDS-Seg,该方法特别适用于开放域文本领域,模型解释性强,且不依赖人工标注的训练数据。相关成果TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference入选自然语言处理领域的国际顶级会议“2022年第60届国际计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)”的主会长文单元。清华大学统计学研究中心2018级博士研究生潘长在为文章的第一作者,清华大学统计学研究中心邓柯副教授作为文章的通讯作者, 与清华大学计算机科学与技术系孙茂松教授共同指导了该研究。
更多详情请点击“阅读原文”