我组发布自然语言处理工具包THULAC、THUTag
2016-01-13

近日,我组整理发布了两个自然语言处理工具包:THULAC和THUTag。

THULAC(THU Lexical Analyzer for Chinese)是一套中文词法分析工具包,主要包括中文分词和词性标注功能。THULAC具有如下几个特点:(1)算法新颖。该工具包使用了基于词图(word lattice)的重排序算法(re-ranking method),在分词、词性标注和重排序方面效率较高,性能较强。(2)模型强大。我们按照统一标注规范整合多个分词、词性标注语料库,得到一份1500万字的分词、词性标注语料库(大小约300M)用于模型训练,模型标注能力强大。(3)准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。(4)速度较快。该工具包的分词和词性标注速度为300KB/s,每秒可处理约15万字。仅进行分词速度可达到1.3MB/s。

THULAC下载地址:http://thulac.thunlp.org/

 

THUTag是一套关键词抽取和社会标签推荐工具包,主要包括了我组提出的Topical PageRank、Word Alignment Model等关键词抽取算法,以及Tag LDA、Tag Allocation Model、Word Trigger Model等社会标签推荐模型,此外还包括了TextRank、ExpandRank等常用算法。THUTag是我们开发的“微博关键词”应用 (http://app.thunlp.org)的基础工具。

THUTag下载地址:https://github.com/YeDeming/THUTag

 

欢迎各位下载使用,并提出宝贵的意见和建议,我们将根据反馈更新完善这些工具包,并不断推出新的工具与功能,为推动自然语言处理技术发展贡献力量。