我组发布自然语言处理工具包THULAC、THUTag

近日，我组整理发布了两个自然语言处理工具包：THULAC和THUTag。

THULAC（THU Lexical Analyzer for Chinese）是一套中文词法分析工具包，主要包括中文分词和词性标注功能。THULAC具有如下几个特点：（1）算法新颖。该工具包使用了基于词图（word lattice）的重排序算法（re-ranking method），在分词、词性标注和重排序方面效率较高，性能较强。（2）模型强大。我们按照统一标注规范整合多个分词、词性标注语料库，得到一份1500万字的分词、词性标注语料库（大小约300M）用于模型训练，模型标注能力强大。（3）准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。（4）速度较快。该工具包的分词和词性标注速度为300KB/s，每秒可处理约15万字。仅进行分词速度可达到1.3MB/s。

THULAC下载地址：http://thulac.thunlp.org/

THUTag是一套关键词抽取和社会标签推荐工具包，主要包括了我组提出的Topical PageRank、Word Alignment Model等关键词抽取算法，以及Tag LDA、Tag Allocation Model、Word Trigger Model等社会标签推荐模型，此外还包括了TextRank、ExpandRank等常用算法。THUTag是我们开发的“微博关键词”应用（http://app.thunlp.org）的基础工具。

THUTag下载地址：https://github.com/YeDeming/THUTag

欢迎各位下载使用，并提出宝贵的意见和建议，我们将根据反馈更新完善这些工具包，并不断推出新的工具与功能，为推动自然语言处理技术发展贡献力量。