清华大学中文文本分类演示系统(Thu-Ctc v1.0)
2011-01-22

作者:司宪策 郑亚斌 谢丽星 孙茂松。

简介:本系统采用Java语言编写,系统使用中文大百科分类体系(55个类别)标注的近10万篇文档。清华大学中文文本分类演示系统(Thu-Ctc v1.0)采用现今流行的支持向量机方法,结合预先给定的有标记的训练集,进而训练出高效准确的分类模型,最后利用该分类模型对测试样本进行分类,完成整个分类过程。

演示地址: http://thuctc.thunlp.org