最新动态

清华大学中文文本分类演示系统(Thu-Ctc v1.0)

作者:司宪策 郑亚斌 谢丽星 孙茂松。 简介:本系统采用Java语言编写,系统使用中文大百科分类体系(55个类别)标注的近10万篇文档。清华大学中文文本分类演示系统(Thu-Ctc v1.0)采用现今流行的支持向量机方法,结合预先给定的有标记的训练集,进而训练出高效准确的分类模型,最后利用该分类模型对测试样本进行分类,完成整个分类过程。 演示地址: http://thuctc.thunlp.org...
了解更多

清华大学中文分词演示系统(Thu-Cws v1.0)

作者:滕少华 谢丽星 孙茂松。 简介:本系统采用C++语言编写,支持跨平台的应用。清华大学中文分词演示系统(Thu-Cws v1.0)采用现今流行的条件随机场方法,结合预先给定的已切分好的训练集,进而训练出高效准确的分词模型,再利用该分类模型对测试样本进行切分,最后使 用一系列后处理算法对中文分词结果进行修正,完成整个分词过程。 演示地址...
了解更多

孙茂松教授主持完成的ISO 24614-1成为国际标准

由孙茂松教授主持完成的ISO 24614-1《语言资源管理—书面文本的分词—第一部分:基本概念与一般原则》(Language resource management -- Word segmentation of written texts -- Part 1: Basic concepts and general principles)最近顺利通过了国际标准化组织各相关成员国的最后一轮投票,正式...
了解更多

我组博士生刘知远获得谷歌中国实习生奖学金

近日,我组博士生刘知远荣获谷歌中国2010年度实习生奖学金。该奖学金旨在表彰在当年谷歌中国实习生中表现优异的学生,每年在几十名实习生中仅奖励三名学生。 作为谷歌中国的研究实习生,刘知远同学在谷歌中国研究院副院长张智威博士和导师孙茂松教授的共同指导下,从事大规模机器学习算法研究,成功地将潜在主题模 型(Latent Dirichlet Allocation,简称LDA)算法加速比提高到上千倍,极大地...
了解更多

我组博士生刘知远参加“第六届亚洲信息检索会议(AIRS 2010)”

“第六届亚洲信息检索会议(AIRS 2010)”于2010年12月1日至3日在台湾大学召开。我组共有三篇学术论文被本次会议录取,包括刘知远等的口头报告论文“Doamin-Specific Term Rankings Using Topic Models”和张贴论文“FolkDiffusion: A Graph-based Tag Suggestion Method for Folksonomies...
了解更多

孙茂松教授任“国家语言资源监测与研究中心平面媒体语言分中心”学术委员会委员

由北京语言大学与教育部语言文字信息管理司共建的“国家语言资源监测与研究中心平面媒体语言分中心”续约仪式暨新一届学术委员会会议于12月17日下午在北京语言大学会议中心举行。北京语言大学崔希亮校长、教育部语言信息管理司李宇明司长出席并讲话。孙茂松教授参加了此次活动,并被聘为以崔希亮教授、李宇明教授为联合主任的分中心学术委员会委员。...
了解更多

孙茂松教授出席“中国新闻技术工作者联合会2009年学术年会”并做主题报告

“中国新闻技术工作者联合会2009年学术年会”于2009年 11月28-29日在湖北省武汉市创意宾馆举行。孙茂松教授应邀做了题为“Web智能—兼谈对发展我国新闻科技的启示”的主题报告。...
了解更多

我组博士生蒋琪夏等同学的论文被ACML 2009接收为regular paper

我组博士生蒋琪夏等同学的论文"Community Detection on Weighted Networks: A Varaitional Bayesian Method"被ACML 2009接收为regular paper,并在会议上做口头论文报告。ACML全称The 1st Asian Conference on Machine Learning,是机器学习领域的国际学术会议。本次会议是第一...
了解更多

孙茂松教授参加第九届中日自然语言处理共同促进会议

第九届中日自然语言处理共同促进会议(9th Japan-China Natural Language Processing Joint Research Promotion Conference)2009年11月22日-24日在日本冲绳Costa Vista酒店举行。孙茂松教授应邀作了题为“The Progress of NLP Research at Tsinghua University”的报...
了解更多

我组博士生郑亚斌等同学的论文被AIRS 2009接收为张贴报告论文

我组博士生郑亚斌,刘知远,滕少华与教授孙茂松的论文"Efficient Text Classification Using Term Projection"被第5届亚洲信息检索会议(Asian Information Retrieval Symposium,AIRS2009)录取为张贴报告论文。该论文提出一种利用文本特征映射的方法提高分类准确率的方法,本次会议于10月21至10月 23日在日本札幌...
了解更多
...
29
...