最新动态

中文宾馆评论语料库v1.0

作者:李军 http://nlp.csai.tsinghua.edu.cn/~lj/review_sentiment.v1.tgz...
了解更多

中文褒贬义词典v1.0

发布者:李军 基于其他学者工作整理 http://nlp.csai.tsinghua.edu.cn/~lj/sentiment.dict.v1.0.zip...
了解更多

中文自动分词最大交集型歧义字段(MOAS)资源

发布者:乔维,孙茂松。 相关说明: 相关汉语语料库的说明:我们从一个汉语通用语料库和两个汉语专业领域语料库中分别抽取最大交集型歧义字段(MOAS),其中:通用语料库(记作CBC)取 材于小说、新闻、图书、文摘以及网络文本等,年代跨越了1920年至今,规模为929,963,468字;两个专业领域语料库分别是包含55个专业领域的 大百科语料库(记作Ency55),规模为90,023,253字,以及我们...
了解更多

清华大学中文文本分类演示系统(Thu-Ctc v1.0)

作者:司宪策 郑亚斌 谢丽星 孙茂松。 简介:本系统采用Java语言编写,系统使用中文大百科分类体系(55个类别)标注的近10万篇文档。清华大学中文文本分类演示系统(Thu-Ctc v1.0)采用现今流行的支持向量机方法,结合预先给定的有标记的训练集,进而训练出高效准确的分类模型,最后利用该分类模型对测试样本进行分类,完成整个分类过程。 演示地址: http://thuctc.thunlp.org...
了解更多

清华大学中文分词演示系统(Thu-Cws v1.0)

作者:滕少华 谢丽星 孙茂松。 简介:本系统采用C++语言编写,支持跨平台的应用。清华大学中文分词演示系统(Thu-Cws v1.0)采用现今流行的条件随机场方法,结合预先给定的已切分好的训练集,进而训练出高效准确的分词模型,再利用该分类模型对测试样本进行切分,最后使 用一系列后处理算法对中文分词结果进行修正,完成整个分词过程。 演示地址...
了解更多

孙茂松教授主持完成的ISO 24614-1成为国际标准

由孙茂松教授主持完成的ISO 24614-1《语言资源管理—书面文本的分词—第一部分:基本概念与一般原则》(Language resource management -- Word segmentation of written texts -- Part 1: Basic concepts and general principles)最近顺利通过了国际标准化组织各相关成员国的最后一轮投票,正式...
了解更多

我组博士生刘知远获得谷歌中国实习生奖学金

近日,我组博士生刘知远荣获谷歌中国2010年度实习生奖学金。该奖学金旨在表彰在当年谷歌中国实习生中表现优异的学生,每年在几十名实习生中仅奖励三名学生。 作为谷歌中国的研究实习生,刘知远同学在谷歌中国研究院副院长张智威博士和导师孙茂松教授的共同指导下,从事大规模机器学习算法研究,成功地将潜在主题模 型(Latent Dirichlet Allocation,简称LDA)算法加速比提高到上千倍,极大地...
了解更多

我组博士生刘知远参加“第六届亚洲信息检索会议(AIRS 2010)”

“第六届亚洲信息检索会议(AIRS 2010)”于2010年12月1日至3日在台湾大学召开。我组共有三篇学术论文被本次会议录取,包括刘知远等的口头报告论文“Doamin-Specific Term Rankings Using Topic Models”和张贴论文“FolkDiffusion: A Graph-based Tag Suggestion Method for Folksonomies...
了解更多

孙茂松教授任“国家语言资源监测与研究中心平面媒体语言分中心”学术委员会委员

由北京语言大学与教育部语言文字信息管理司共建的“国家语言资源监测与研究中心平面媒体语言分中心”续约仪式暨新一届学术委员会会议于12月17日下午在北京语言大学会议中心举行。北京语言大学崔希亮校长、教育部语言信息管理司李宇明司长出席并讲话。孙茂松教授参加了此次活动,并被聘为以崔希亮教授、李宇明教授为联合主任的分中心学术委员会委员。...
了解更多

孙茂松教授出席“中国新闻技术工作者联合会2009年学术年会”并做主题报告

“中国新闻技术工作者联合会2009年学术年会”于2009年 11月28-29日在湖北省武汉市创意宾馆举行。孙茂松教授应邀做了题为“Web智能—兼谈对发展我国新闻科技的启示”的主题报告。...
了解更多
...
37
...