Font Size

Cpanel
简体中文(中国)English (UK)

研究项目

纵向项目
  1. 国家自然科学基金重点项目,“跨语言社会舆情分析基础理论与关键技术研究”(批准号:61331013),2014.1-2018.12。
  2. 国家自然科学基金重点项目,“面向多层次篇章语义的机器翻译理论、方法与实现”(批准号:61432013),2015.1-2019.12。
  3. 清华信息科学与技术国家实验室(筹)大数据科学与技术专项,“以中文为枢轴的网络社交媒体大数据智能分析与高效计算的理论与方法”,2014.7-2015.6。
  4. 国家社会科学基金重大招标项目,“基于大规模社交媒体的汉语模因传播机理量化研究”(批准号:13&ZD190),2014.1-2016.12。
  5. 国家973计划,“面向三元空间的互联网中文信息处理理论与方法”(批准号:2014CB340500),2014.1-2018.8。
  6. 国家自然科学基金青年项目“基于协同语义计算的社交媒体信息扩散与可信性研究”(批准号:61202140),2013.1-2015.12。
  7. 国家863计划项目“大规模中文语义信息处理技术与系统”(批准号:2012AA011102),子课题,2012.1-2014.12。
  8. 国家自然科学基金面上项目“关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究”(批准号:61170196),2012.1-2015.12。
  9. 国家863计划项目“互联网语言翻译系统研制”(批准号:2011AA01A207),子课题,2011.1-2013.12。
  10. 国家自然科学基金重点项目“篇章级中文语义分析理论与方法”(批准号:61133012),子课题,2012.1-2016.12。
  11. 教育部人文社科重大课题攻关项目“中文信息处理面临的问题与对策研究”(批准号:10JZD0043),子课题,2011.12-2013.12。
  12. 国家自然科学基金青年项目“利用机器学习改进统计机器翻译的研究”(批准号:60903138),2010.1-2012.12。
  13. 国家科技支撑计划重点项目“少数民族语言文字信息处理共性关键技术研究与示范应用”(批准号:2009BAH41B04),子课题,2009.10-2012.10。
  14. 国家自然科学基金面上项目“汉语复杂网络的性质、结构、演化及其典型应用研究”(批准号:60873174),2009.1-2011.12。
  15. 国家863计划项目“大规模网络图文数据的语义分类和适度理解技术研究”(批准号:2007AA01Z148),2007.7-2009.12。
  16. 国家自然科学基金面上项目“中文文本自动分类关键技术研究”(批准号:60573187),2006.1-2008.12。
  17. 国家自然科学基金面上项目“汉语句法排歧知识的自动获取方法研究”(批准号:69705005),1997.1-1999.12。
横向项目
  1. 清华大学国际科技合作项目“媒体与网络技术教育部—微软重点实验室”,子课题,2011.11-2014.12
  2. 清华大学国际科技合作项目“面向中文文档分类的技术研发”,子课题,2011.10-2012.9
  3. 清华大学国际科技合作项目“针对流文本集的并行LDA”,2011.5-2012.5
  4. 清华大学国际科技合作项目“清华大学、新加坡国立大学下一代搜索研究中心”,2010.1-2014.10
  5. 清华大学国际科技合作项目“健壮的汉语自动分词与高性能的汉英双语文本对齐研究(二期)”,2009.10-2010.9

孙茂松教授

孙茂松,清华大学计算机科学与技术系教授,博士生导师,党委书记。2007-2010年任该系系主任。现任清华大学大规模在线教育研究中心主任,教育部在线教育研究中心副主任,清华大学-新加坡国立大学下一代搜索技术联合研究中心共同主任。研究方向为自然语言理解、中文信息处理、Web智能、社会计算和计算教育学等。国家973计划项目首席科学家,国家社会科学基金重大项目首席专家。主持完成信息处理用分词国际标准2项。在国际刊物、国际会议、国内核心刊物上共发表论文130余篇,其中在Computational Linguistics、IEEE Intelligent Systems、ACM TALIP、IJCAI、AAAI、ACL、EMNLP、COLING、VLDB等国内外一流学术期刊和会议上发表论文数十篇。2012年,他带领清华大学团队研发成功了国内首个中文慕课平台“学堂在线” (http://www.xuetangx.com/),经过快速发展,“学堂在线”目前在国内外已形成了广泛影响。他曾数十次任国际会议或全国性学术会议的大会主席、程序委员会主席或作大会特邀报告。主要学术兼职(现任或曾任)为国务院学位委员会第六届学科评议组计算机科学与技术组成员,国家自然科学基金委员会第十二届和第十三届专家评审组成员,北京市语言文字工作委员会专家委员会副主任,中国中文信息学会副理事长,《中文信息学报》(计算机类全国核心期刊)主编,中国计算机学会理事,中国人工智能学会理事,中关村开放实验室联盟副理事长,ACM 中国理事会理事,全国术语标准化技术委员会委员,多个教育部或省级、北京市级重点实验室(涵盖计算语言学、语言监测、网络文化与数字传播、文化遗产数字化保护等多个领域)的学术委员会主任、副主任或委员,国家语言文字工作委员会“两岸语言文字交流与合作协调小组”成员、863重点项目“中文为核心的多语言处理技术”总体专家组组长、全国语言学奥林匹克竞赛科学委员会共同主席等。

通讯地址:中国北京市清华大学计算机系 邮政编码:100084
Email: 该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。
新浪微博:http://t.sina.com.cn/1970879995

相关链接

联系方式

我们的工作地点是:

中国北京市清华大学FIT大楼4区505,邮政编码100084
Room 4-505, FIT Building, Tsinghua University, Beijing, CHINA

联系电话是 (+8610) 627-77701

课程讲授

本科生课程:信息检索

课程简介:本课程讲授文本信息检索的基本方法与技术,主要内容包括:信息检索的重要性及其应用、信息检索基本框架、文本分析及自动标引、潜在语义分析、信息检索模型、相关反馈、检索评价、检索界面与可视化、Web信息检索、信息抽取等。

授课老师:孙茂松教授

主要章节

1. 引言

1.1. 信息检索的意义

1.2. 简史

1.3. 文本信息检索当前的主要研究方向及挑战

1.4. 如果没有分词,中文搜索引擎将会怎样

1.5. 典型系统考察及其发展趋势

2. 信息检索系统的基本框架

2.1. 信息检索基本模型

2.2. IR基本文件结构

2.3. 针对倒排文件的基本操作

2.4. 对倒排文件的进一步考察

3. 文本分析及自动标引

3.1. 标引

3.2. Term的自动抽取及其加权

3.3. 个简单的自动标引过程

3.4. 向量表示与相似度计算

3.5. Thesaurusterm自动关联

3.6. 自动标引实验分析

4. 信息检索实验系统SMART及其特点

4.1. SMART与向量空间模型

4.2. 文本的自动聚类

4.3. 相关反馈

5. 检索评价

5.1. 检索评价的两个角度:EfficiencyEffectiveness

5.2. Effectiveness

5.3. Efficiency

6. 用户界面与可视化

6.1. 信息访问过程与检索界面的基本组成

6.2. 文本集选择

6.3. Query描述

6.4. 上下文

6.5. 利用相关判断

6.6. 搜索过程的界面支持

7. 信息检索的其它模型

7.1. 布尔模型

7.2. 概率模型

7.3. 扩展布尔模型

7.4. Bayesian网络模型

7.5. 潜在语义分析

8. 信息检索典型应用之一:信息抽取

8.1. 信息抽取过程

8.2. 基本技术手段

9. 信息检索典型应用之二:Web信息检索

9.1. 概述

9.2. PageRank

9.3. HITS

 

研究生课程:计算语言学

当前位置:Home 研究队伍 The Frontpage Articles