学术带头人

孙茂松

欧洲人文和自然科学院外籍院士,国际计算语言学学会(ACL,The Association for Computational Linguistics)会士,中国人工智能学会会士,中国中文信息学会会士,清华大学计算机科学与技术系长聘教授、博士生导师,清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委员会主席、清华大学大规模在线教育研究中心主任。
孙茂松于1981年考入清华大学计算机科学与技术系,1986年本科毕业于清华大学计算机科学与技术专业;1988年硕士研究生毕业于清华大学计算机科学与技术专业;2004年在职博士研究生毕业于香港城市大学计算语言学专业。2007年4月至2010年11月担任清华大学计算机科学与技术系主任;2010年12月至2018年1月担任清华大学计算机科学与技术系党委书记;2020年8月入选欧洲人文和自然科学院外籍院士;2021年6月入选中国人工智能学会会士;同年12月入选中国中文信息学会会士;2022年12月入选自然语言处理领域世界上影响力最大、最具活力的学术组织国际计算语言学学会会士。
研究方向
研究方向为自然语言处理、人工智能、大模型、中文信息处理、以及社会、人文和艺术计算等。
研究工作
孙茂松作为首席科学家主持国家973项目1项;作为首席专家主持国家社科基金重大项目1项;主持国家自然科学基金国际合作项目1项。另作为项目负责人或课题负责人,主持或参加国家863重大专项项目、国家自然科学基金重点项目和面上项目以及国际合作项目等20余项。主持并成功研制语言信息处理相关ISO国际标准2项,如2010年底正式发布了适用于世界上任何语言的国际标准ISO 24614-1《语言资源管理——书面文本的词切分:基本概念与通用原则》。这是继1982年《汉语拼音方案》成为ISO-7098国际标准后,中国大陆学者牵头制订的语言内容处理领域第二个ISO国际标准。
孙茂松与其团队师生合作在一流国际刊物、顶级国际会议、中国国内核心刊物上共发表论文数百篇,Google Scholar总引用数逾40000次。其中2010年在计算语言学领域最权威国际期刊Computational Linguistics上发表论文,这是该刊创刊35年以来中国大陆研究机构发表的第一篇论文。1998年在计算语言学领域最权威国际会议第36届ACL上发表论文,这是该年会自1963年创办以来中国大陆研究机构第一次发表的两篇论文之一。相关成果还获得了数十项国家发明专利。
孙茂松的早期研究重点之一是中文信息处理最为基础性的课题:汉语自动分词。他提出了若干重要概念,如“最大交集型歧义切分字段”“真切分歧义与伪切分歧义”“全局统计量与局部统计量”,并在大规模汉语语料库上对“最大交集型歧义切分字段”进行了考察,给出了有效的处理策略,并以此为基础,研制出一个集自动分词、词性标注、专名识别和新词识别于一体的汉语分析软件CSegTag,应用于清华与欧盟近10个国家合作的FP6项目“超对等语义搜索引擎”中。他还就与汉语分词相关联的若干应用问题进行了研究,如探讨了中文文本自动分类的基本单元是基于字的N-gram还是基于词这个问题,得到一个重要结论:在分类粒度较粗的条件下,基于字的Bigram的分类性能和基于词的分类性能几乎相当。再如,他的团队2011年推出的新浪微博“围脖关键词”应用,可通过高质量自动抽取关键词语并构造用户个性化“词云”,实时分析在线社会媒体用户的属性与兴趣,注册用户超过250万人,在当时微博工具类1068个全部应用中排名第三;2013 年更与新华社等合作撰写深度专题报道十余篇,成为多家报纸封面文章,使得“词云”这种当时国内还较陌生的内容展现形式走进了我国的新闻媒体中。
2011年,孙茂松提出了“基于极大规模自然标注语料库的自然语言处理”的学术思想,其基本想法是系统地利用用户在Web环境下实现相关应用任务过程中不经意输入或建立的各类信息,以有效提高自然语言处理系统在开放环境下的处理能力(包括对Web的适应能力)。自然标注包括两类,一类是显式的,如各种标点、Anchor文本、查询日志、博客标签、维基百科等;一类是隐式的,如各种语言模板。
2013年,孙茂松在清华大学的战略部署下率领团队设计并实现了中国第一个中文大规模开放在线课程平台“学堂在线”,目前已经发展成为全球用户规模第二大的慕课平台,并成为联合国教科文组织(UNESCO)国际工程教育中心(ICEE)的在线教育平台,全球学习者人数累计超过一亿人;2015年,孙茂松领衔研制了人工智能中国古典诗词写作系统“九歌”,目前已为全球用户写作了数千万首诗词,取得了较广泛的社会效益。这也是中国较早的AIGC(人工智能生成内容)深入研究。
2012年以来,孙茂松在全球范围内蓬勃兴起的深度学习(Deep Learning)范式下系统性地开展了一系列前沿研究,内容涵盖大规模结构化知识图表示学习基础方法、预训练语言模型乃至大模型等,形成了有一定国际影响力的成果。据Gitstar Ranking统计数据(https://gitstar-ranking.com/organizations),基于孙茂松研究团队核心成果的开源项目THUNLP(https://github.com/thunlp)在GitHub上获得了近8万个星标(Star),机构排名居全球高校前列,得到了学术界与工业界较为广泛的关注。如其中一个针对知识图谱嵌入及其与预训练语言模型结合的典型工具包OpenSKL(包括OpenKE、ERNIE、OpenNE、OpenNRE四个工具)在GitHub上星标逾1万个,同时在我国新一代人工智能开源开放平台OpenI启智平台上开源,支持我国开源建设(https://openi.pcl.ac.cn/TsinghuaNLP/)。
孙茂松热衷致力并积极推动人工智能的大跨度学科交叉研究。如:他作为共同主编创办的《数字人文》学术刊物2023年入选为中文社会科学引文索引(CSSCI);由于在音乐人工智能方面的突出工作成绩,他2021年、2023年两次获得代表中央音乐学院最高荣誉的“金校徽”奖。
学术任职
时间 职务
2006年至2011年 第六届中国中文信息学会副理事长
2007年至今 《中文信息学报》主编
2020年至今 《数字人文》共同主编
2021年至今 国家语言文字工作委员会第三届科研规划领导小组顾问
2007年至任期结束 国家自然科学基金委员会第十二届专家评审组成员
2007年至任期结束 863重点项目“中文为核心的多语言处理技术”总体专家组组长
2008年至任期结束 北京市语言文字工作委员会专家委员会副主任
2009年至任期结束 国务院学位委员会第六届学科评议组(计算机科学与技术)成员
2010年至任期结束 ACM 中国理事会理事
2011年至2016年 第七届中国中文信息学会副理事长
/ 国家重点基础研究发展计划(973计划)项目首席科学家
/ 国家社会科学基金重大项目首席专家
/ 《Journal of Computer Science and Technology》编委
/ 中国中文信息学会计算语言学专委会主任
/ 中国人工智能学会多语言智能信息处理专委会主任
/ 中国人工智能学会因果与不确定性人工智能专委会副主任
/ 中国人工智能学会艺术与人工智能专委会副主任
/ 中国计算机学会计算艺术分会副主任
/ 《中国计算机学会通讯》编委
/ 《计算机研究与发展》编委
/ 《计算机科学与探索》编委
/ 《计算机教育》编委
/ 《语言文字应用》编委
/ 《南开语言学刊》编委
/ 《澳门语言学刊》编委
/ ACL SIGHAN理事会理事
/ 教育部在线教育研究中心副主任
/ 清华大学—新加坡国立大学下一代搜索技术联合研究中心联席主任
/ 国务院学位委员会第八届学科评议组(计算机科学与技术)成员
/ 教育部教学信息化与教学方法创新指导委员会副主任委员
/ 互联网教育智能技术及应用国家工程实验室副主任
/ 中国科学技术协会第九届全国委员会委员
/ 全国计算机慕课联盟副理事长
/ 全国术语标准化技术委员会委员
/ 全国语言学奥林匹克竞赛科学委员会共同主席 
荣誉奖励
时间 奖项/荣誉 授予方
2007年 全国语言文字先进工作者 国家语言文字工作委员会
2016年 全国优秀科技工作者 中国科学技术协会
2016年 首都市民学习之星 北京市建设学习型城市工作领导小组办公室
2018年9月20日 清华大学第十六届“良师益友” 清华大学
2020年8月 欧洲人文和自然科学院外籍院士 欧洲人文和自然科学院
2021年6月 中国人工智能学会会士 中国人工智能学会
2021年12月 中国中文信息学会会士 中国中文信息学会
2022年12月 国际计算语言学学会会士 The Association for Computational Linguistics
2023年1月 清华大学“刘冰奖” 清华大学
2020年 高等学校科学研究优秀成果奖(科学技术)自然科学一等奖(排名第一) 中国教育部
2020年 钱伟长中文信息处理科学技术奖一等奖(排名第一) 中国中文信息学会
2021年 中国电子学会科学技术奖(科技进步)二等奖(排名第一) 中国电子学会
2022年 高等学校科学研究优秀成果奖(科学技术)自然科学一等奖(排名第一) 中国教育部
2022年 世界互联网领先科技成果(排名第一,全球共15项) 世界互联网大会
2023年 世界互联网大会领先科技奖(基础研究)(排名第一,全球共3项) 世界互联网大会
2023年 国家教学成果二等奖(排名第二) 中国教育部
2023年 国家教学成果二等奖(排名第八) 中国教育部
/ 享受国务院政府特殊津贴 中华人民共和国国务院