新闻

刘石 / 清华大学人文学院孙茂松 / 清华大学计算机科学与技术系日前，中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》，共五个方面18条，内容全面，要求明确，指导性强，鼓舞人心。对于我们来说，其中的第12条：“推进古籍数字化。建立健全国家古籍数字化工作指导协调机制，统筹实施国家古籍数字化工程。积极对接国家文化大数据体系，加强古籍数据流通和协同管理，实现古籍数字化资源汇聚共...

了解更多

新闻 | THUNLP实验室本科生赵威霖入选清华大学“未来学者”

近日，2022年清华大学大学生学术研究推进计划“未来学者”专项入选名单发布，本次全校共有 9 个项目通过现场答辩，我组本科生赵威霖同学入选。赵威霖，清华大学计算机系本科三年级，目前在清华大学自然语言处理实验室从事预训练语言模型、参数高效微调、模型计算加速相关研究。在ACL Demo Track 2022以共同第一作者身份发表两篇论文，相关工作OpenPrompt/Delta、BMInf在Githu...

了解更多

招聘—清华NLP实验室刘洋老师招聘1-3名工程师

本实验室刘洋老师拟招聘1-3名工程师，负责自然语言处理相关算法的实现、参与相关学术工作，以及网站前端后端开发与维护等。欢迎对自然语言处理感兴趣的计算机专业毕业生加入我们。清华大学计算机系自然语言处理与社会人文计算实验室成立于 20 世纪七十年代末，是国内开展自然语言处理研究最早、深具影响力的科研单位，也是中国中文信息学会计算语言学专业委员会及中国人工智能学会不确定性人工智能专业委员会的挂靠单位。...

了解更多

WantWords：想形容那个啥特别那什么，怎么个词来着？点进内文就有答案

“怎么形容春天的生机让人觉得很开心？” “如何形容消失在人海之中？” “如何描述夏日暴雨？” 在豆瓣文字失语者互助联盟，超过 30 万人在给自己的语言能力“举哑铃”。越来越多的人患上了这种时代病——不知如何将感受化为文字，或话到嘴边却发现词不达意、言不由衷。在厌倦了网络用语复读机似的轰炸之后，我们如何找回正常的语言表达？机器有答案。输入你想要表达的意思，就能获得对应的词语，名为 WantWor...

了解更多

清华大学NLP实验室招聘数据工程师

清华大学计算机系自然语言处理与社会人文计算实验室（THUNLP）是国内开展自然语言处理研究最早、深具影响力的科研单位，也是中国中文信息学会计算语言学专业委员会及中国人工智能学会不确定性人工智能专业委员会的挂靠单位。实验室围绕以中文为核心的自然语言处理，在语言信息处理、机器翻译、社会计算、智慧教育和知识图谱等方面开展系统深入的研究，在国内外具有较大的学术影响。近年来，实验室承担了国家重点研发项目、国...

了解更多

征稿启事 | 第二十一届中国计算语言学大会（CCL 2022）第二轮征稿进行中

“第二十一届中国计算语言学大会”（The Twenty-first China National Conference on Computational Linguistics, CCL 2022）将于2022年10月14-16日在江西南昌举行，会议由江西师范大学承办。中国计算语言学大会创办于1991年，由中国中文信息学会计算语言学专业委员会负责组织。经过30余年的发展，中国计算语言学大会已成为国...

了解更多

新闻 | 我组5篇论文被NAACL-HLT 2022录用

今日，NAACL-HLT 2022录用结果出炉，我组5篇论文被录用，其中主会论文4篇，Findings论文1篇。以下为论文列表及介绍： Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent Variable Inference for Text Generation 作者：胡锦毅，矣晓沅，李文浩，孙茂松，谢幸 ...

了解更多

与统计相遇|当统计学遇上开放域中文分词

近年来，自然语言处理（Natural Language Processing，简称NLP）领域发展迅猛。在中文自然语言处理（Chinese Natural Language Processing，简称CNLP）中，词汇之间缺少边界，故文本分词和词汇发现是中文文本分析的首要任务，也是下游分析任务（如文本分类、情感分析等）的基础。本文介绍了通过统计学框架将中文分词和词汇发现有机结合的方法--Top...

了解更多

ELLE：让预训练语言模型持续高效吸收新领域知识 | ACL 2022 Findings

论文动机当前的预训练语言模型（PLM）通常使用固定的、不更新的数据进行训练，但在现实世界场景中，各种来源的数据可能会不断增长，如果我们想让PLM同时掌握旧数据和新数据中的知识，就需要让它能够持续地整合各个来源的知识。这个目标固然可以通过对所有新老数据重新大规模训练来实现，但这样的过程太过低效和昂贵。而如果我们只让模型在新数据上进行训练，它又很容易忘记旧数据中的知识，这种现象被称为灾难性遗忘。为此...

了解更多

特约专栏丨孙茂松教授——自然语言处理一瞥：知往鉴今瞻未来

人类语言（即自然语言）的重要性无论怎么讲都不为过。社会生物学之父爱德华·威尔逊曾说过：“语言是继真核细胞之后最伟大的进化成就”。科普畅销书《信息简史》的作者詹姆斯·格雷克也深刻地指出：“语言本身就是人类有史以来最大的技术发明”。这些断言带有科学哲学的意味，反映了现代人类对语言本质理解的不断深化。众所周知，语言是人类所独有的，是思维的载体，是人类交流思想、表达情感最自然、最深刻、最方便的工具。其中...

了解更多