清华大学自然语言处理与社会人文计算实验室

清华大学自然语言处理与社会人文计算实验室

Natural Language Processing and Computational Social Science Lab, Tsinghua University

Font Size

Cpanel
简体中文(中国)English (UK)

自然语言处理,简单地说,就是用计算机来处理人类的语言(英文、中文等)。由于语言是人类区别于动物的根本标志,没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界(只有当计算机具有处理语言的能力时,机器才可能通过图灵测试)。

自然语言处理带有很强的多学科交叉的性质(从学科的角度来看,自然语言处理也被称作“计算语言学”),涉及计算机科学、语言学、数学(尤其是统计学)、逻辑学、认知科学等多个领域。针对中文的自然语言处理,也被称作“中文信息处理”。主要研究内容包括:语言计算(语音与音位、词法、句法、语义、语用等各个层面上的计算),语言资源建设(计算词汇学、术语学、电子词典、语料库、知识本体等),机器翻译或机器辅助翻译,汉语和少数民族语言文字输入输出及其智能处理,中文手写和印刷体识别,中文语音识别及文语转换,信息检索,信息抽取与过滤,文本分类、中文搜索引擎,以自然语言为枢纽的多媒体检索,与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究,与语言计算相关的语言学研究,社会计算(特别是社交媒体计算),人文计算等。

中文信息处理(包括对汉语以及少数民族语言的信息处理)在我国信息领域科学技术进步与产业发展中占有特殊位置。历史地看,中文信息处理技术对推动我国信息科技与产业发展的贡献是巨大的。在一定程度上可以这么说,没有王选的汉字激光照排(两次获得国家科技进步一等奖),今天的方正集团就不会存在;没有倪光南的汉卡(获国家科技进步一等奖),也可能没有今天的联想集团;没有汉语拼音方案和王永民的五笔字型输入法,我国社会信息化范围就不会象今天这样广泛;没有刘迎建的汉王汉字输入系统(获国家科技进步一等奖),我们今天使用手机、PDA等就不会这么方便。类似的成功例子还有不少,如施水才的TRS信息检索系统,唐亚伟的速录机(获国家技术发明二等奖),陈肇雄的机器翻译系统(获国家科技进步一等奖)、丁晓青的清华文通汉字OCR系统(获国家科技进步二等奖)等等。这些无一不体现着鲜明的自主创新精神的成果,既是我国中文信息处理事业发展历程的见证,同时也将为其未来的继续蓬勃发展提供了宝贵的精神财富。

我们已经进入以互联网为主要标志的海量信息时代。一个与此相关的严峻事实是,数字信息有效利用已成为制约信息技术发展的一个全局性瓶颈问题。语言信息处理无可避免地成为信息科学技术中长期发展的一个新的战略制高点。《国家中长期科学和技术发展规划纲要》指出,我国将促进“以图像和自然语言理解为基础的‘以人为中心’的信息技术发展,推动多领域的创新”。目前,我们正处于两个基本背景之中:第一,以Google为典型代表的基于信息\知识处理的国际公司的崛起,正在形成比微软有过之而无不及的商业垄断以及对信息\知识有效利用的持续性、战略性控制;另一方面,经过长期的研究积累与技术沉淀,中文信息处理正处于酝酿重大突破的前夜。中文信息处理领域能否并且如何抓住这个新的历史机遇,迎接挑战,在新的历史条件下,发扬优良传统,争取更大光荣,将是在这个领域中辛勤耕耘着的我国科技工作者必须回答的一个重大问题。

清华大学计算机系自然语言处理课题组早在上个世纪七十年代末,就在黄昌宁教授的带领下从事这方面的研究工作,是国内开展相关研究最早、深具影响力的科研单位,同时也是中国中文信息学会(全国一级学会)计算语言学专业委员会的挂靠单位。现任学科带头人孙茂松教授任该专业委员会的主任(同时任中国中文信息学会副理事长)。本课题组现正瞄准以中文为核心的自然语言处理中的若干前沿课题,进行系统、深入的研究,研究领域的涵盖面正逐步从计算语言学的核心问题扩展到社会计算和人文计算。

 

附:

语言计算:信息科学技术中长期发展的战略制高点

当前位置:Home