第九届全国计算语言学学术会议随笔

刘知远 liuliudong@gmail.com

第九届全国计算语言学学术会议是在辽宁大连理工大学开的,8月6号到8号。我和郑亚斌各中了一篇,订的5号凌晨1点多的临客,本来还奇怪为什么到大连的车票怎么这么紧张,到了就明白了这边的气候果然是炎炎夏日的好去处。火车站出站口有会务接站,但是告诉我们40分钟后才有车能来接我们,于是决定出租过去。大连的路况很好,几乎没有颠簸,只是出租车司机很彪,有点电影Taxi的感觉,拐弯都不带减速的。大连理工大学的环境很优美,尤其是从国际会议中心的注册处到我们所住的理工宾馆,路两边是成片的松柏林,幽深清爽。会议论文集的封面应该是大连海景,颇有香港的韵味。5号晚饭是欢迎晚宴。接下来的学术活动是在大连理工大学的伯川图书馆进行的。第二天早晨8:30开幕式。大会主席董振东先生等发言。下午开始就是分组报告会了,分两个厅,每个人只有15分钟的报告+提问时间,非常紧,几乎没有交流机会。

5日晚上我们和杜伟(陈群秀老师学生)、刘松彬(北京信息科技大学学生)去大连的星海广场逛了逛。7日下午是安排大连市内半日游,在车上看到了大连著名的滨海路,当时刚下过一场雨,天还阴着,车行走在海边的山道上,远处的海里氤氲着雾气,非常美,几座精致的小岛若隐若现。郁闷的是,我的数码相机电池没电了,这美景只能映在我们的脑海中了。8日晚上是欢送宴,在一个叫做世外桃源的农家风味饭店吃的,挺典型的东北菜,还有几盘海鲜,菜量不大,都吃了个底朝天。

下面说说学术上的活动。首先是开幕式之后的四个大会报告,分别是:

  1. 东芝公司的王海峰的半结构化基于实例的机器翻译,介绍了基于树串映射的基于实例的机器翻译工作。

  2. 富士通公司的于浩介绍了UGC(User Generated Content)中产品评论信息的挖掘,这和孙老师让李军进行的工作非常类似,在web2.0时代,用户产生的反馈信息的数据挖掘将是公司营销的一个重要组成部分,在这里,于浩介绍了日本营销第一人片平秀会的AIDEES营销模型,强调了用户体验和反馈信息的重要性。报告举到了CNNIC2006年对中国Blog的调查报告,有很多有用的信息,我想回去可以参考。

  3. 然后是周国栋的结构化句法分析,没有太多印象了。

  4. 最后是MSRA的林钦佑的三种文摘评测方法的比较。其中提到NLP2.0的概念,即认为当前的NLP已经进入2.0时代,主要工作包括三个方面:(1) Web data acquisition and annotation;(2)corpus-based model training & testing;(3)web application。虽然这个概念没有太多新颖之处,不过应该还是比较有见地的。报告主要介绍林的一个新的评测方法ROUGE,已在网上有可用的软件。该方法已经成为DUC的官方评测算法。我想文本摘要、信息抽取等工作应该是大规模网络数据挖掘的一个重要领域,应该大有可为。

接下来的分组报告,我主要参加和关注了机器翻译和智能检索两个部分。机器翻译部分基本的工作基本都是未登录词识别、词对齐、组块识别等子问题,大概有10篇左右的论文。我感觉中文分词和机器翻译,都是传统的NLP问题,和搜索引擎一样,如果能够搭建起这个平台,可以有很多工作可以进行。报告的论文里面有不少与新词发现有关,记录中的有李维刚等的《基于双语语料库的短语复述实例获取研究》,方高林等的《基于后缀数组方法的网络译文挖掘》,胡永伟的《小规模语料中术语概念关系的提取》等等,都是我这篇论文接下来继续开展可以吸收的养分。另外,会有一些情感分析(如李斌的《基于聚类引擎的话题褒贬度计算》等 )、热点话题检测(如龚海军的《热点事件发现》等)、Blog数据挖掘(如时达明的《基于内容相关度和语义分析的Blog热点话题发现》等)的工作,我都比较国内兴趣,值得关注,回来后找时间再通读一下。

智能挖掘这部分的报告我全部听下来,感觉国内的很多工作能够紧跟世界的前沿,如情感分析、Blog、热点话题等等,其他领域不太了解。另外就是,多数工作修修补补的多,原创的少,耳目一新的少。各家的工作倒是迅速进入该领域的入门文献。记得之前也有一个学长说,要想进入一个领域,读读国内的论文文献,是最快捷省力的办法 ,信矣。

大会闭幕的时候传递了几个信息,明年的学生计算语言学研讨会是要在山西大学召开,而后年的第10届全国计算语言学学术会议要在烟台的鲁东大学开,而COLING将在2010年在中国举行,摩拳擦掌吧。

大会在8月8号就结束了。8月9号,我们报名去会务组织的旅顺口游览。8月10号晚6点的车,白天我们去大连金石滩的海边逛了,当时小雨霏霏,大浪一下一下地拍上来,很多人就在海滩边上嬉戏,和海浪较量,被冲得七零八落,笑得花枝乱颤。回来的车上很多很多人,有春运的气势了,虽然是T字头的,却不如去时的临客更舒服些,至少去时偌大车厢没有几个人,可以占领整排座位瞌睡的。早晨6点迎来北京的朝阳,天气很凉爽,据说前两天下过雨。

2007.08.12日晚