EMNLP2009纪行

刘知远

liuliudong@gmail.com

 

        EMNLP2009是在8月6号、7号举行。我预定的机票是8月4号晚11点多出发的。住宿是联系了在新加坡读书的高中同学解决的。由于住宿节省了一笔钱,所以决定开完会后拜访一下在新加坡的几位同学,一直到8月10号晚上才坐飞机回北京。

        EMNLP算是自然语言处理学界的顶级会议,受到统计自然语言处理学者的普遍关注。这次会议共收到投稿478篇,其中108录取为口头报告论文(oral),55篇录取为张贴报告论文(poster)。按照惯例,EMNLP的截稿日期会比ACL的录用通知要晚一定的时间,所以一般认为ACL上被拒的论文会有机会在EMNLP上找到位置。这也许是为什么整体EMNLP要比ACL稍差的原因。但每年EMNLP上也会有相当多的优秀成果,仍然是一个牛人荟萃的场合。所以这次我、李鹏、亚斌三人合作的论文《Clustering to Find Exemplar Terms for Keyphrase Extraction》能够有幸被录用为EMNLP的口头报告论文,还是觉得非常幸运的。这里要感谢李鹏完成的繁复实验工作,感谢亚斌对最后论文一字一字的修改,更要感谢孙老师在论文架构上的指导和建议。

        EMNLP第一天是8:45开始。我早早就上了地铁赶往会场,怎奈地铁发生了几年不遇的故障,耽误了一个小时左右,结果赶到的时候开幕式已经结束,正在进行邀请报告环节了。口头论文报告分四个会场进行,两天的日程都非常紧凑。在6号晚上进行poster session。我的报告被分在第一天下午。报告做完之后,强烈地感受到说好英语口语的重要性,也感受到英语是在学术界取得成就必须跨过的一个门槛。相对于各分会场的口头报告来讲,我更喜欢poster session的方式,可以与作者进行比较宽松的交流。在poster session中结识了很多中外的年轻学者。一个重要的收获是认识了KEA++的作者Olena Medelyan,刚刚提交博士论文准备毕业。她的主要工作就是关键词抽取,所以进行了比较多的交流,交换了很多有用的信息,并约定回国后保持联系,互通有无。

此外,就是一批在国内外进行研究的中国年轻学者,例如刘群老师组的刘洋师兄和姜文斌。刘洋师兄年底就要评副教授了,我查了他的网页,从2005年就开始在ACL、EMNLP等会议上发表论文,可以说是国内自然语言处理和机器翻译的年轻一辈中的佼佼者了。跟刘洋师兄交流主要探讨了一年中学术工作如何开展,以及学术价值是如何体现,受益匪浅。诚如孙老师所言,我们组现在这么强调论文,是因为论文的数量和质量还没有上去。而一个真正进入状态的研究者,需要更多的关注如何开展研究工作,发现有价值的学术问题并解决它,而论文不过是一个总结和展示的过程。在这一点上,我比较汗颜,感觉过去的一个学期仿佛就是堕入多投论文、多发论文的怪圈,而没有关注自己做的东西到底有没有实用价值。接下来,我应该更专注于如何作出有影响力、有价值的工作,而不仅仅是发表论文的数量。注意刘洋师兄的论文发表情况就可以发现,他每年论文数量不算特别多,都是对一年工作进展的总结,一年年积攒下来就建立了自己在学术界的地位。这种扎实的作风是需要我们好好学习的。而刘洋师兄同组的姜文斌和我是一个年级,不过已经有两篇ACL和一篇COLING了,这需要我多多交流学习!在poster session还碰到了苏州大学的周国栋老师,不过没聊几句,周老师就有事匆匆离开了。此外还经过刘洋师兄认识了Johns Hopkins University的Zhifei Li(不知道中文是哪几个字,只能把拼音放在这儿了),也是机器翻译的出色年轻学者,刘洋师兄对他有很高的评价。

第二天下午还碰到了刘群老师,聊了很多。刘群老师提到他们组更专注于机器翻译这一个领域,让我们觉得这种专注也许是他们成功的原因之一。更加惊喜的是,原来刘群老师、刘洋师兄他们也是水木社区NLP版的常客,让我这个版主受宠若惊,以后治理版务更有了一些使命感。

在EMNLP上还遇到新加坡国立大学的赵振东,与我的本科同学张丙军同在王晔老师组做music retrieval。此外还有北京大学的贾玉祥,中科院计算所的任志祥(现在到新加坡读博士了,8号中午还和她以及她的男友一起吃了顿午饭),哈尔滨工业大学的赵士奇师兄(这是第二次见了,上次是在SWCL2008,贾玉祥、任志祥、赵士奇都是去年SWCL2008程序委员会的成员),复旦大学吴立德老师的学生吴苑斌,英国约克大学的李曙光,百度的吴雪军,等等。希望以后有机会能够再次相见!

第二天傍晚,与其他几位年轻学者(在日本NICT工作的陈文亮师兄等)一起游览圣淘沙,路上遇到了香港城市大学的赵海师兄。赵海师兄算是自然语言处理学界比较有名的论文机器了,每年顶级会议论文一大堆。但这次他携家带口出来玩,没太好意思向他请教研究问题。倒是跟陈文亮师兄有比较多的交流。他说他与孙老师应该有过几次见面,感觉是一个很有想法的研究者。他说他一年最多也就是完成两个比较系统的工作写成论文,而作为研究生来讲,每年能够有一篇顶级会议的论文就很好了,其他时间都应该用来进行扎实的研究工作。这一点我非常赞同,也是我未来两年博士生涯中所应该贯彻的思想。

说起来这算是我第一次出国开会,收获颇丰,主要是认识了很多自然语言处理的年轻学者,交流了很多思想,让我更加明确一个博士生应该追求的目标,总结起来,就是:专注工作,持之以恒。首先要专注于自己的研究工作和课题,不能左顾右盼,其次是要系统研究,深入研究,持之以恒,才能够取得影响力。毕竟,对于一个博士生而言,让内行评价他为某个领域的行家,要比让外行评价他为一个灌水机器要更重要一些。

8号在同学宿舍休整了一天,晚上去参观了我同学的实验室。我的这位同学是我的高中同班同学,现在在南洋理工大学修生物学博士,准备今年年底毕业。他也是一个很有想法的人,他曾经建议我多到世界各地看看,开阔一下视野,我也是在去过美国、新加坡之后才强烈地感受到这种交流、游学的重要性。晚上与同学一起看了个最新的电影J.I.Goe,中文名是《特种部队:眼镜蛇部队的崛起》。我小的时候对孩之宝的这个系列的玩具还是有很深印象的,各种各样的绿色小军人。电影非常精彩,应该算是今年大片中质量上乘的一部,我同学却一直喊太吵。电影前面有一段新加坡征兵广告很新鲜,也挺煽情的。

9号是新加坡国庆节,中午我与在新加坡工作的另外一个高中同学徐耸吃了顿饭,聊了一下近况,下午去市中心等待观看焰火表演,同时约了另外一位本科同学张丙军。张丙军是我们那届学生会主席,本科毕业来新加坡国立大学读博士,准备在明年夏天毕业。他的方向是music retrieval,刚刚参加SIGIR回国,稍后还要到北京参加SIG MM的会议,看来今年是他的学术上升期阿。因为方向比较相近,所以交流还是蛮多的。晚上的焰火大概持续了十几分钟,现场气氛异常热烈,喊的叫的比比皆是。与中国不同的是,新加坡每年的国庆都热闹非凡。

10号早晨我乘车去新加坡国立大学的王晔老师组参观,其实就是拜访我的本科同学张丙军和EMNLP遇到的赵振东。可惜的是赵振东不在,和实验室其他的几位同学一起讨论,并看了他们的音乐搜索demo。在我看来学术论文,要么是提出一个新的算法、要么是用已有算法解决一个已有问题、要么就是综合利用现有算法完成一个新的实用系统。他们论文特点是主要介绍一个新研究的实用系统。看他们SIGIR和MM的文章,基本上都是讲述这个实用系统是如何构建的,或者其中某个重要feature的实现。结合我们组的情况来看,我感觉我们的优势应该不是提出新的算法,而应该是提出一个新的实用系统,并在这个系统上不断提出新的feature来优化用户体验,这可能算是我们组亟待加强的部分。由于方向比较相近,所以讨论的就更深入一些。张丙军提到,在Google Distance之后,SIG MM 2008年上有一篇best paper提出Flickr Distance,用Flickr(世界最大的图片网站)返回的图片结果的比较来度量visual concept的相似度。由此引发开来,其实我们可以提出我们自己领域的某种Distance。此外我还向他们介绍了孙老师关于visual concept的研究思路,张丙军说有一个IBM的研究员Rong Yan也在进行visual concept的构建的研究,值得我们组关注。在讨论的时候,碰巧王晔老师过来,一起聊了一下,他提到孙老师和杨士强老师曾经带队到过他们学校访问。

吃过午饭,丙军带我去参观了Asian Civilization Museum (ACM),然后拜访了另外一位本科同学姚岱,他目前是在Singapore Management University (SMU)读研究生,已经被法国的某个顶级商学院录取为博士生。和他们的交流让我感受到,无论做什么样的选择,只要努力,结果都不会特别差,正像某位师弟的总结:越努力,越幸运

我是8月10号晚上到机场,11号凌晨飞机起飞,早晨就到了北京。总的来说,这也算是我第一次出国开会,强烈感受到交流的重要性,也谢谢孙老师给我提供这次难得的机会。

我这一个月的休假之旅就此结束,总结一下,重装上阵!