2013年9月16日《 光明日报 》刊登了一篇题为《国学大数据时代来了》的访谈录(http://epaper.gmw.cn/gmrb/html/2013-09/16/nw.D110000gmrb_20130916_1-15.htm)。孙茂松教授就国学大数据问题发表了自己的看法。
孙茂松在访谈中指出,利用现代信息技术,将传统文化典籍以数字化“大数据”的形式保留下来,并且发扬光大,正在日益引起许多国家,特别是发达国家的重视。一个典型的例子是,由哈佛大学、麻省理工学院、Google和大英百科全书的专家学者组成的一个研究小组,2011年1月在著名的《科学》杂志发表了一篇题为《基于数以百万计数字化图书的文化定量分析》的文章。该项工作利用Google Books中数字化质量比较高的超过500万种图书,时间跨度从公元1500年到公元2000年,规模总计5000亿词,其中英文3610亿词、法文450亿词、西班牙文450亿词、德文370亿词、中文130亿词、俄文350亿词,以及希伯来文20亿词(据估计,占人类有史以来出版图书总种数的4%),借鉴基因组学(Genomics)的思路,对这些图书组成的“大数据”进行分析,如发现单词或人名在历史文献中随时间变化的频率,由此推导出人类文化的发展趋势和演变规律。他们把这个全新的研究领域称为“文化组学”(Culturomics)。这个例子表现了历史文献“大数据”建设与高水平研究的成功结合。值得注意的是,Google Books中的中文图书其实已经具有相当规模了,这显然对我们形成了一种巨大压力。
孙茂松特别强调了建设一个“超大规模古籍数据库”的必要性和重要性。他认为:这个古籍数据库一旦建成,将对推动我国的文化传承事业发挥重要作用,尤其是为相关研究的开展提供坚实的数据基础。国际上基于历史文献数据库开展的研究是成果众多的。如哈佛大学和麻省理工学院的学者2007年10月在著名的《自然》杂志上发表的文章《语言演化动力学的定量化》,利用一个规模近1800万词、跨度长达1200年的英语历时语料库CELEX,通过定量分析揭示了英语不规则动词向规则动词的演化规律。再如,多伦多大学的学者最近借助计算机统计技术对大约100多万份中世纪英国的契据(其中大多数契据都没有标明年代)进行断代:他们使用1万份署有年代的契据,考察所使用的语言随时间的变化情况,以此来确定其他契据的年代,取得了有价值的实验结果。此外,从2007年开始,欧洲每年都举办“文化遗产、社会科学和人类学中的语言技术论坛”(LaTeCH),研讨的话题包括:文化遗产、社会科学和人类学中的知识表示、知识发现和文本挖掘、本体、数据模型和层级体系的自动构建和标准化、语篇分析、不同来源、载体信息的链接和检索等。我国在这方面的研究实际上是落后了,需要奋起直追。依托“超大规模古籍数据库”,可做的事情有很多,如计算机自动作诗和集句、历史文献断代和作者推断、中国历史典籍和古典文学作品的词汇层语言加工、中国传统文化本体体系和知识图谱构建、中国传统文化基因在现代生活中使用状况大规模量化调查等。
孙茂松表示,与现实世界中源源不断产生的科研大数据、互联网大数据、企业大数据、感知大数据相比,历史文献大数据的总量规模要小得多,并且基本上已经“固化”了,原则上不会产生新的数据,数字化一点就离目标近一点,只要我们本着“愚公移山”的精神,就一定可以完成中国古籍数字化的历史重任。