孙茂松教授谈国学大数据

2013年9月16日《光明日报》刊登了一篇题为《国学大数据时代来了》的访谈录（http://epaper.gmw.cn/gmrb/html/2013-09/16/nw.D110000gmrb_20130916_1-15.htm）。孙茂松教授就国学大数据问题发表了自己的看法。

孙茂松在访谈中指出，利用现代信息技术，将传统文化典籍以数字化“大数据”的形式保留下来，并且发扬光大，正在日益引起许多国家，特别是发达国家的重视。一个典型的例子是，由哈佛大学、麻省理工学院、Google和大英百科全书的专家学者组成的一个研究小组，2011年1月在著名的《科学》杂志发表了一篇题为《基于数以百万计数字化图书的文化定量分析》的文章。该项工作利用Google Books中数字化质量比较高的超过500万种图书，时间跨度从公元1500年到公元2000年，规模总计5000亿词，其中英文3610亿词、法文450亿词、西班牙文450亿词、德文370亿词、中文130亿词、俄文350亿词，以及希伯来文20亿词（据估计，占人类有史以来出版图书总种数的4%），借鉴基因组学（Genomics）的思路，对这些图书组成的“大数据”进行分析，如发现单词或人名在历史文献中随时间变化的频率，由此推导出人类文化的发展趋势和演变规律。他们把这个全新的研究领域称为“文化组学”（Culturomics）。这个例子表现了历史文献“大数据”建设与高水平研究的成功结合。值得注意的是，Google Books中的中文图书其实已经具有相当规模了，这显然对我们形成了一种巨大压力。

孙茂松特别强调了建设一个“超大规模古籍数据库”的必要性和重要性。他认为：这个古籍数据库一旦建成，将对推动我国的文化传承事业发挥重要作用，尤其是为相关研究的开展提供坚实的数据基础。国际上基于历史文献数据库开展的研究是成果众多的。如哈佛大学和麻省理工学院的学者2007年10月在著名的《自然》杂志上发表的文章《语言演化动力学的定量化》，利用一个规模近1800万词、跨度长达1200年的英语历时语料库CELEX，通过定量分析揭示了英语不规则动词向规则动词的演化规律。再如，多伦多大学的学者最近借助计算机统计技术对大约100多万份中世纪英国的契据（其中大多数契据都没有标明年代）进行断代：他们使用1万份署有年代的契据，考察所使用的语言随时间的变化情况，以此来确定其他契据的年代，取得了有价值的实验结果。此外，从2007年开始，欧洲每年都举办“文化遗产、社会科学和人类学中的语言技术论坛”（LaTeCH），研讨的话题包括：文化遗产、社会科学和人类学中的知识表示、知识发现和文本挖掘、本体、数据模型和层级体系的自动构建和标准化、语篇分析、不同来源、载体信息的链接和检索等。我国在这方面的研究实际上是落后了，需要奋起直追。依托“超大规模古籍数据库”，可做的事情有很多，如计算机自动作诗和集句、历史文献断代和作者推断、中国历史典籍和古典文学作品的词汇层语言加工、中国传统文化本体体系和知识图谱构建、中国传统文化基因在现代生活中使用状况大规模量化调查等。

孙茂松表示，与现实世界中源源不断产生的科研大数据、互联网大数据、企业大数据、感知大数据相比，历史文献大数据的总量规模要小得多，并且基本上已经“固化”了，原则上不会产生新的数据，数字化一点就离目标近一点，只要我们本着“愚公移山”的精神，就一定可以完成中国古籍数字化的历史重任。