中文自动分词最大交集型歧义字段(MOAS)资源
2011-01-22

发布者:乔维,孙茂松。

相关说明:

  1. 相关汉语语料库的说明:我们从一个汉语通用语料库和两个汉语专业领域语料库中分别抽取最大交集型歧义字段(MOAS),其中:通用语料库(记作CBC)取 材于小说、新闻、图书、文摘以及网络文本等,年代跨越了1920年至今,规模为929,963,468字;两个专业领域语料库分别是包含55个专业领域的 大百科语料库(记作Ency55),规模为90,023,253字,以及我们按照大百科55个专业领域体系自行构建的网页文本语料库(记作Web55), 规模为54,974,094字。
  2. 相关词表说明:用于抽取最大交集型歧义字段的中文词表来自北京大学《现代汉语语法信息辞典》,共计74,191个词。
  3. 资源格式说明:本最大交集型歧义字段资源库共包括四个资源。前三个资源给出了从CBC、Ency55和Web55三个语料库中抽取出的所有MOAS类型及 对应的频度和宏结构信息。其中,从CBC中抽取到的不同的MOAS733,066个,Ency55中抽取到168,478个,Web55中抽取到 119,663个。每个资源文件的内容分为两部分,第一部分包含所有MOAS及其在语料库中出现的频度信息,第二部分包含最大交集型歧义字段的宏结构信息 (关于宏结构的解释,详见乔维博士论文第三章)。最后一个MOAS资源以附录形式给出了乔维博士论文中提到的高频7000个最大交集型歧义字段,对这 7000个最大交集型歧义字段,人工区分了真歧义、伪歧义和弱真歧义(绝大多数情况下可当作伪歧义处理的真歧义)三种类型。

乔维博士论文:

《中文自动分词若干关键问题研究》 

资源下载地址:

  1. MOAS资源_1: 从CBC中抽取的所有最大交集型歧义字段
  2. MOAS资源_2: 从Web55中抽取的所有最大交集型歧义字段
  3. MOAS资源_3: 从Ency55中抽取的所有最大交集型歧义字段
  4. MOAS资源_4: 高频7000个最大交集型歧义字段