Font Size

Cpanel
简体中文(中国)English (UK)

“学堂在线”课程中文分词和词性标注语料库

作者:薛小敏、孙茂松

“学堂在线”课程中文分词和词性标注语料库是对“学堂在线”课程字幕进行切分和词性标注的语料。本语料共包括《财务分析与决策》、《电路与电子学》、《电路原理》、《数据结构》、《文化精品与文物中国》、《线性系统理论》《心理学概论》、《中国建筑史》、《组合数学》等九门课程的在线字幕,共两万七千多字,一万五千多词,九十多个专业术语。

目前的标记集里有24个基本词类标记(名词n、时间词t、方位词f、处所词s、数词m、量词q、数量词mq、动词v、形容词a、副词d、代词r、连词c、介词p、助词u、语气助词y、叹词e、拟声词o、成语i、简称j、前接成分h、后接成分k、语素g、标点w、其他x)。此外,增加了专有名词(人名np、地名ns、机构名ni、其他专名nz)和动词次类(能愿动词vm、趋向动词vd)标记,且从语法功能的角度对成语、简称、语素进行了细分。另外,我们还依据本语料的特点增加了错词标记。综上,本语料库共使用了52个标记。

下载地址:“学堂在线”课程中文分词和词性标注语料库

You are here: Home Resources “学堂在线”课程中文分词和词性标注语料库