973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。
这次承担973任务后制定出本规范。
本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。
本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。
追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。
本文中仍用“词”来称谓“分词单位”。
3.分词中充分考虑形式与意义的统一。
形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。
4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。
5.分词时遵循从大到小的原则逐层顺序切分。
一时难以判定是否切分的结构体,暂不切分。
二、词性标注总则信息处理用现代汉语词性标注主要原则有三个:(1)语法功能原则。
语法功能是词类划分的主要依据。
词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。
(2)允许有兼类。
根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。
在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。
(3)词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。
为满足计算机处理真实文本词类标注的需要,本规范所定义的标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。
三、词类标记集本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。
本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。
标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。
词类分别为:(1)名词n:普通名词(n)时间名词(nt)方位名词(nd)处所名词(nl)人名(nh)汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)音译名或类音译名(nhy)日本人名(nhr)其他(nhw):如绰号,笔名,尊称等。
地名(ns)族名(nn)团体机构名(ni)其他专有名词(nz)(2)动词v:普通动词(v)能愿动词(vu)趋向动词(vd)系动词(vl)(3)形容词:性质形容词(aq)状态形容词(as)(4)区别词f(5)数词m(6)量词q(7)副词d(8)代词r(9)介词p(10)连词c(11)助词u(12)叹词e(13)拟声词o(14)习用语i名词性习用语(in)动词性习用语(iv)形容词性习用语 (ia)连词性习用语(ic)(15)简称和略语j名词性简称和略语 jn动词性简称和略语 jv形容词性简称和略语 ja(16)前接成分h(17)后接成分k(18)语素字g(19)非语素字x(20)其它w:标点符号 (wp)非汉字字符串(ws)其他未知的符号(wu)四、细则1.本规范参照 GB/T 13715-92的做法,以词类为纲对各类单位作具体切分与词性标注规定。
2.本次加工规定,凡是收入词表中的词语,不再遵循本规范进行切分。
所使用词表的收词原则遵从清华大学《信息处理用现代汉语分词词表》规范。
3.独立性较强的语素字均标注词类,减少语素字标记的比例。
4.大类与细类可兼类。
五、分词与词性标注的详细说明1.名词(n)表示人和事物的名称或时间、处所等,在句中主要充当主语和宾语。
1.l 普通名词(n)表示人和事物的名称1.1.l 合成式[1] 并列关系凡是使用稳定、结合紧密的二字并列关系名词一律为分词单位。
如:省市/n 房屋/n 资金/n其余双音节的只要能扩展,则可切分。
三音节以上的结构体能扩展的应切分。
例如:省/n市/n县/n[2] 定中关系A.[名十名]对2至4音节组合,如其中一部分音节长度为1,一般来说,整体不切分。
例如:阵营/n 风波/n 法人/n 饭店/n大气层/n 火车站/n 州政府/n凤仙花汁/n 芭蕾舞裙/n对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。
例如:中国/ns 公民/n 软件/n 程序/n 文件/n精神/n知识产权/n 技术人员/n 航空母舰/n 绿色食品/n 集团公司/n5音节以上的组合原则上切开。
例如:律师/n 资格/n 获得者/n 超线程/n 技术/nB.[动十名]对2至4音节组合,构成动宾式合成词时,如其中一部分音节长度为1,则整体不切分。
例如:编号/n 贷款/n 报表/n代名词/n 承包商/n 负责人/n 影响力/n说明:“动+名”如为述宾结构的短语,应切分开。
如:看/v 电影/n 洗/v 衣服/n 买/v 东西/n但有些结合紧密或使用稳定的述宾结构已在词典中登录,则处理成一个切分单位,标注为动词v,如:吃饭/v 跳舞/v 唱歌/v。
对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。
如:等待/v时间/n 设计/v方案/n 生产关系/nC.[形十名]以下几种情况不切分,整体标注名词,其余情况切分。
a.形容词反映的是名词所指事物的典型属性,如:咸盐/n 白雪/n 蓝天/n 绿叶/n 白兔/n 红花/n 绿草/n 冷水/n 低价/nb.形容词具有分类作用而不是临时指别作用,如:体细胞/n 小桥/n 矮个子/nc.形容词与名词的组合有一定象征意义。
如:红旗/nd.形容词与名词的切分意义发生了变化。
如:黑市/n 软盘/n 白菜/n 冷门/n 小金库/n 多媒体/nD.[量十名]双音节的不切分,整体标注为n。
如:度数/n 天数/n 个数/n 页数/n 种数/n 次数/n三音节以上的切分,量词与名词分别标注。
例如:亩/q 产量/n 公里/q数/nE. [数十名]a.表序数的一般要切分,数词与名词分别标注。
例如:五/m楼/n 三/m厂/nb.省略量词的组合,整体不作为分词单位,分别标注。
如:两/m 脚/n 都/d 是/v 泥/nc.其余的组合,不切分,标注为n。
例如:半岛/n 半球/n 二心/n 六指儿/n 两头/n[3] 主谓关系结构体在上下文中呈体词性时,无论音节多少,均不切分, 标注为n。
例如:癌变/n 海啸/n 脑溢血/n1.1.2 附加式附加式包括如下几部分构词形式[1] 前接成分十语素或词[2] 语素或词+后接成分[3] 前接成分+语素或词+后接成分这类名词的切分和标注规则见前后接成分。
1.1.3 重叠式。
不切分。
例如:人人/n 家家/n 山山水水/n 方方面面/n1.1.4明显带排行的亲属称谓不切开。
三哥/n 大婶/n 大女儿/n 大哥/n 小弟/n 老爸/n1.1.5专业术语[1] 专业术语四音节以下(含四音节)的一般不切分,标注n,四音节以上的按词切分。
例如:不定积分/n 氯胺酮/n 汇编语言/n 生物化学/n 多/a弹头/n导弹/n[2] 食谱上的菜名一般不切分,标注n。
八宝粥/n 霉干菜/n 松鼠鳜鱼/n 红烧肉/n,鸡蛋汤/n 芝麻饼/n 鸡丝面/n1.2 时间名词 (nt)表示时间。
[1] 一周的七天,农历的初一到初十,“(大)年初一”到“(大)年初十”不切分。
例:星期一/nt 初三/nt 年初二/nt 大年初一/nt[2] 年月日时分秒,按年、月、日、时、分、秒切分,标注为nt 。
1997/m 年/nt 3/m 月/nt 19/m 日/nt,下午/nt 2/m 时/nt 18/m 分/nt 35/m 秒/nt[3] 朝代名不切分,标注为nt。
例如:唐朝/nt 南北朝/nt 清代 /nt[4] 著名的节日名,不切分, 标注为nt。
例如:春节/nt 圣诞节/nt 国庆节/nt 复活节/nt 三八妇女节/nt “六一”儿童节/nt[5]“前、后、上、下、大前、大后、头”加“天”或“上/下”加“月/周/星期”时,不切分,标注为nt。
例如:前天/nt 大前天/nt 头天/nt 上周/nt 上月/nt 下星期/nt 但是中间加数词或量词时切开。
例如:前/nd几/m天/nt 上/nd半/m年/nt 上/nd 个/q月/nt 下/nd个/q 星期/nt[6] “点钟、分钟、秒钟、刻钟”不切分, 标注为nt:一/m点钟/nt 十/m秒钟/nt[7] “年间”不切分。
例如:乾隆/nhh 年间/nt 战乱/j 年间/nt[8] “年终、此间、公元前、前不久”均不切分,标注为nt。
[9] 十二生宵表示的年不切分,标注为nt。
例如:牛年/nt 虎年/nt[10] 以天干、地支表示的年不切分,标注为nt。
例如:甲午年/nt、庚子/nt、戊戌/nt[11] 二十四节气不切分,标注nt。
例如:春分/nt 惊蛰/nt[12] 数字与“:”或“-”结合在一起的表示具体时间的串,整体标注nt。
如:08:35:28/nt 2003-03-29/nt1.3 方位名词(nd)表示位置、时间、数的相对方向或范围的词语。
方位词分为单纯方位词和合成方位词两种,一般来说,方位词和名词组合后(方位结构),构成处所词或时间词。