北京大学现代汉语机读语法信息词典中词库介绍
2010-4-24
《语法讲义》第2章至第6章和第13章至第14章是讨论汉语词类的。
它正是以上述结构类型概念为基础,用功能特征为标准,建立起了汉语的词类体系。
这样分出来的类,目的也非常明确,就是要能反过来根据一个词的词性判定它可能出现的句法结构位置。
比如“通红”定为“状态词”,就可以判定它能出现在哪些结构位置,以及不能出现在哪些结构位置。
根据分类体系对“状态词”的功能描述,可以知道,“通红”不能出现在“很、不”等副词后面跟这些副词构成状中结构(如不说“*很通红”、“*不通红”);也不能出现在述补结构的述语位置(如不说“*通红极了”),但可以出现在述补结构中的补语位置(如可以说“脸晒得通红”),等等。
一部可直接供计算机使用的现代汉语语法信息词典,该词典语法理论框架;词组本位语法体系作为开展研究工作的基本立场。
开放性短语类——名词:27450词语(3570个);动词10283词语(2094个);形容词2365词语(1471个)。
封闭性短语类——副词:719个词语;介词85个词语;量词215个词语;数词94个;代词124个;区别词198个;处所词78个;时间词198个;助词21个;状态词:394个;习语2341个;成语4446个。
各类词库共23个,动词下设6个分库,代词下设6个分库,再加一个总库,共计32个库。
各个词库的部分共同项目
同字词:本词典中的同字词包括以下3种情况:【1】汉字相同但读音不同的词,如:“重(chong2)”和“重(zhong4)”、“合计(he2ji4)”和“合计(he2ji5) ”。
【2】汉字、读音皆同,但词类不同的词,如:“编辑(名词)”和“编辑(动词)”、“制服(名词)”
和“制服(动词)”;“巩固(动词)”和“巩固(形容词)”。
【3】汉字、读音、词类皆同但词义不同的词(包括同形词和多义词) ,如:“拐弯”的“拐”和“拐骗”
的“拐”、“花钱”的“花”和“鲜花”的“花”。
这些同字词各作为一个词语看待。
这样,总库中就有两个“重”、“合计”、“编辑”、“制服”、“巩固”、“拐”、“花”,每个记录的本字段均填“2”
全拼音:每个词语的汉语拼音,声调用“1,2,3,4,5”表示,其中“5”表示轻声。
如:“常识”的全拼音是“chang2shi2”,“尺子”的全拼音是“chi3zi5”。
虚词/实词:词典中所收录的其他词语类型,比如:叹词、拟声词、前接成分、后接成分、语素、非语素字、成语、习用语、简称略语,本字段不填。
体词/谓词:对名词、时间词、处所词、方位词、数词、量词、代词(体词性) 等7类基本词,本字段填“体”;对动词、形容词、状态词、代词(谓词性) ,填“谓”;
词典中所收录的其他词语类型,比如:区别词、副词、叹词、拟声词、前接成分、后接成分、语素、非语素字、成语、习用语、简称略语等,本字段不填。
单纯词/合成词:
单纯词:指由一个语素构成的词。
它包括以下几种:
【1】包含一个语素的单字词,如:人、走、红、吗、了
【2】双音节连绵词,如:鸳鸯、蜻蜓、垃圾、葡萄
【3】音译词,如:沙发、逻辑、巴黎、蒙太奇、奥斯卡
【4】译自少数民族语言的地名,如:哈尔滨、呼和浩特、吐鲁番
合成词:指由两个或两个以上语素构成的词。
现代汉语合成词的构造方式有三类“:【1】重叠,如:“妈妈、星星、看看、个个、刚刚、整整齐齐”等分别是由“妈、
星、看、个、刚、整齐”重叠而成的。
【2】附加,即由“前接成分+词根”构成的(如:“阿爸、老虎、微处理器、超低温”
等)或“词根+后接成分”构成的(如“桌子、盖儿、苦头、积极性、人们”等)。
需
要指出的是“了、着、过、的、地、得”在本词典中均处理成助词,不像有些语法
[那样把它们看作后缀,因此,“走了、看着、后悔过、飞快地、金黄的、说得(快)”
这样的词语,语法词典都不看作是附加式合成词,而看作准短语,不予收录。
【3】复合,即有两个或两个以上的词根成分组成合成词的构词方式。
用这种方式构
成的合成词叫复合词。
汉语复合词的内部结构基本上是和句法结构一致的,都有主
谓、述宾、述补、偏正、联合等结构关系,如“年轻、到底、扩大、优点、重视、
并且”。
语法词典中收录的其他词语类型,如:语素、非语素字、成语、习用语、简称用等
均不是“词”,因而也就谈不上单纯词或合成词,本字段就不填。
词类:词语所属词类的代码。
如:名词填“n”,动词填“v”,成语填“i”,前接成分填“h”
等。
语法词典中所收的词语分为26类。
同形词:词类相同的同形词中,全拼音不同或者词项不同的,分别注以A、B 、C ;词项相同而义项不同的,则填1 ,2 ,3 ;字母与数字同时存在时,则将字母置于数字之前,如A1, A2 , A3 ,B1 ,B2 (详见3.2.5)。
姓氏:仅能作汉族人姓氏的字,如“邓、俞、姚、刘”等,填“姓”;本身是一个词或语素,而又可以兼作姓氏者,如“周、江、张、白”等,填“可”;其他不填。
汉语中有很
多单字词或者语素都可以作姓氏,本词典中只填一些较为常见的。
组成离合:有些离合词拆开使用的时候,前后两个语素可能相距很远,有时后一个语素甚至可以提到前边。
如“洗澡”一词,可以说“洗凉水澡”,也可以说“这个澡洗得真舒
服”,但“洗澡”理论上始终只能看作一个词。
对“洗澡”这类可高度离合的动词,
为了给分析器提供信息,在“洗”、“澡”这两个记录中,本字段都填上“洗澡”。
类似的例子还有“游泳、聊天、革命、理发、打仗、打架”等。
判断是否是组成离合,一个可参考的标准是看其组成成分分开后还是不是词。
比如“来
信”是一个词,但在“来了一封信”中,“来”和“信”是两个词,不能看成一个词,所以,“来信”就不能算组成离合。
类似的例子还有“上课、滑冰、出气、带头”等。
义项:该词语的简明释义。
如:词典中收录了两个“天才”,为了让人更为方便地将其区分开,就分别在本字段填上“人”和“智慧”。
即前一个“天才”指人,比如可以说“他
是一位数学天才”,后一个“天才”指“智慧”,可以说“他在数学方面很有天才”。
粘着:自由词和粘着词:汉语有的词能够单独成句,如“书、我们、走、好”;有的词不能单独成句,如“企图、男、最、很、吗”。
能单独成句的词叫自由词,不能单独成句的词叫粘着词。
自由词在跟别的词语组合的时候,位置是不固定的,有时在前,有时在后。
例如“书”可以组合成“书本、书面、书的价值”,也可以组合成“图书、英语书、这本书”。
粘着词在跟别的词语组合的时候,有些也是位置不固定的,如“企图、很”,既可以说“企图越境、很凉快”,也可以说“有越境的企图、凉快得很”。
对于这类词,本字段就填“粘”。
但有些粘着词位置是固定的。
例如“阿、也”只能前置,不能后置(只有“阿X、也X”的格式,没有“X阿、X也”的格式);相反地“吗、的(de5)”
只能后置,不能前置(只有“X吗、X的”的格式,没有“吗X、的X”的格式);“得(de5)”则只能中置(只有“X得Y”的格式,如“写得好、洗得干干净净”,没有“得X、X得”的格式)。
若该词语是粘着的而且恒前置,填“前”;恒后置,填“后”;恒中
置,填“中”;位置不固定的,则填“粘”。
自由词不填。
对于这些词,本字段就分别填上“前、后、中”。
兼类:填该词语兼属的词类代码,可以不止填一个。
如:名词“锁”的兼类填“v”,动词“锁”
的兼类填“n”。
备注:填写词语某些用法的简明示例或说明,用“~”代替该词;各示例或说明之间用斜道“/”隔开。
注:“义项”和“备注”两个字段在本书所附词典(除少数词表外)中合并为“备注”
一个字段,义项与其示例(或说明)之间用“:”隔开。