语言教学与研究 1999年第1期《汉语水平词汇与汉字等级大纲》的词汇量问题李清华0.引言张凯(1997)认为,《汉语水平词汇与汉字等级大纲》“把汉字教学量定为3000是合适的,而把词汇量定为8821看来是有些保守的。
”笔者同意这一观点,认为《大纲》定的本科生的汉字量合适,词汇量偏低。
同时还认为,《大纲》词汇量偏低是造成中高级汉语教材超纲词过多的重要原因。
相当长一段时间以来,大家被中高级汉语教材的超纲词过多这一问题所困扰。
杨德峰(1997)列举了:《中级汉语教程》(北京语言学院出版社1987)超纲词平均每课65%,《汉语中级教程》(北京大学出版社1989)超纲词平均每课54%,《现代汉语进修教程》(精读篇)(北京语言学院出版社1992)超纲词平均每课58%以上。
这是几部使用比较普遍的有代表性的教材。
另外,其他中高级汉语教材也都存在类似的问题,如《高级汉语教程》(北京语言学院出版《汉语高级教程》(北京大学出版社1989)等,超纲词也都社1992)、在50%以上。
为什么超纲词如此之多?有人认为,是因多以文学名著为课文所致;有人则不以为然,理由是从报刊上选的热门话题超纲词也不少。
究竟是什么原因,十余年来,争论不休,莫衷一是。
笔者认为,主要还是因为《大纲》的词汇量偏低。
最近,我们做了一些抽样调查和统计,所得结果与此观点基本吻合。
1.对三篇课文的调查统计与分析1.1《雷雨》(节选)———《中级汉语教程》(下)第7课全课生词:92 超纲词:50 占54.35%全部生词用字:162超纲字:7占4.32%超纲词的比例确实不低。
如果只是笼统地说超纲词多,还不足以说明问题,首先应该看看超纲的都是哪些词,它们与上纲词都有哪些不同。
下面就从50个超纲词中选取25个,和课文中相关的上纲词作一对比。
超纲词:境况罪过口音闲事本分相貌恩怨煤矿尸首上纲词:地位道德名誉规矩本性体面严厉窟窿骨肉超纲词:怨愤报应登场冲动指使凶横沉郁不忍不容上纲词:清醒提醒罢工鼓动引诱贤慧冷静不妨略微超纲词:未尝私生子董事长无亲无故玩世不恭闷签上纲词:暂且嫁 公司一帆风顺乖 枯撇这25对词在词性、结构和意义等方面不完全对应,之所以把它们两两排在一起,只是为了对比方便而已。
如果仅从经验和感觉出发,好像很难说清楚超纲词与上纲词哪个应掌握,哪个不应掌握。
两者的使用频率也许只差一二,但结果就有了纲外与纲内之“冲动”和“鼓动”、“未尝”和“暂且”。
高别,比如“指使”和“引诱”、频词是交际中的常用词,是必须掌握的。
而一些专业性较强的词,则频率不会太高。
有不少这样的词因频率低于《大纲》的要求,而被排除在纲外,但从实用的角度,很难说它们就不应该掌握。
比如“董事长”和“公司”,虽然前者的频率比后者低,但二者属同一个范围,处在同一个层面上,都应该掌握。
如果一个外国留学生毕业后去某公司谋职,接待人员让他跟董事长谈谈,而他却不知道“董事长”是何许人,岂不是笑话?又比如,同样是亲属称谓,《大纲》收了“婆婆、儿子、女儿”,而未收“公公、儿媳、女婿”;“岳父、岳母”也未收。
如果学生碰到了一个关于婚姻、家庭的话题,那么他在与人谈话中将会遇到不少困难。
造成这种现象的主要原因,是定8821这个数字的时候,有一个严格的量化标准与规定界限,这就是所谓的“8000词可覆盖一般语料的95%”(《大纲》第12页)。
而这个95%又是根据什么定出的呢?它是否恰当,是否合理?为什么不是96%,也不是97%?假设是这两个数字当中的一个,情况又会怎么样呢?此话留待后面再说。
1.2《结婚现场会》(下)———《汉语高级教程》第7课全课生词:116 超纲词:64 占55.17%全部生词用字:220超纲字:5占2.27%64个超纲词中,我们觉得有42个不能算是很生僻的词:额头 顷刻 主事 随口 招儿 无形 死活 安生 倒贴清苦 闲扯 抬举 山药 诚然 骨头 酸菜 思忖 欠条公家 年景 肝火 浅显 点子 羞 瞅 忠 磕 冲(着)初来乍到 山穷水尽 眉开眼笑 过意不去 万般无奈异口同声 靠山吃山 经久不息 直截了当 无精打采话茬儿 得劲儿 走调儿 下辈子如果《大纲》能把这些词也包括进去,超纲词的比例就可以降为18.97%。
1.3《唐山大地震》(节选)———《高级汉语教程》(上册)第7课全课生词:35超纲词:29占82.86%全部生词用字:83超纲字:9占10.84%此课的超纲词比例更高,达80%以上,可能是与地震这一非常题材有关,即使这样,超纲词中还是有相当一部分可以考虑划到大纲中去。
比如:硬是 蜜月 温馨 没好气 主心骨 无济于事 风雨同舟内疚 解体 痴心 供给制 寻短见 有条不紊 支离破碎另外,像“废墟、轶事、栖身、挑唆、抽搐、相濡以沫、休戚与共”等,虽然较为生僻,但作为一个汉语本科生也应该懂。
这样一算,超纲词就远远没有那么多了。
1.4两组相差悬殊的数字三篇中高级汉语课文的统计结果显示:平均每课超纲词为64.7%,超纲字为4.52%,两个数字相差悬殊。
超纲词所占比例是超纲字的10倍以上。
汉字具有非常强的构词能力,“现代汉语中大部分词汇是这3500字构成的。
对我们母语是汉语的人来说,掌握了这3500字(中学毕业水平),就具备了理解70000个词的基本条件”(张凯1997)。
如此计算,平均每字构词为:70000÷3500=20个,则《大纲》所收汉字应构词:2905×20=58100个,《大纲》实际上收词8821个,占应构词的15.18%。
《大纲》收字2905个,占3500常用字的83%。
这两个数字相差也很悬殊。
这两组相差悬殊的数字从不同的角度证明了文章开头的观点:《大纲》定的词汇量偏低,汉字量不低;因词汇量偏低造成超纲词过多。
2.对《大纲》中32个汉字构词情况的统计与分析从《大纲》的甲、乙、丙、丁四级汉字中,随机抽取32个字。
具体做法是,每级每隔80字抽取1字,共32字。
以《现代汉语词典》(1996版,下同)和《新法编排汉语词典》(逆序词典)为依据,把这些字的构词情况与《大纲》中的收词情况作一比较。
2.132字的分布情况第一行数字为此字在某一级中的序号 81161241321401481561641721甲级春负极可明热抬消育(甲级字总数:800)乙级翅纺糊军猫歉刷悉硬(乙级字总数:804)丙级耽痕亏哦伺芽蒸 (丙级字总数:601)丁级储梗捐髦锹滔畜 (丁级字总数:700)2.232个汉字构词与《大纲》收词情况比较序 号81161241321401级甲乙丙丁甲乙丙丁甲乙丙丁甲乙丙丁甲乙丙丁字春翅耽储负纺痕梗极糊亏捐可军哦髦明猫伺锹构词数751021438158134511261363136221471932收词数611473111056426201129201应增数121131033572436100011111序 号481561641721合计级甲乙丙丁甲乙丙丁甲乙丙丁甲乙丙丁字热歉芽滔抬刷蒸畜消悉育硬构词数129821215131621611229511022收词数14321143312194186应增数12361232612469150注:(1)构词数指《现代汉语词典》和《新法编排汉语词典》中这一字的构词数之和。
(2)收词数指《大纲》中所收的词数。
(3)应增数指我们建议《大纲》应增加的词数。
这些词均来自《现代汉语词典》,其中90%以上与《普通话水平测试大纲》相重合。
(4)《大纲》收词和应增加的词的具体情况,我们以“春”(甲级字)、“军”(乙级字)、“亏”(丙级字)、“捐”(丁级字)为例,附于文末。
抽查结果显示:32字构词总数:1022 《大纲》收词数:186 占18.2%这一组数字相差也很悬殊。
这也说明,《大纲》收词数偏低。
2.3来自其他外语专业的信息我们对北京语言文化大学外语学院的某些专业进行了了解,下面是其四年词汇量的数字:英 语:25000日 语:12000—15000西班牙语:12000—15000意大利语:15000对外汉语教学也是外语教学之一种,而且汉语的词汇数量庞大,同义词、近义词众多,覆盖率较低,可是《大纲》所收词汇量却比其他语种低得多。
从这一比较中也不难看出,8821这个数字是偏低了。
综上所述,《大纲》的词汇量偏低,汉字量合适。
3.讨论3.1《大纲》的词汇量定多少合适3.1.1根据以上的讨论,我们认为比较合适的数字应该为15000左右。
就是说,一个外国留学生毕业时,他应该掌握的词汇量为15000左右。
得出这一数字的一个依据是,用以上三篇课文超纲词的平均百分数64.7%乘以8821得出超纲词的总数,再加上8821,即: 8821×64.7%+8821=145283.1.2从《现代汉语通用词・基本集》的词表看,15000这个数字也比较合适,因为它和词表的一级(5191)、二级(8792)词数之和13893很接近。
这是国家语委语用所通用词课题组研制的最新科研成果,虽然尚未正式出版,但已被多家所采用。
通用词的通用度已兼顾到词语的分布率和频率两个方面,并且把两个方面有机地结合起来了。
它适应于语言应用领域的各个方面,特别是语言教学、语言信息处理等方面。
文章到此好像就应该结束了,但还需要谈一谈前面提到的95%的问题以及其他一些相关问题。
3.2关于8000(即8821)词可覆盖一般语料的95%的问题这是《大纲》规定词汇量的主要理由之一。
至于说为什么是95%而不是96%或97%,据了解也没有什么道理和根据,好像只是因为95%相对于96%和97%来说是个逢五的整数。
界限划在了95%这条线上,结果《大纲》的词汇量就成了8000,假设划在了96%或97%这个地方,情况也许会大不相同,很可能成了12000或15000,超纲词当然也就没有那么多。
除此以外,恐怕还有一个最重要的理由,即认为8000的词汇量就够了。
《大纲》指出:“依据上下文等猜测语义的能力及跳读的能力”,“在8000词的范围内,识别语料的95%的词汇,那么读懂语义的比例就不止95%,而是超过95%。
”但实际情况并非完全如此,这种推测不太符合绝大多数学习者的实际。
根据“取法于上,仅得其中,取法于中,不免为下”的古训,以及我们的教学经验和认知规律,学习者所能真正掌握的恐怕还要打一定的折扣,即规定8000,实际上真正掌握的达不到百分之百,因而识别语料的比例也就达不到95%。
至于“读懂语义的比例就不止95%,而是超过95%”的估计能否实现,则很难下结论。
因为使用频率高的常用词多是多义词。
“词在课文中往往以某个义项的身分出现,下次又可能以另一个义项的身分出现,对于学生来说,每个义项与这个词的形式的联系,都是一次新的联系,都需要重新学习,虽不是生字但都是生词。
”(万艺玲1997)比如,学过了“吃、里、爬、外”这几个甲级词,但当课文中出现“吃里爬外”这一四字语的时候,学生不一定能依据上下文的意思猜出其语义,因为“吃里爬外”的语义,不等于“吃、里、爬、外”四个词意义的简单相加。