现代汉语常用词表(草案)现代汉语常用词表(草案)1.范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形本规范(草案)指词语的书写形式。
2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4 频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则3.1 词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。
总共2.5亿字。
4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。
表内条目按频级升序排列,频级相同的按汉语拼音音序排列。
4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。
其中,词语的读音只供检索使用,不代表词语的读音规范。
(略)附录《现代汉语常用词表(草案)》音序索引(略)《现代汉语常用词表(草案)》研制报告一研制背景为给语文应用和有关政策的制定提供科学的词汇依据,积极服务于汉语规范化、推广普通话,积极服务于中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等工作,1998年7月国家语言文字工作委员会批准立项,成立《现代汉语通用词表》研制课题组。
该词表作为国家已经公布的《现代汉语通用字表》等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设项目。
研制工作自1998年7月启动,于2001年年底完成并通过了专家鉴定。
鉴于5年来汉语词语发展变化很大,研究和统计手段又有很大提高,为把词表研制工作做得更加扎实完善,课题组希望对原词表进行修订。
2005年6月教育部语信司决定在原词表的基础上进行修订,此项工作由原课题组和新立项的《现代汉语通用词量与分级》课题组合作进行,共同研制一个常用词表。
根据5年来语言发展变化的情况和对词条增删调整,按新的统计处理方法确定其常用度并以此重新排序,使之能更真实地反映我国现代汉语词汇系统的概貌。
这次修订工作进行了一年半,主要是对词语作了较大规模的增删调整,并根据词频调查结果确定了使用频级。
修订的主体工作于2007年1月完成,之后又根据有关专家和部门的意见陆续作了增补和修改。
二研制过程(一)初稿的形成本词表初稿的研制工作,主要包含下列几方面的内容:(1)搜集有关文献资料,研究前人制订各种词表的经验和教训;(2)比较现有的、在社会上影响较大的辞书的词目,并研究它们的取舍标准;(3)进行社会调查,了解群众使用汉语词汇的具体情况;(4)在把《现代汉语规范词典》开编时的词目和其他10多本词典、词表进行对比后进行增删的基础上,用山西大学和清华大学计算机中心所储存的语料进行词汇覆盖率的检验。
对条目的增删,除了利用计算机之外,还进行了人工干预,逐条审核。
通过以上工作,形成了总词目为61 000多个的“词表”。
2000年2月26日在北京经专家鉴定通过。
鉴定委员有陆俭明、陈章太、曹先擢、常宝儒、刘庆隆、林杏光和苏培成,由苏培成主持。
(二)词表的修订2005年春天,为了加快词表研制工作的进度和提高质量,在教育部语言文字信息管理司的组织下,研制组联合苏新春主持的“现代汉语通用词量与分级”课题组对原词表作了修订并再次进行词频统计工作。
将“词表”同国家语委研制的“通用语料库”的核心语料库所收词语进行比对。
核心语料库约有15万多个词语,除去专有名词、行业词语、人名、地名等以外,语文类词语约10万个。
将“词表”同这10万个词语进行逐一比对,按照常用词表既定的收录原则逐条筛选。
在审慎分析各词语在通用语料库中词频的基础上,考察社会语文生活中的实际使用情况,经过人工干预增选出约4 000多个词语。
将“词表”同《现代汉语规范词典》、《现代汉语词典》(第5版)、《新华词典》等所收词语进一步比对。
排除其中的方言词语、专有名词、行业词语以及现代语文生活中存活率或使用率明显偏低的文言词语,再按照常用词表既定的收录原则进行审核,增补了500多个词语。
将“词表”同新词语语料库所收新词语进行比对。
利用厦门大学研制的新词语语料库,按照课题组既定的收录原则进行筛选,经现代汉语通用语料库检测,增补了1 000余个词语。
至此,“词表”的词语收录总数扩展到了66 000多个。
对“词表”词语进行综合审读,必要时查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况,作了再次调整(主要是删除尚不具备本表所界定的“常用”规格的词语),另外也考虑到作为常用性词表的词,不宜象一般词典那样因语音或语法的细小差异而将词目作过细的区分。
后来在送专家和有关部门审读中,又根据审读意见陆续作了调整和删减。
最终形成的《现代汉语常用词表》,收录词语共56 008个。
1[1]包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。
调查所有词语的使用频次。
用来检测词频的语料库有三种:第一种是国家语委主持研制的“通用语料库”中经分词标注的4 500万字语料。
第二种是《人民日报》2001年~2005年约1.35亿字的分词标注语料。
第三种是厦门大学研制的现当代文学作品语料库,约7 000万字的语料。
总共2.5亿字。
以上三种语料均作有分词与标注,从中获得词频数据。
对以下两种情况作了人工检测。
第一种是分词后在该语料中没有出现的词语。
做法是将被检词放到未作分词标注的原始语料中以查检字符串的方式调出所有用例进行人工甄别,从而避免原始语料中有词却因软件分词而消失了。
在查检时对数量大的语例则用随机抽样的方法抽检。
第二种是同形词。
对同形异义词在实际语例中进行人工干预,区分意义,分别统计词频。
三研制原则和方法(一)收词原则本词表所称的“常用词”是指以汉语为母语的中等文化程度的人,在社会语文生活中经常见到和使用的现代汉语普通话词语。
本词表要求给现当代社会语文生活中通用的、稳定性较强、使用频率较高的汉语普通话词语划出一个范围,作为现代汉语词汇系统的基干部分,从而为语言应用和有关语言文字政策的制订提供科学的词汇依据。
在研制中,既注重了书面词语的收集,也兼顾了常用口语词语的考察,还适当收了一些在现代社会大众传媒中时有出现,跟语文生活有所关联的行业性、历史性词语。
至于更专业些的词语将另行研制,作为《现代汉语常用词表》的附表。
本词表以收录单音节词和双音节词为主。
同时,根据语言交际实际也收录一些使用频率明显较高的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
1.鉴于汉语词语本身在缩略、扩展、拆用,以及跟别的词语组合成新的固定语等方面的灵活性和复杂情况,本词表的词语筛选还贯彻了以下规则:(1)对于带有词根性质的词语(如“群众化”“群众性”中的“群众”)和它们的扩展词形、组合短语,从词语构成的能产性考虑,优先收录带有词根性质的词语,对它们的扩展词形或组合短语,根据实际使用频度和规范状况等有选择地收录,原则上双音节者适当从宽,三音节及其以上者适度从严。
(2)对于简缩词语或简称和它们的原形词语,根据实际使用频度和规范状况等做出不同的选择。
如:“安理会”“安全理事会”“联合国安全理事会”,收录“安理会”,而不再收录“安全理事会”和“联合国安全理事会”;“福利彩票”和“福彩”,收录“福利彩票”,而不收录“福彩”。
(3)可以拆用的四字以上的固定语(多是八字熟语),原则上收录其完整式,而不分别收录拆用式。
如:收录“种瓜得瓜,种豆得豆”,不分别收录“种瓜得瓜”和“种豆得豆”。
(4)经常出现的双音节结构,如果其中一个组成语素在现代汉语中基本不单用,则把该结构视为词加以收录,如“乌云、李子、鲫鱼、松树”等;如果该结构中有一个成分的意义已经虚化,也视为词加以收录,如“达到、酿成、成为、致以、觉得”等。
2.鉴于本词表的研制目的和使用价值,对于确实存活在社会语文生活中、但较为特殊的几类词语,采用以下处理办法:(1)人名。
原则上不予收录,但有比喻、借代等引申意义的,适当收录其中稳定而高频的。
如“阿Q”“诸葛亮”等。
(2)地名。
原则上不予收录,但收录使用频率相对较高的我国各省(及其省会)、自治区(及其首府)、直辖市名称,以及它们常用的别称或简称。
(3)国名。
只收录我国周边国家以及在社会语文生活中出现频率明显较高的一些国家和城市的名称。
(4)我国各历史朝代名称。
只收录历史上影响较大、在现当代社会语文生活中出现频率明显较高的朝代名称。
(5)党、国家、社会团体和企事业各机构的名称,以及这些机构的领导职务的名称。
原则上不予收录,但在现当代社会语文生活中明显稳定而高频的“支部”、有着明确比喻意义的“班长”等,则予以收录。
本词表的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“晚+季节”的词语,只收录“晚春”“晚秋”未收录“晚冬”“晚夏”;对于“残+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。