现代汉语常用词表(草案)1 .范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形本规范(草案)指词语的书写形式。
2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则3.1词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春” “初冬”“初秋”“初夏”,但对于“‘晚‘+季节”的词语,只收录“晚春”“晚秋”,未收 录“晚冬”“晚夏”;对于“‘残‘+季节”的词语,只收录“残冬”未收录“残 “残秋”“残夏”。
库、华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以 及Google 网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委 “现代汉语通用语料库”中经分 词标注的4 500万字语料、《人民日报》2001年〜2005年约1.35亿字的分词标注 语料和厦门大学的现当代文学作品语料库约 7 000万字的语料。
总共2.5亿字。
4.3本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351 个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。
表内条目按频级升序排列,频级相同的按汉语拼音音序排列。
4.4本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音 序排列,同音的条目按笔画数由少到多排列。
其中,词语的读音只供检索使用,不 代表词语的读音规范。
春” 4. 《现代汉语常用词表》(草案)说明4.1本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料 厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新(略)《现代汉语常用词表(草案)》音序索引词语阿爸aba 汉语拼音频序号18137阿昌族阿斗Qchangzu adou 5084942632阿飞afei48603 哀泣aiqi44322阿富汗 阿訇 阿拉伯数字 阿拉伯语 阿妈 阿门阿司匹林 阿嚏 ayi 3461 34432 35937 30476 16220 47913 20845 40294 54643阿姨 6842 啊(a ) 啊呀 啊哟 啊(a ) 啊(d ) 啊(d ) 啊(a ) 哎呀 哎哟 哀兵必胜 哀愁 aiddo aiqdo 16090 15418 23908 28693 18287 5514 1175 5497 8456 11815 53102 25684哀悼 8091 哀告 哀歌 哀号 哀嚎 哀叫 哀哭 哀怜 哀鸣 哀戚 36418 aiqe aihao aihao aijido aiku ailian aiming aiqi 40509 29605 45194 35031 41402 35032 28081 4666111984 Array 19763 23975 26507 46377 27828 32720 23209 20602 6336 3121 4736 53583 40951 42370 17735 46979 26596 7474 24870 25872 4436 16362 34907 37482 36941 28598 10793 35321 19156 6730 44071 93725267矮墩墩矮胖矮小矮子didundun 53103 dipang-v- ••'✓dixiaoy ••diZi278291629322440-艾乂咼艾窝窝艾滋病唉(ai)爱爱不释手爱财如命爱称爱答不理爱戴爱尔兰爱抚爱国爱国主义爱好爱河爱护爱将爱克斯光爱怜爱恋爱美. 爱面子爱莫能助爱慕爱女爱情爱人爱神ai 9226 aihaoaiwowoaizibingaiaiaibushishoudied - rumingaicheng36593555663427411532324929541154666252602117126977193302338399054923694258623490855082233032225521216314813159518550297122005551930357安泰39037安土重迁安危_ 安慰安稳安息安闲安详安享安歇安心安养安逸_ 安营53584 antaiant u zhongqian101683875145681876225466123303360938045418054116安营扎寨安于安葬安之若素安置安装桉树氨氨基酸氨气氨水庵庵堂_ 谙练谙熟鹌鹑鞍马鞍马劳顿鞍前马后anydng1849136943275102493017219433602645320032345111151544241641345731211046088555673677129290260274860444325(略)《现代汉语常用词表(草案)》研制报告研制背景为给语文应用和有关政策的制定提供科学的词汇依据,积极服务于汉语规范 化、推广普通话,积极服务于中小学语文教学、扫盲教育、汉语教育、中文信息 处理和辞书编纂等工作,1998年7月国家语言文字工作委员会批准立项,成立 《现代汉语通用词表》 研制课题组。
该词表作为国家已经公布的 《现代汉语通用 字表》等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设 项目。
研制工作自1998年7月启动,于2001年年底完成并通过了专家鉴定。
鉴于5年来汉语词语发展变化很大,研究和统计手段又有很大提高,为把词 表研制工作做得更加扎实完善,课题组希望对原词表进行修订。
2005年6月教 育部语信司决定在原词表的基础上进行修订,此项工作由原课题组和新立项的《现代汉语通用词量与分级》课题组合作进行,共同研制一个常用词表。
根据 5 年来语言发展变化的情况和对词条增删调整,按新的统计处理方法确定其常用度 并以此重新排序,使之能更真实地反映我国现代汉语词汇系统的概貌。
这次修订 工作进行了一年半,主要是对词语作了较大规模的增删调整, 并根据词频调查结 果确定了使用频级。
修订的主体工作于 2007年1月完成,之后又根据有关专家 和部门的意见陆续作了增补和修改。
研制过程(一)初稿的形成本词表初稿的研制工作,主要包含下列几方面的内容:案值 案子 暗 dnzhi anzi an13209 6523 2609搜集有关文献资料,研究前人制订各种词表的经验和教训;比较现有的、在社会上影响较大的辞书的词目,并研究它们的取舍标 进行社会调查,了解群众使用汉语词汇的具体情况;(4)在把《现代汉语规范词典》开编时的词目和其他 10多本词典、词表进 行对比后进行增删的基础上,用山西大学和清华大学计算机中心所储存的语料进 行词汇覆盖率的检验。
对条目的增删,除了利用计算机之外,还进行了人工干预,逐条审核。
通过以上工作,形成了总词目为 61 000多个的“词表”。
2000年2月26 日在北京经专家鉴定通过。
鉴定委员有陆俭明、陈章太、曹先擢、常宝儒、刘庆 隆、林杏光和苏培成,由苏培成主持。
(二)词表的修订2005年春天,为了加快词表研制工作的进度和提高质量,在教育部语言文 字信息管理司的组织下,研制组联合苏新春主持的“现代汉语通用词量与分级” 课题组对原词表作了修订并再次进行词频统计工作。
将“词表”同国家语委研制的“通用语料库”的核心语料库所收词语进行比 对。
核心语料库约有15万多个词语,除去专有名词、行业词语、人名、地名等 以外,语文类词语约10万个。
将“词表”同这10万个词语进行逐一比对,按照 常用词表既定的收录原则逐条筛选。
在审慎分析各词语在通用语料库中词频的基 础上,考察社会语文生活中的实际使用情况,经过人工干预增选出约 4 000多个 !词语。
将“词表”同《现代汉语规范词典》、《现代汉语词典》(第 5版)、《新 华词典》等所收词语进一步比对。
排除其中的方言词语、专有名词、行业词语以 及现代语文生活中存活率或使用率明显偏低的文言词语, 再按照常用词表既定的 收录原则进行审核,增补了 500多个词语。
将“词表”同新词语语料库所收新词语进行比对。
利用厦门大学研制的新词 语语料库,按照课题组既定的收录原则进行筛选,经现代汉语通用语料库检测, 增补了 1 000余个词语。
至此,“词表”的词语收录总数扩展到了 66 000多个。
对“词表”词语进行综合审读,必要时查验了该词在人民网《人民日报》报 系网页以及Google 网简体中文网页、百度网等常用网页上的使用情况,作了再 次调整(主要是删除尚不具备本表所界定的“常用”规格的词语),另外也考虑 到作为常用性词表的词,不宜象一般词典那样因语音或语法的细小差异而将词目 作过细的区分。
后来在送专家和有关部门审读中,又根据审读意见陆续作了调整 和删减。
最终形成的《现代汉语常用词表》,收录词语共56 008个。
1[1]包括单音(2) 准;节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855 个,五音节和五音节以上词语162个。
调查所有词语的使用频次。
用来检测词频的语料库有三种:第一种是国家语委主持研制的“通用语料库”中经分词标注的4 500万字语料。
第二种是《人民日报》2001年〜2005年约1.35亿字的分词标注语料。
第三种是厦门大学研制的现当代文学作品语料库,约7 000万字的语料。
总共2.5亿字。
以上三种语料均作有分词与标注,从中获得词频数据。
对以下两种情况作了人工检测。
第一种是分词后在该语料中没有出现的词语。
做法是将被检词放到未作分词标注的原始语料中以查检字符串的方式调出所有用例进行人工甄别,从而避免原始语料中有词却因软件分词而消失了。
在查检时对数量大的语例则用随机抽样的方法抽检。
第二种是同形词。
对同形异义词在实际语例中进行人工干预,区分意义,分别统计词频。