当前位置:
文档之家› 主流平面媒体中成语的使用情况及特征分析
主流平面媒体中成语的使用情况及特征分析
(二 )成语的历时考察 成语的历时使用情况, 是我们关注的一个重点。从表 2可以看出三年成语使用情况的差 异。成语在时间轴上的使用情况的变化, 是我们要特别关注的, 张普 ( 2008) 谈到: 动态流通 语料库 ( DCC) 对于语言的历时应用研究已经从主要监测语言的动态变化部分, 推进到监测语 言的稳态部分, 从某种意义上说, 这可能是更重要的一种监测。 因此, 我们在历时层面的统计 中提取了三年共用部分 (即交集 ) 的 7437条成语。表 3是详细情况。 表 3 四字格成语使用情况的年度比较
研究重点之一。其中对成语的研究也不鲜见, 这些研究大多与计算机技术相结合 ( M oon 1998, W iddow s& Dorow 2005), 探讨 语 的机器自动识别及其在机器翻译等方面的重要应用。清华 大学周强等也在本世纪初着手构建大规模的汉语语块库。作为自然语言处理与计算语言学领
域最高级别的学术会议之一, ACL ( Annual M eeting o f the A ssoc ia tion for Com putational L ingu is t ics) 近几年的 w orkshop都会讨论 语 的研究, 其中大多是描述性和分析性的, 主要关注语言
(三 )成语的语种数覆盖率分布 对于每个年度的四字格成语, 我们进一步计算了其覆盖率。覆盖率是指定调查对象占调 查对象总量的百分比, 是反映词语频次分布的一个指标。我们按年度将成语三年的频次进行 降序排列, 以考察不同覆盖率的成语种数, 其数值如表 5。 表 5 三年成语种数在不同覆盖率的分布表
覆盖率
社会语言生活, 亦可以呈现社会语言生活中成语使用的整体面貌。 表 1 国家语言资源监测语料库语料规模统计表 &
年度 总词语数 词种数
总字次 字种数
2008年 320 424 718 1 600 450 548 899 104 8 156 2007年 310 985 367 1 575 532 531 287 305 9 082
成语种数
覆盖率
成语种数
( % ) 2006年 2007年 2008年 (% ) 2006年 2007年 2008年
10
4
4
2
91
88 0
914
746
20
14
13
6
92
95 5
955
818
30
29
28
13
93
1044 1088
905
40
52
53
27
94
1148 1196 1008
50
91
96
51
95
1277 1325 231
(二 )本文研究的主要内容及技术路线 为使研究与探讨具有可操作性, 本文将研究对象界定为 二二相承的表述语与描述语 # 。
我们从 !新华成语词典 ∀ (商务印书馆, 共收成语约 8000条 ) 及其他辞典资料 (主要来自国学网 的 成语大全 等 ) 中共收集了 28351条成语 ∃ , 考察这些成语在三年的国家语言资源监测语料
年度 项目 使用成语数 占总数比例 ( % ) 使用四字格成语数 占总数比例 ( % ) 成语总数
2006 年
9 411 33. 19 8 788 31. 00
2007年 2008年 三年合并
10261 10386
36. 19 36. 63
9590
97 28
33. 83 34. 31
2 8351
1240 2 43. 74 1165 7 41. 12
2006年 231 827 806 1 268 901 399 488 842 8 326
与 !中国语言生活状况报告 ( 2007) ∀ ( 下编 ) 以机器自动分词结果为基础、成语从严 的 原则不同, 本文希望能在更大的范围内进行考察与分析, 因而界定成语较为宽松, 没将成语、惯 用语、习语等作严格的区分, 而是将重点放在对辞书所收集成语的 实态 ∋ 上, 即尊重客观事 实, 以真实的统计数据来探讨 二二相承 四字格成语的使用情况, 从共时、历时两个角度做一 些统计分析, 以就教于各位专家。
79
与分析, 目的之一就是测量大众语感, 从而使语言研究、语言规范有更多的数据资源和更强的 说服力。
(一 )总体情况 在 28351条成语中, 三年共使用了 12402条, 占总数的 43. 74% , 其中四字格成语使用了 11657条, 占总数的 41. 12% , 而这就是本文要考察的对象。在社会语言生活中, 有一部分成语 使用度不是很高: 有些是比较生僻的, 如 爱如己出 、 安枕而卧 等; 有些属于常用成语的变 体, 人们不太熟悉, 如 鞍马之劳 、立命安身 等, 一般常用 汗马之劳 、 鞍马劳顿 、 安身 立命 。同时也有相当一部分成语被频繁、稳定使用。众所周知, 成语通常用于书面语中, 而 本文选取的主流媒体语料库以书面语材料为主, 因此从总体上可以看出, 成语的使用情况是相 对稳定的, 表 2是三年的成语使用情况。 表 2 三年成语的使用情况统计表
与此同时, 国家语言资源监测与研究中心自 2005年起, 每年定期向社会发布 !中国语言生 活状况报告 ∀, 用计算语言学等多学科的方法来客观反映社会语言生活, 为社会留下了一份宝 贵的语言资源和客观的统计数据。 2008年公布的 !中国语言生活状况报告 ( 2007) ∀ ( 下编 ) 对 成语进行了一些实证性的统计与考察, 引起了社会的关注。本文用语 料库的方法统计分析 2006- 2008年国家语言资源监测语料库 (平面媒体 ) 中成语的使用情况及其稳定性特征, 以期 在实证的基础上总结出更多的特征与规律, 为语言教学与研究、语典编纂提供参考。
语言教学与研究 2010年第 6期
主流平面媒体中成语的使用情况及特征分析 *
曾小兵 邱丽娜
提要 成语是汉语语汇的重要组成部分。本文利用国家语言资源监测语料库 ( 平面媒 体 ) 2006- 2008年的真实语料来考察成语的年度使用情况, 并对成语的稳定性特征做了一些 共时与历时的统计与分析, 主要用定量分析与实证研究的方法探讨了成语的总体使用状况、年 度使用特征、覆盖率、稳固性与相对性等问题, 以期为成语的教学与研究、语典编纂提供科学实 用的数据参考。
频次 14 11 11 11 9 8 8 7 7 7
文本数 2008年 频次 10 头上末下 11 11 茹古涵今 10 10 空室清野 9 4 绿林大盗 8 7 颠鸾倒凤 7 8 畏难苟安 7 2 同日而言 7 3 将伯之助 6 7 不磷不缁 6 7 民康物阜 6
文本数 1 9 1 4 7 7 7 3 3 6
年份 2 006 年 2 007 年 2 008 年
总数 8788 9590 9728
三年共用 7 437 7 437 7 437
某两年共用 766 1178 1206
独用 585 975 1085
独用占总数比例 ( % ) 6. 66 10. 17 11. 15
如表 3所示, 其中独用部分只占少数, 而非独用部分在三个年度都占到 78% 以上, 由此可 以看出, 绝大部分成语使用稳定。传统意义上所讲的成语的稳固性特征, 更多是指其在内部结 构上的不可变性, 而这里则是从时间的维度上看其使用情况的稳定性。这些稳定的部分, 正是 人们经常要使用的, 也是汉语教学与研究的重点。
60
153
160
97
96
1436 1428 1286
70
252
264
1 80
97
1640 1691 1490
80
427
444
3 33
98
1936 1985 1780
90
813
843
6 84
99
2421 2475 2272
-
-
-
-
100
8788 9590 9728
从中可以看出: 年度间不同覆盖率的成语种数分布呈大致相同的趋势; 成语的使用情况也 符合 Z ipf( 1949) 等人所说的省力原则 ( the principle of least effort) , 这与历年 !中国语言生活状 况报告 ∀ (下编 )中字词的使用情况相似; 周祖谟 ( 2006) 曾讲到: 我们要学习成语, 并非要把一 些陈旧的不合乎现实的东西都搬出来死记死用, 而是要汲取成语中生动活泼具有生命力的东 西加以充分地合理地利用。 所以我们需要一些量化数据来判断哪些是 生动活泼具有生命 力 的成语, 而覆盖率则是个很好的量化依据。 800条左右的成语频次已经覆盖了全部成语使 用总频次的 90% , 它们是有强大生命力的部分。
表 4 三年独用的成语 ( 频次排序前 10个 )
80
2 006 年 笃信好学 黜奢崇俭 昼伏夜动 果行育德 除残去秽 枕流漱石 熟读深思 法外施仁 品头评足 什袭而藏
频次 11 8 7 7 7 6 6 5 5 5
文本数 5 1 7 7 7 3 6 5 5 4
2007 年 漆身吞炭 漫天过海 广寒仙子 得意忘象 七折八扣 如日方升 全智全能 马齿徒增 切切此布 惠然肯来
学、统计学、计算机科学及认知科学的结合。虽然我们不能简单地讲国外的 Chunk和 MWE 就 是汉语中所说的 语 , 但其在方法论上对汉语 语 的研究是有可借鉴之处的。
值得一提的是, 信息处理技术对成语的研究会有所帮助, 但计算机自动识别与处理的前提 是需要更多规则或者说是形式化的对象的。因此, 如何更好地总结成语的内部规律与统计特 征, 就显得尤为重要了。
* 本文受北京市 教委共建项目 汉语国际推广背景下的首都留学生教育 研究 子课题的资 助。成语的初 始集由北京语言大学 刘长征老师提供, 写作期间得到导师 张普教授和 赵日新教 授的悉心指 导, 初 稿在第二届 全国语汇学研讨会上宣读, 蒙温端政、吴 建生、徐祖友等先生提出 中肯意见, 同时笔 者也在北京 语言大学 DCC 博士讨论课中获益, 谨此一并致谢! 感谢匿名评审专家的宝贵意见。文责自负。