当前位置:文档之家› 基于语料库的词表创建原则及方法研究

基于语料库的词表创建原则及方法研究

C UI We i x i a W AN G J u n s o n g
Ab s t r a c t :Ba s e d o n Co x h e a d’ S Ac a d e mi c Wo r d L i s t ,we d i s c u s s e d pr i n c i p l e s a n d me t h o d s i n c o r p u s ma k i n g.T h e pr o c e s s c a n be cl a s s i f i e d a s f i v e s t e p s,t h a t i s,c l a r i f y i n g t h e p u r p o s e o f l i s t ma k i n g,c r e a t i n g a s ui t a b l e c o r p u s,d e c i di n g t h e u n i t o f c o u n t i n g,d e f i n i n g t h e c r i t e r i a f or wo r d s el e c t i o n a n d t e s t i n g t h e l i s t o n a n i n d e pe n d e n t c o r p u s .W e a l s o s u gg e s t e d t h a t t h e r e s h o u l d be a g r e a t n e e d f o r i mpr o v i ng t h e c u r r e n t wo r d





基 于 语 料库 的 词 表 创 建 原 则 及 方 法研 究
崔 维 霞 王 均松2
( 1 . 西安 外 国语 大学 , 陕 西西安 7 1 0 0 6 1 ; 2 . 西北 _ I T - 业大 学 , 陕西 西安 7 1 0 1 2 9 )
摘 要 : 以C o x h e a d的学术 词表 为例 讨论 了基 于 语 料 库 的词 表 创 建 应遵 循 的原 则和 方 法 , 主
l i s t s a n d d e v el o pi n g t h e wor d l i s t f o r s p e c i f i c pu r po s e s .
K e y wo r d s : c o r p u s , w o r d l i s t ma k i n g, a c a d e mi c wo r d l i s t( A WL )
关键 词 : 语 料库 , 词表 创建 , 学术 词表 中 图分 类号 : N 0 4; N 8 文献 标识 码 : A 文章编 号 : 1 6 7 3— 8 5 7 8 ( 2 0 1 3 ) 0 2—0 0 1 5— 0 5
Pr i n c i p l e s a n d Me t h o d s o n Ma k i n g Co r p u s Ba s e d o n Wo r d L i s t s
的1 / 2 , 而居 于第 三位 的“ a n d ” 每 百万词 出现2 8 8 5 2
次, 约为 “ t h e ” 出现频率 的 1 / 3 。尽 管这 种 比例不 是
研 究表 明 J , 并 不是 所有 词 汇都 具 有 同样 的重 要
性 。根 据 齐夫 定 律 ( Z i p f ’ s L a w) , 在 一 个 自然 语 言 的语料 库 中 , 一个 词 的出现 频数 和这个 词 在 这 个语
料 库 中 的排名 成反 比 , 第 常 见词 的出 现频 率是 最
常见 词 出现频 率 的 1 / n 。 比如 , 在B r o w n语 料库 中 ,
收稿 日期 : 2 0 1 2—1 2— 2 3 基金项 目: 陕西省教育厅科研 计划项 目“ 专 门用途英语领域技术性词 汇提取的语料库方法研究 ” ( 1 2 J K 0 2 9 3 ) 西安外 国语大 学科 研基金项 目“ 专 门用 途英语主题词表 的创建 及应用研究” ( 1 1 X WB 0 1 )
引 言
词表 研究 不仅 是语 言研 究 的重要 组 成 部分 , 而 且 在外 语 教 学领 域 也 具 有 重 要 的 应 用 价 值 。相 关
“ t h e ” 是 最 常见 的 单 词 , 它 在 这 个 语 料 库 中 出现 的 频率 为 每百 万词 6 9 9 7 1次 , 居 于第 二位 的单 词 “ o f ” 的频 率 为每 百万 词 3 6 4 1 1次 , 约为“ t h e ” 出现 频 率
十分精 确 , 但却 能 够在 总体 上体 现 出语 言使 用 的 规 律或 特征 。统 计 结果 显 示 , B r o w n语 料 库 词 表 中前
1 3 5个词 汇 就 占 了整 个 语 料 库 的 5 0 %, 前 1 0 0 0个 词汇 的覆 盖率 为 7 2 %, 前3 0 0 0个 词 汇 的覆 盖 率 为
要包 括库 , 确 定 词 频 统 计单 位 , 制 定 词 汇选
取标 准 以及对 词表 进 行评 估 与测试 五个 方 面 , 并 且 指 出现 有 词 表 的维 护 与 升 级 以及 专 用 词 表 的 研制 与开发 将是 未来 研 究 的方 向和 重 点 。
相关主题