当前位置:文档之家› 一对四_英汉双语对应语料库的建设及应用_任小华

一对四_英汉双语对应语料库的建设及应用_任小华


英语 - 挪威语双语对应语料库 ( ENPC) [12]87 - 112 , ITU 英 语 - 法 语 - 西 班 牙 语 三 语 对 应 语 料 库[13]219 - 226 ,英语 - 法语 - 丹麦语 - 芬兰语 - 希 腊语 - 拉丁语 - 瑞典语 - 西班牙语 - 越南语等九 种语言的 Bible 对应语料库[14]129 。 - 153
收稿日期: 201年洛阳市社会科学规划项目 “英汉双语对应语料库的建设及应用” ( 2012B233) 。 作者简介: 任小华 ( 1978 - ) ,男,陕西汉中人,洛阳师范学院公共外语教研部讲师、硕士,主要研究方向为应用语言 学、语料库语言学、对比语言学。
近年来港台学者和海外华人学者也建立了一 些双语对应语料库,主要是和汉语对应的平行语 料库,如 吴 德 凯 等 人 在 香 港 科 技 大 学 建 立 的 HKUST 中英对应语料库[15]80 - 87 ,台湾的中英对应 语料库 ( Sinica Corpus) [1]18 ,Bermingham 中英对 应语料库[1]18 ,英国兰卡斯特大学的中英对应语 料库[1]19 ,以 及 巴 比 伦 英 汉 平 行 语 料 库[1]19 , 等 等。大陆 学 者 也 建 了 一 些 英 汉 平 行 语 料 库, 包 括: 北京大学计算语言学研究所的新闻机助类平 行语料库 Babel,北京外国语大学中国外语教育 研究中心的通用汉英平行语料库 ( PCCE) ,南京 国际关系学院的英汉平行语料库 ( PECC) ,上海 交通大学外国语学院的英汉平行语料库、莎士比 亚戏剧英汉平行语料库和汉英会议口译平行语料 库,绍兴文理 学 院 的 毛 泽 东 选 集 汉 英 平 行 语 料 库、鲁迅小说汉英平行语料库、邓小平文选汉英 平行语料库和中国法律法规汉英平行语料库,燕
Reader 进行扫描、转化为电子 ( word) 格式,然 后参照纸 质 本 进 行 初 步 整 理, 主 要 是 更 正 错 别 字、清除杂质及多余语言符号等无用信息。之后 我们借助 EditPadpro 软件对语料进行反复校对, 最后将 所 有 英、 汉 双 语 语 料 统 一 成 电 子 文 本 ( txt) 格式。需要说明的是,汉语文本储存的格 式 很 多, 如 ANSI、 Chinese GB、 Chinese Big5、 Unicode、UTF8、UTF16 等,我 们 在 研 究 前 人 做 法的基础上,结合自身反复的尝试,最终把所有 语料统一为 UNICODE 编码格式。为了便于汉译 本之间进行比较,我们对英语和四个汉译本语料 单独存放。鉴于后期会使用 CUC_ ParaConc ( 中 国传媒大学平行语料检索软件) ,我们对语料的 储存方式也和 CUC_ ParaConc 的要求保持一致。
选择了分词和标注功能合二为一的中国传媒大学 在线分 词 标 注 系 统 对 汉 语 语 料 进 行 了 分 词 和 标 注。该标注系 统 由 国 家 教 育 部 语 言 监 控 机 构 研 制,包括 “按 粗 粒 度 切 分 ” 和 “按 细 粒 度 切 分”,二者主要区别在于是否把 人 名 中 姓 与 名、 组合机 构、地 名、其 他 专 名、组 合 型 时 间 表 达 式、组合型数字表达式和组合型数量词表达式分 开。我们 选 择 标 注 较 简 单 的 “按 粗 粒 度 切 分” 法,加载语料后界面如图 1 所示。
关键词: 双语语料库; 美国总统就职演说词; 分词; 标注; 对齐; 检索
中图分类号: H 319 文献标识码: A 文章编号: 粤内登字 O - 10339 ( 2013) 03 - 0020 - 07
一、引 言
由于现代计算机和网络技术的有力支持,语 料库语言学得到了飞速的发展,现已成为语言学 的一个重要分支。随着语料库语言学的发展,语 料库的研制类型也呈现多样化,双语甚至多语的 平行对应语料库成为语料库语言学的一个亮点。 平行语料库开发具有较高的理论及应用价值。Aijmer 和 Altenberg 指出,平行语料库对翻译和语言 对比研 究 特 别 有 用, 并 扩 展 了 研 究 问 题 的 范 围。[10]12 它有助于通过对比深入了解所对比的语 言,而这往往在研究单语种语料库时被忽略,通 过比较,它能揭示语言的共性以及某语种所特有 的、语言类型与文化上的差异,还可以揭示原文 与译文、母语与非母语之间的差异等。
Among_ IN the_ DT vicissitudes_ NNS incident_ NN to_ TO life_ NN no_ DT event_ NN could_ MD have_ VH filled_ VVN me_ PP with _ IN greater_ JJR anxieties_ NNS than_ IN that _ DT of_ IN which_ WDT the_ DT notification_ NN was_ VBD transmitted_ VVN by_ IN your_ PPMYM order_ NN ,_ ,and _ CC received _ VVD on_ IN the_ DT 14th_ JJ day_ NN of_ IN the_ DT present_ JJ month_ NN . _ SENT
双语对应语料库最初侧重于英语与其亲属语 言之间,上世纪 90 年代中期才逐渐扩展到英语 与欧洲之外的一些语言之间,现在已几乎覆盖世 界上所 有 主 要 的 语 言 之 间。在 国 外,挪 威、荷 兰、英国、美国、加拿大等国家都建立了涉及不 同语种、不同规模的平行语料库。[1]18 - 19 比较著名 的平行语料库有: Hansard 对 应 语 料 库[11]169 - 176 ,
———乔治·华盛顿首次就职演说词
( 二) 汉语语料的分词和标注 由于汉语以字为基本书写单位,词语之间没 有明显的区分标记,因而汉语文本处理中,首先 遇到的问题是分词,也即在汉语文本中词与词之 间加上标记。
21
外语艺术教育研究
总第 43 期
20 世纪 80 年代以来有报道的中文自动分词 方法归纳起来已有 22 种[2],但是把这些方法转 化成工具的不多。目前广为使用的分词标注工具 是中国科学院计算所的汉语词法分析系统 ( ICTCLAS) ,该系统的主要功能包括: 中文分词,词 性标注,命名实体识别,新词识别。该系统支持 用 户 词 典、 繁 体 中 文、 GBK、 UTF-8、 UTF-7、 UNICODE 等多种编码格式。ICTCLAS 目 前 的 分 词速度单机为 996 KB / s,分词 精 度 为 98. 45% 。 然而,由于权限所致,我们手头的 ICTCLAS ( 试 用版) 不提供完整的语料分词和标注。最终我们
2013 年 9 月 第3 期
外语艺术教育研究 Educational Research on Foreign Languages & Arts
Sep. 2013 No. 3
“一对四” 英汉双语对应语料库的建设及应用
任小华
( 洛阳师范学院 公共外语教研部,河南 洛阳 471022)
摘 要: 双语对应语料库对对比语言学和翻译研究的重要性不言而喻,国内外大多双语对应语语料库不
20
2013 年第 3 期
“一对四”英汉双语对应语料库的建设及应用
山大学的 《红楼梦》 中英文平行语料库,等等。 根据调查我们发现,绍兴文理学院的双语平
行语料库可在线检索并获得全部检索行,北外汉 英平行语料库可在线检索,但只提供 100 个检索 行,南京国际关系学院的语料库需要在该校项目 组的电脑里检索,其他国内学者建设的双语语料 库至今都尚未对外界开放。已建成的双语语料库 大多以文学作品为语料,除燕山大学 《红楼梦》 中英文语料库是 “一对三” 型,目前大陆的双语 对应语料库大都是一对一型的。鉴于此,我们借 鉴国内外已有的成果,以 “美国 总 统 就 职 演 说 词” 及其汉 语 翻 译 为 基 础,开 发 了 一 个 “一 对 四”型 ( 一个原文对应四个译本) 的英汉双语对 应语料库,以期丰富国内英汉双语语料库的种类 并深化语言对比和翻译的研究。
点击 “切分” 后,部分语料分词、词性标注 如图 2 所示。
图 1 传媒在线语料分词标注系统 ( 加工前)
图 2 传媒在线语料分词标注系统 ( 加工后)
由于语料头部在研究中主要提供参考作用, 因此我们不对该部分进行深加工,在使用该系统 后,删除了头部的分词、标注信息。标注后有部 分乱码,我们也根据纸质本进行了校对。
( 三) 英汉句子对齐 目前最常见的对齐是在段落和句子层次上进 行,对从句、单词、多词表达对齐的研究 ( 如上
海交通大学为研究意义单位而进行的双语短语单 位对齐) 也在进行中。在各级对齐研究中,最为 重要且较为成熟的对齐技术是句子一级的对齐, 有些可以达到自动或半自动。由于项目持续时间 较短、人力有限和技术原因,我们主要在句级对 齐英汉语料。
三、语料的深加工
( 一) 英语语料的词性标注 英语词性标注工具比较多,如 CLAWS POS Tagger,GoTagger、广东外语外贸大学词典编撰中 心的英语词性标注器和北京外国语大学外语教育 研究中心的英语词性标注工具等。我们使用的是 北京外国语大学外语教育研究中心梁茂成二次开 发的 TreeTagger。该工具原由斯图加特大学计算 语言学学院的 Helmut Schmid 开发,是一款通过 词性 ( part-of-speech) 和词原形信息对文本进行 标注的工具,被证明可以成功用于多种语言的标 注,如德语、英语、法语等。经过梁茂成二次开 发,该工具能更好地服务于英语的词性标注。部 分分词标注示例如下:
对外公开或提供的检索数据很有限,而已建成或在建的 “一对多”双语对应语料库并不多见。以美国总统就职 演说词及四个汉语译文为语料开发的 “一对四”型的英汉双语对应语料库,库容为 76 万词 / 字。其对整理后的 语料进行分词、词性标注,也对未分词标注的语料进行了句子对齐,并实现了 “一对四”双语语料的检索。
相关主题