当前位置:文档之家› 语料库的创建与应用

语料库的创建与应用

WORD
PDF 纸质版 其他格式
5)语料库的制作
语料的降噪处理:
公式、表格、图片 “纯”文本
5)语料库的制作
对齐工具:
WinAlign ParaConc Abbyy Aligner 等等 自行开发TMX-ParaConV
5)语料库的制作
保存格式:
例如TMX,TXT 目的在于多用途
5)语料库的制作
TM库的制作:
1)Word格式(WinAlign,Abbyy Aligner) 2)Xliff格式(新建记忆库、更新记忆库等) 3)Excel格式(2007版或之前版本,2009版或之后版本)——TM X Editor
5)语料库的制作
5)语料库的制作
制作语料库的有效方式:
ABBYY Aligner + 自编软件 + ParaConc等
④按专题模块汇集语料,使语料文本具有同质 性;
⑤选用具有代表性的语料文本;
⑥所选用的每一篇语料文本都是一个完整的单 元。
2)语料选取原则与操作标 准
例如:英汉医学平行语料库
以图书、论文、报告为主, 专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临 床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽 喉科学、口腔医学、皮肤病学、神经病学、精神病学、感染病学等。
6)数据挖掘
Article 14 Anti-Dumping Action on Behalf of a Third Country 第14条 代表第三国的反倾销诉讼( action=law suit)
He was awarded $500 damages for injury he suffered in the a ccident.(award非“奖励”,是“法定裁定”)(damage非 “损坏”,是“赔偿金”)
The mortality rate of patients with no change in their antibioti c management抗生素治疗未改变的患者死亡率
6)数据挖掘
The legal status of the waters beyond the territorial seas of St ates bordering straits as exclusive economic zones or high s eas海峡沿岸国领海以外的水域作为专属经济区或公海的法律地位
in high sea states can lead to low-cycle fatigue in the pipe在 狂浪海况下可导致管道产生低周期的疲劳应力
7)翻译教学
一、自主学习:
工具:WordSmith,ParaConc,Trados记忆库 语料库:英汉双向法律平行语料库
7)翻译教学
1)语料库类型
平行语料库:源语文本+目的语文本
双语平行语料库:英语+汉语或德语+汉语 多语平行语料库:两种以上语言 双向平行语料库:英汉+汉英 单向平行语料库:英汉或汉英
1)语料库类型
可比语料库:语料具有可比性
单语可比语料库:翻译文本+原创文本(政府工作报告英文版+美 国国情咨文) 双语可比语料库:无翻译关系的双语文本(德国有限责任公司法和 中华人民共和国公司法——术语) 语料可比性
3)语料库规模
北外汉英对应语料库:3000万字词
中国法律法规汉英平行语料库:2200万字词 莎士比亚戏剧英汉平行语料库:600万字词 英汉医学平行语料库:1000万字词 英汉科普平行语料库(郭鸿杰):1000万字词 中国英汉平行语料库(王克非):1亿字词
3)语料库规模
应用于翻译实践的语料库规模究竟要多大?
8)翻译研究
翻译实践研究
9)语料的版权
用于研究的语料
例如,香港城市大学 用于公开发布的语料 公司语料
10)语料的质量
出版级别语料
机器翻译语料 网络爬虫语料
10)语料的质量
好翻译的定义:
译文完全转化了原文的含义、表述简洁、易于理解, 符合译文所属特定领域的要求以及语言文化方面的习惯表述要求, 同时资深译员在译文校订以及专业审读在译文审读时都认为译文已 无需任何修改。
4)语料句对齐标准
学术研究
翻译实践
句子单位
4)语料句对齐标准
英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一 对多或多对一等情况的存在。
一般以句号、分号、问号等为分句标记,但总有例外情形存在。这 里最为重要的是,必须考虑到英文在句法逻辑上是一个完整的单元, 中文语句与之相应匹配。
5)语料库的制作
二、翻译质量控制
1.72 术语确认和检索 搭配检索
7)翻译教学
三、译文文笔
翻译能力 法律 = 医学 = 海洋工程 适应面 语料库库容
8)翻译研究
语料库翻译学定义(胡开宝,2011):
以语料库为基础, 以真实的双语语料和翻译语料为研究对象, 以数据统计和理论分析为研究方法, 依据语言学、文学和文化理论及翻译学理论,
6)数据挖掘
Liver function tests gave normal results.肝功能检验均无异常发 现。
normal saline生理盐水
6)数据挖掘
Disease management is an approach to coordinate resources across the health care.疾病管理是一种协调医疗卫生系统资源的 手段。
1)语料库类型
翻译语料库:翻译文本
口语语料库:标注?(蒙特雷)
2)语料选取原则与操作标 准
代表性或影响力原则
可及性原则 时间原则(胡开宝,2011:45-46)
质量原则 专Biblioteka 分类原则2)语料选取原则与操作标 准
①原文与译文呈一一对应关系;
②原文应具备一定的文笔表现力; ③译文应符合所在国的阅读习惯和表述要求, 同样具备一定的文笔表现力,而且该译文是经 过认可的;
翻译能力 + 语料库 = 乐趣和享受
谢谢大家!
11)语料库与翻译创造力
Kirsten Malmkjæ r 《语料库与译者培养》外研社2007
11)语料库与翻译创造力
语料库的使用关键在译者
语料库质量水平 翻译项目委托的各种苛刻要求 根据不同的文体来对待翻译实践 译创(transcreation)
12)语料库的应用
Collins出版社
语料库证据在美国的法庭应用 JDEST学术英语语料库 航天局 学生自学习 “海洋工程图书系列”翻译 等等
语料库的创建与应用
管新潮
上海交通大学外国语学院
2016-11-23
•1)语料库类型 •2)语料选取原则与操作标准 •3)语料库规模 •4)语料句对齐标准 •5)语料库的制作 •6)数据挖掘 •7)翻译教学 •8)翻译研究 •9)语料的版权 •10)语料的质量 •11)语料库与翻译创造力 •12)语料库的应用
系统分析翻译本质、翻译过程和翻译现象等内 容的研究
8)翻译研究
翻译共性:普遍性特征
译者风格:译者在语言应用上所表现出的特体特征 翻译规范:译者在选择翻译策略时应遵循的规范
8)翻译研究
例如,显化与隐化
显化是翻译文本将源。语文本中隐含的信息或表述不清晰的信息以 明确的表述表达出来,以方便读者理解。 隐化是指源语文本中以词汇手段明示的意义或信息在目的语文本中 隐含于具体语境中。 形式化程度高的语言翻译成形式化程度较低的语言时,隐化趋势递 增。
3)语料库规模
BNC(Britisch National Corpus):超1亿词
COCA(Corpus of Contemporary American English):4.5亿 词 DWDS( Das Digitale Wörterbuch der deutschen Sprache ): 25亿词
6)数据挖掘
使用英文或汉语(须经切分)单语导入WordSmith或AntConc进 行词频排序
进入双语界面进行检索查询:ParaConc或Trados记忆库界面
6)数据挖掘
6)数据挖掘
专业通用词(General Words for Specific Purposes)
法律(action, award, damage) 医学(normal , management) 海洋工程(high, sea)
相关主题