计算机辅助翻译概述
尽可能大而全的语料、尽可能好而快的算法.
狭义与广义翻译技术
翻译技术体现为一组翻译工具,是若干软件工具的集合。
计算机辅助翻译(CAT)关注的是“如何应用计 算机软件,最大限度地实现翻译流程的自动化, 提高人工翻译的效率,保证人工翻译的质量,并 能够管理翻译流程”
• CAT,范围较广,凡是有助于翻译的IT工具
C计om算pu机ter 辅Aid助ed 翻Tra译nslation
为什么要学习翻译技术
工欲善其事,必先利其器。
《论语·卫灵公》
生产君工具子的生重非要异意义也,善假于物也。
荀子《劝学篇》 生产工具是生产力的主要标志,生产工具在生产力的发展中起着决定
性的作用,生产力的质的飞跃是以生产工具的重大变革为先导的。 ——社会发展简史
MT:发展历程
1933-1954, 初创阶段
1949年,Warren Weaver提倡MT研究 ■ 翻译的过程可用解密过程(decoding)来类比
1954-1966,发展阶段
Georgetown+IBM 第一个俄英翻译实验
1966-1976低潮(难以跨越的 “语义障 碍”(semantic barrier),机器翻译很困难,这个结论
90年代,平台. 难以提高, 新方法出现1999. 统计MT突破 机器翻译方法的多样化
机器翻译的理论基础或类型: Rule/Statistics
Whenever I fire a linguist, our
system performance improves
Ston19e8s8oup
Some of my Best Friends are Linguists.
几个术语
HT – Human Translation CAT – Computer-aided Translation MT – Machine Translation
IT:自动化程度划分
人机结合,各得其 所
参见短片:认识不同的翻译软Hut件chins & Somers, 1992 什么是CAT
为什么要学习翻译技术
身处信息时代,任何职业都离不开计算机技术,翻译行业 当然也不例外。(参见短片:MIIS计算机辅助翻译课程介 绍) 掌握翻译技术,可能对求职是一个优势。全球化带来了前
所未有的翻译需求(非文学文本占到了翻译总量的 95%(李长栓, 2004) ,如本地化的特点:量大、时间
紧迫。传统的翻译手段难以满足需要。
ba介n词k.
The fish was bought by the cook/river.
连词and 问题
It is necessary to study the history and grammar of
Chinese language.
参见刘涌泉 1997
机器翻译的基本类型
Give m理e性en主o义ug的h p规ar则al-le智l d能a法ta, and you can have tra直ns接la转tio换n stryasntesfmerfor an词y典t+w规o则 languag中es间in语a言minatteterlrinogfuhaours.
2004
Frederick Jelinek
Yorick Wilks
Julian Sinclair Smith ProPfreosfseosrs,or of Artificial Intelligece
Department of ElectricaDl eapnadrtCmomenptuotferCEonmgpinueteerriSncgience
关于CAT
全自动高质量翻译FAHQT不行,CAT呢 计算机辅助翻译的主体是谁?计算机辅助
翻译的主体是人。相对比较容易,很实用。
人机结合,各得其所
机器储存、记忆能力 人工智能
核心:翻译记忆(相似性的评判标准)
适用于规范、重复性高的文本.
Eg. Office 2003 Office 2007 Documents
Johns Hopkins UniversiUtyniversity of Sheffield
MT是语言学问题
词序
I have enjoyed hearing about your experience in Africa.
多义词
spririt
I saw a girl with a telescope in the
建立基于类比思想的机器翻译
基于实例的机器翻译
基本思想
■ 主要知识库是双语对照的 实例库
■ 当需要翻译一个新句 子时 ,通过检索的办法在实例库中 寻找和该句类似的翻译实例。 ■ 新句子的翻译可通过模拟 最类似的实例的译文的方式获 得。
基于实例的机器翻译
EBMT的优点 ■ 系统维护容易 * 系统中知识以翻译实例和义类词典等形式存在,可 以很容 易的利用增加实例和词汇的方式扩充系统。 ■ 容易产生高质量的译文 * 尤其是利用了较大的翻译实例或和实例精确匹配时 更是如 此。 ■ 可避免进行深层次的语言学分析
Franz经Jo验s主ep义h O的c语h 料统计法
统计机器翻译 statistical
MT
语料+统计
Stoneso基u于p 实例的“统机计器+翻规译则Ex”ample-based MT
英汉机器翻译测试大纲 (俞士汶)
基于实例的机器翻译
Example Based Machine Translation(EBMT) 1984年由日本著名机器翻译专家长 尾真提出 背景 ■ 建立在转换基础上的机器翻译系统,在差异较大语言对间进行互译时,效 果不好 ■ 人在翻译时不做深层次语言学分析 ■ 人在学外语的时候,首先要作大量的对照记忆,在遇到新的句子时,会和 记忆中的句子类比
来之不易)
ALPAC(自动语言处理顾问委员会,Automatic Language
机器翻译研究的发展历程
70年代,机器翻译研究开始复苏 ■TAUM-METEO系统获得成功 ■欧共体启用SYSTRAN系统 ■ 人工智能、知识工程进展的影响。
80年代,机器翻译研究呈繁荣局面,系统产品出现 ■ 日本实施五国合作的ODA计划 ■欧盟实施Eurotra计划 ■ 多个公司推出了MT产品 ■ 机器翻译方法的进展
• 上传下载: Email /FTP/ PortalSpell checker • 虚拟系统:登陆客户方系统GD翻ricatmi译omnaarrychecker
– 杀毒防毒: kaspersky, 360;
• 网络收藏夹:资源分类和整搜Fu理索ll-t工ex具t search (google)
•
即时交流: MSN, Skype、QQ电子词典
基于实例的机器翻译
EBMT的关键问题
■ 大规模的双语语料库 ■ 双语对齐问题
* 语篇、句子、短语和词汇等各种级别
■ 建立合理的相似度准则 ■ 高效的实例检索机制 ■ 译文生成
翻译记忆技术和基于模板的翻译技术
基于统计的机器翻译
Statistic-Based Machine Translation(SBMT) 50年代初曾有提及,遭到以Chomsky为代表的语言学家的反对 90年代初,统计翻译技术复苏 ■ 统计技术在语音识别领域获得成功 ■ 目前计算机性能已能胜任密集型计算 ■ 目前也有大量联机双语电子文本
MT:发展历程
参见 冯志伟《机器翻译研究》2004.中国对外翻 译出版公司
制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 MT早于计算机(1629,笛卡尔)
机器翻译的研究始于上世纪四十年代。
机器翻译(Machine Translation):利用计算机及其软件把一 种语言(自动)翻译成为另外一种语言的技术。
计划控制项目进度和质量
我们的教学与现实的差距 ?
1.信息技术支持 2.协同翻译模式 3.标准项目管理 4.市场需求导向
文本处理、机器翻译、翻译记忆 、术语库、语料库、百科全书、 在线词典、搜索引擎、专业资料 等协同翻译、角色分工、资源共享
角色分工、行业标准
关注市场需求、实用文体、专 业翻译
正确使用翻译技术能有效提高你的工作效率,为你带来效 益。
现代语言服务人才素质需求
新一代语言服务人才素养要求
• 过硬的英中文表达、转换能力 • 信息技术基础知识 • 熟练利用多种网络检索技术来获取信息和
知识 • 熟练掌握各类辅助翻译/电子工具 • 熟练基本的翻译规则和流程 • 知识广博,并且精通某一行业领域的知识 • 能够承受工作压力,按照客户要求及项目
Concordancer(语料 Nhomakorabea)– 系统管理: 分割、压缩(WinZip、BitWexitnsRar)
• 文档分类管理
• 多媒体工具:Open Subtitle Translator
• 辅助写作工具: Arbortext
• 排版工具:处理不同格式
• 资料备份与同步:
不能完全指望机器翻译
词典
新造词是否有对应译法? 不折腾
词库广泛性:收录够不够
嫁给我/娶我
词条描写性:框架合适不合适 Will you marry me
词典适应性:加载不同属性词典 mouse
规则
规则广度与精度
规则冲突的解决
数据
是否有足够多的语料
是否有较好的算法