计算机辅助翻译技术概论押题:1、隐马尔科夫模型2、机器翻译的方法3、文本电子化OCR4、双语对齐处理5、汉语切分的方法和关键问题5-20考试——计算机辅助翻译技术考试题型:填空、判断、问答7-8个考查内容:基本概念梳理,理解分析能力,考题思路,课件!1、概论1.1概况为什么要研究翻译技术?何谓翻译技术(translation technology)?能够用来进行语言翻译或辅助进行语言翻译的信息技术。
解决或缓解语言障碍(language barrier)问题,提高翻译从业人员的生产率。
翻译技术的研究始于机器翻译关于机器翻译机器翻译(Machine Translation)定义:利用计算机及其软件把一种语言(自动)翻译成为另外一种语言的技术。
机器翻译研究的目标是研制具有翻译能力的计算机软件系统。
机器翻译的研究始于20世纪40年代末期。
机器翻译结论很困难。
翻译技术的分流机器翻译(MT):机器翻译的主体是机器。
目前比较困难。
(目标是寻找彻底的解决方案)计算机辅助翻译(CAT):计算机辅助翻译的主体是人。
相对比较容易,但却很实用。
计算机辅助翻译立足为翻译人员提供(软件)工具。
协助翻译人员提高效率(生产率)。
名词辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) TranslationMAHT - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT关于翻译技术的理解狭义的理解,翻译技术指计算机辅助翻译技术和机器翻译技术。
广义的理解,翻译技术指的是对翻译人员工作有益的任何信息技术。
文字处理工具(MS Word) (不可或缺)国际互联网及其应用(WWW、Email...)各种电子资源(百科全书光盘...)本课程的定位:主要是狭义的翻译技术。
配合翻译技术的一些通用技术(数据获取技术、文本处理技术)关于本地化何谓本地化(localization)?The term “localization” refers to the proc ess of customizing or adapting a product for a targetlanguage and culture.全球化没有带来其他语言的消亡,带来了本地化。
本地化的特点:量大、时间紧迫、技术(应用)性强simshipAn abbreviation of “simultaneous shipment”, which refers to the practice of releasing multiple language versions of a product at the same time (or at least as close to the same time as is possible).翻译技术概观翻译技术体现为一组翻译工具,是若干软件工具的集合。
翻译工具可以涵盖翻译的不同阶段、面向不同的需要。
资料的收集\原文的理解\术语的处理1.2工具语言材料的电子化工具Data-capture tools使用翻译技术的前提:待翻译的文本需要是电子化的,是计算机可以处理的。
翻译过程中所需要的各种资源需要是电子化的。
何为机器可读(Machine readable)? 文字变成编码形式常见的电子化手段:手工键盘输入(keyboarding)、Scanning + Optical Character Recognition、Voice Recognition文件格式转换工具编码转换工具多语种处理能力语料库分析工具Corpus:a large collection of electronic texts that have been gathered according to specific criteria.Type of corpus:monolingual corpus:orpus which consists of texts in one language.parallel corpus:corpus containing source texts aligned with their translations.语料电子化工具、语料处理工具Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that allow users to generate and manipulate word frequency lists, concordances, and collocations.(频率表、关键词、搭配)Frequency listConcordance (bilingual or monolingual)CollocationCorpus-analysis toolsallow users to have access to frequency data and tosee terms in a variety of contexts simultaneously –features that dictionaries can not easily provide.Keyword in context (KWIC): a method of displayingconcordance lines in which all occurrences of thesearch word are centered on the screen surroundedby the immediate context直观认识语料处理工具汉语切词(segmentation)词性标注(POS tagging)屈折语形态还原(lemmatization)句法分析(parsing)双语对齐(alignment)……既是语料处理工具通常也是机器翻译或机器辅助翻译系统的组成部分术语管理工具翻译中的术语一致性问题:term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identification)Monolingual or BilingualQuality of term extraction翻译记忆工具Translation Memory: a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match Fuzzy match No matchTM tools and localizationTM CreationTM tool是CAT的核心工具机器翻译用作辅助翻译工具Pre-editing + Machine TranslationMachine Translation + Post-editing其他策略Sublanguagecontrolled language集成翻译工具Translator's workbench (workstation):an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management, translation memory, and automatic translation.Workflow management1.3 翻译技术与计算语言学计算语言学是通过建立形式化的计算模型来分析、理解和处理自然语言的学科。
是一门文理交叉的学科。
(源于翻译技术的需求)翻译技术建立在计算语言学的基础之上,翻译技术的突破有待于计算语言学的发展。
自然语言2、P2-翻译技术的数学基础2.1概率统计的基本概念2.1.1随机事件随机事件:在一定条件下,可能发生也可能不发生的事件称为随机事件,简称事件。
一般用大写拉丁字母A,B,C,…表示事件。
随机事件的两个特殊情况必然事件:每次试验都必定发生的事件(W )。
不可能事件:每次试验都一定不发生的事件(F)。
2.1.2频率和概率频率:如果在相同条件下进行了n次重复试验,事件A出现了v次,那么事件A在n次实验中出现的频率为是v/n。
当n无限增大时,频率呈现稳定性。
这一统计规律性表明事件发生的可能性大小是事件本身所固有的、不以人们主观意志而改变的一种客观属性。
概率:概率:事件A发生的可能性大小称为事件的概率,记作P(A)。
当试验的次数n足够大,可以用事件的频率近似地表示该事件的概率,即概率的基本性质条件概率条件概率在事件B发生的条件下,事件A发生的概率称为事件A在事件B已发生的条件下的条件概率,记作P(A|B)。
当P(B)>0时,规定:当P(B)=0时,规定P(A|B)=0。
乘法公式2.1.3独立性和贝叶斯公式若事件A和B,满足条件P(AB)=P(A)P(B)则称事件A和B相互独立。
贝叶斯公式:根据乘法公式,可以得到下面的重要公式2.1.4随机变量随机变量:每次试验的结果可以用一个实值变量X的取值来表示,这个变量称为随机变量。
它是随机现象的数量化。
离散型随机变量如果随机变量X只能取有限个(或可列个)数值x1,x2,…,xn,…,就称X为离散型随机变量。
在语言的统计处理中,一般仅用到离散型随机变量。