哈尔滨工业大学毕业设计(论文)摘要世界上许多国家长期以来都一直在从事对机器翻译的研究,但目前机器翻译的结果很难达到人们满意的程度。
同时,基于双语语料库的句子检索系统由于语料库规模较小而受到很大限制。
在这一背景下,我们设计并实现了基于大规模英语语料库的英文句子检索系统(CESRS)。
它响应用户输入的汉语句子或短语,依次经过汉语分词转换,句子检索,相似度计算和分类排序等处理模块将与输入相匹配的英文句子返回给用户,为用户提供参考。
本文在对系统进行分析之后,对系统中各模块实现时所用的算法及数据结构进行了简要的介绍。
例如,分词模块所采用的改进最大匹配算法,句子检索模块中索引所采用的倒排表结构。
另外,本文采用基于词的计算相似度的方法,并着重介绍了词语距离的概念,编辑距离的概念以及如何引入编辑距离计算句子相似度。
在此基础上,详细介绍了动态规划算法的思想以及动态规划算法在本系统中的应用。
同时,还根据分类排序模块中数据结构的转换过程,详细地介绍了此模块所用算法的设计过程及算法执行流程。
最后,描述了对系统进行测试的方法及结果,并指出了系统的不足之处和可能的改进措施。
关键词大规模英语语料库句子检索相似度编辑距离动态规划分类排序;- -I哈尔滨工业大学毕业设计(论文)- -II AbstractMany countries in the world have been studying with Machine Translation for a long time. But the current efficiency of MT is difficult to cater to people’s need. At the same time, The Sentence Retrieval System, based on bilingual corpus, is restricted greatly because of the small size of this kind of corpus. So, we make a Chinese to English Sentence Retrieval System (CESRS) which is based on large comparable corpus. After the segment and translation module, the sentence retrieval module, the similarity measuring module and the sorting module, the system will find in corpus sentences which are the most similar to the client’s input, and provides reference to clients.After giving an analysis to CESRS, the article sketches the algorithm and the data structure which will be used in the system. Such as, the maximum matching algorithm used in segment module. The other example is the inverted data structure. In addition, the article adopts a method which is based on words to measure the similarity between two sentences. It illustrates the concept of the word distance in detail, also the concept of edit distance and how to use edit distance to measure the similarity between sentences.The article also introduces the spirit of Dynamic Programming and how to use this algorithm to measure similarity between sentences. Meanwhile, it gets use of the transparent of the data structure of the sorting module to illustrate what algorithm has been used to fulfill this module.At last, it tells a method to evaluate the system and points out some faults of the system and some means to do with these faults.Key words very large English comparable corpus, sentence retrieval,similarity, edit distance, dynamic programming, sorting ;哈尔滨工业大学毕业设计(论文)- -III 目 录摘 要...................................................................................................................I Abstract (II)第1章 绪 论 (1)1.1 课题背景 (1)1.2 机器翻译的发展和应用 (2)1.2.1 机器翻译的发展 (2)1.2.2 机器翻译的应用 (2)1.3 课题意义 (3)1.4 本章小结 (4)第2章 系统分析 (5)2.1 系统的整体描述 (5)2.2 系统的信息描述 (6)2.2.1 PAD 图元素的提取 (6)2.2.2 PAD 图的绘制 (7)2.3 系统的性能要求 (8)2.4 系统的相关研究 (8)2.4.1 语料库的建立 (8)2.4.2 句子切分方法的研究 (9)2.4.3 语料库索引表的建立 (9)2.4.4 句子相似度研究 (10)2.4.5 分类排序设计和界面设计 (10)2.5 本章小结 (10)第3章 句子相似度的研究 (11)3.1 问题的提出 (11)3.2 计算句子相似度的方法 (11)3.2.1 词语的距离 (12)3.2.2 词语的相关性 (12)3.2.3 词语相似度的计算 (13)3.3 引入编辑距离计算句子相似度 (13)3.3.1 编辑距离 (13)哈尔滨工业大学毕业设计(论文)- -IV 3.3.2 编辑距离的计算方法 (14)3.3.3 改进编辑距离算法 (15)3.4 动态规划算法在句子相似度计算中的应用 (16)3.4.1 动态规划算法 (16)3.4.2 用编辑距离计算句子相似度时动态规划算法的应用 (17)3.5 本章小结 (18)第4章 分类排序和界面的设计 (19)4.1 问题的提出 (19)4.2 分类排序的设计 (20)4.2.1 功能描述 (20)4.2.2 数据结构的描述 (20)4.2.3 程序流程的设计 (23)4.3 界面的设计 (24)4.4 本章小结 (27)第5章 系统测试与评价 (28)5.1 系统测试与数据统计 (28)5.2 系统性能分析 (29)5.3 系统的改进方案 (29)5.4 本章小结 (30)结 论 (31)致 谢 (32)参考文献 (33)附 录 (34)翻译外文资料 (37)哈尔滨工业大学毕业设计(论文)第1章绪论1.1课题背景自然语言处理是早期人工智能研究极其活跃的一个领域。
从电子计算机问世,人们就开始尝试利用计算机把一种语言翻译成另一种语言,但是由于当时主要采用逐词翻译的简单技术,仅仅利用了语言中的语法信息,因而无法达到满意的效果。
自然语言最显著的一个特点是它的歧义性,人在阅读或会话时可以根据上下文进行判断,但是计算机孤立地分析一句话是很难做出判断的。
语言信息包括语法信息、语义信息和语用信息三个层次,与此相对应,自然语言处理理论的研究也分别在这三个层次上展开。
但是由于自然语言固有的复杂性,迄今为止,自然语言处理仍然还只停留在语法信息的处理层次上。
从自然语言处理的发展史来看,无论是早期的机器翻译系统,还是后来的各种自然语言理解模型,其技术主流都是句法-语义分析,普遍依据的是人工智能中的知识表示理论和推理方法。
这就决定了在很长一段时间内,自然语言理解模型是基于规则的,而在串行的计算机上,建造一个包含大量语法规则、复杂推理机制以及庞大的知识库的自然语言处理系统,几乎是不可能的。
因此,多年来基于规则的自然语言处理系统,只能在非常有限的自然语言领域中获得一定程度成功。
在这种情况下,自然语言处理领域的两个新的分支在80年代中后期,逐步形成并迅速发展起来,这就是语料库语言学(Corpus Linguistics)和神经网络自然语言处理机制。
所谓语料库就是含有自然语言各种语言事实和规律的大规模真实文本。
语料库语言学研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法-语义分析,以及具有上述功能的语料库在语言定量分析、词典编撰、作品风格分析、自然语言理解和机器翻译等领域中的应用。
语料库方法有两个特点,一是依赖于语言结构的统计特征而不是完全依赖于逻辑规则,二是其处理对象是非受限领域的语言。
这一处理方法,已成为当前自然语言领域的一个非常热门的研究方向。
本文主要介绍基于语料库语言学处理机制的中英文跨语言句子检索系统的研究与实现。
- -1哈尔滨工业大学毕业设计(论文)1.2 机器翻译的发展和应用1.2.1 机器翻译的发展世界上许多国家长期以来都一直在从事机器翻译的研究。
事实上自本世纪40年代电子计算机诞生之日起就开始了将计算机应用于语言翻译的探索。
我国机器翻译的研究可以追溯到50年代中期。
半个世纪以来,世界范围和我国的机译研究都曾走过一段曲折的道路,都有过60年代中期以后约10年的停滞或沉寂。
直到70年代中期机器翻译才开始在世界范围内复苏并日趋走向兴旺。
日本却是极少数未受世界范围的停滞影响的国家。
80年代初日本几乎所有的大计算机公司都进行机器翻译系统的研究和开发,如富士通、日立、日本电气、东芝、夏普等。