浅谈自然语言处理摘要主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。
最后对自然语言处理的未来发展趋势做简单的介绍。
关键词自然语言处理AbstractThe definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced.Key Words:Natural Language Processing(NLP)0.引言早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。
他指出,在未来我们可以“教机器英语并且说英语。
”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。
这便是最早关于自然语言处理概念的设想。
人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。
所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。
1.什么是然语言处理美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。
自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。
”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。
简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。
普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。
互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。
2.自然语言处理的发展历史自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。
●萌芽期(1956年以前)1956年以前,可以看作自然语言处理的基础研究阶段。
一方面,人类文明经过了几千年的发展,积累了大量的数学、语言学和物理学知识。
这些知识不仅是计算机诞生的必要条件,同时也是自然语言处理的理论基础。
另一方面,阿兰·图灵在1936年首次提出了“图灵机”的概念。
“图灵机”作为计算机的理论基础,促使了1946年电子计算机的诞生。
而电子计算机的诞生又为机器翻译和随后的自然语言处理提供了物质基础。
由于来自机器翻译的社会需求,这一时期也进行了许多自然语言处理的基础研究。
1948年Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机。
接着,他又把热力学中“熵”(entropy)的概念引用于语言处理的概率算法中。
上世纪50年代初,Kleene研究了有限自动机和正则表达式。
1956年,Chomsky 又提出了上下文无关语法,并把它运用到自然语言处理中。
他们的工作直接引起了基于规则和基于概率这两种不同的自然语言处理技术的产生。
而这两种不同的自然语言处理方法,又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。
另外,这一时期还取得了一些令人瞩目的研究成果。
比如,1946年Köenig 进行了关于声谱的研究。
1952年Bell实验室语音识别系统的研究。
1956年人工智能的诞生为自然语言处理翻开了新的篇章。
这些研究成果在后来的数十年中逐步与自然语言处理中的其他技术相结合。
这种结合既丰富了自然语言处理的技术手段,同时也拓宽了自然语言处理的社会应用面。
●快速发展期(1957-1970)自然语言处理在这一时期很快融入了人工智能的研究领域中。
由于有基于规则和基于概率这两种不同方法的存在,自然语言处理的研究在这一时期分为了两大阵营。
一个是基于规则方法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。
这一时期,两种方法的研究都取得了长足的发展。
从50年代中期开始到60年代中期,以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究,60年代末又进行了形式逻辑系统的研究。
而随机派学者采用基于贝叶斯方法的统计学研究方法,在这一时期也取得了很大的进步。
但由于在人工智能领域中,这一时期多数学者注重研究推理和逻辑问题,只有少数来自统计学专业和电子专业的学者在研究基于概率的统计方法和神经网络,所以,在这一时期中,基于规则方法的研究势头明显强于基于概率方法的研究势头。
这一时期的重要研究成果包括1959年宾夕法尼亚大学研制成功的TDAP系统,布朗美国英语语料库的建立等。
1967年美国心理学家Neisser提出认知心理学的概念,直接把自然语言处理与人类的认知联系起来了。
●低速的发展期(1971 -1993)随着研究的深入,由于人们看到基于自然语言处理的应用并不能在短时间内得到解决,而一连串的新问题又不断地涌现,于是,许多人对自然语言处理的研究丧失了信心。
从70年代开始,自然语言处理的研究进入了低谷时期。
但尽管如此,一些发达国家的研究人员依旧不依不挠地继续着他们的研究。
由于他们的出色工作,自然语言处理在这一低谷时期同样取得了一些成果。
70年代,基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计方法在语音识别领域获得成功。
80年代初,话语分析(Discourse Analysis)也取得了重大进展。
之后,由于自然语言处理研究者对于过去的研究进行了反思,有限状态模型和经验主义研究方法也开始复苏。
●复苏融合期(1994年至今)90年代中期以后,有两件事从根本上促进了自然语言处理研究的复苏与发展。
一件事是90年代中期以来,计算机的速度和存储量大幅增加,为自然语言处理改善了物质基础,使得语音和语言处理的商品化开发成为可能;另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。
这样,自然语言处理的社会需求更加迫切,自然语言处理的应用面也更加宽广,自然语言处理不再局限于机器翻译、语音控制等早期研究领域了。
3.自然语言处理的研究内容自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。
我们认为,这些部门可以归纳为如下四个大的方向:●语言学方向本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。
这个方向最重要的研究领域是语法形式化理论和数学理论。
●数据处理方向是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。
这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。
●人工智能和认知科学方向在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。
这一方向的研究与人工智能以及认知科学关系密切。
●语言工程方向主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。
4.自然语言处理的应用以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是:(一)口语输入: 语音识别、信号表征(语音信号分析) 、鲁棒的语音识别( Robust Speech Recognition) 、语音识别中的隐马尔可夫模型方法、语言表征理论(语言模型) 、说话人识别、口语理解;(二)书面语输入: 文献格式识别、光学字符识别(印刷体及手写体) 、手写界面(如用笔输入的计算机) 、手写文字分析(如签名验证) ;(三)语言分析和理解: 小于句子单位的处理(形态分析, 形态排歧) 、语法的形式化(如上下文无关语法、词汇功能语法、功能合一语法、中心语驱动的短语结构语法) 、基于约束语法的词表(Lexicons for Constraint2Based Grammars) 、计算语义学、句子建模与剖析技术、鲁棒的剖析技术(Robust Parsing) ;(四)语言生成: 句法生成、深层生成;(五)口语输出技术: 合成语音生成、用于文本—语音合成的文本解释( Text Interp retation forText2to2Speech Synthesis) 、口语生成(从概念到语音) ( Spoken Language Generation: Concep tion toSpeech) ;(六)话语分析与对话: 话语建模(Discourse Modeling) 、对话建模、口语对话系统;(七)文献自动处理: 文献检索、文本解释:信息抽取、本文内容的自动归纳(如自动文摘) 、文本写作和编辑的计算机支持、工业和企业中使用的受限语言( Controlled Languages in Industry andCompany) ;(八)多语问题的计算机处理: 机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证;(九)多模态的计算机处理: 空间和时间的表征方法(从文本中抽取空间和时间的信息) 、文本与图像处理、口语与手势的模态结合(使用数据手套) 、口语与面部信息的模态结合: 面部运动与语音识别、口语与面部信息的模态结合: 面部运动与语音合成;(十)信息传输与信息存储: 语音编码(语音压缩) 、语音品质提升;(十一)自然语言处理中的数学方法: 统计建模与分类的数学理论、DSP (数字信号处理) 技术、剖析算法的数学基础研究、连接主义的技术(如神经网络) 、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术;(十二)语言资源: 书面语料库、口语语料库、机器词典与词网的建设、术语编纂与术语数据库、网络数据挖掘与信息提取;(十三) 自然语言处理系统的评测: 面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、人的因素与用户的可接受性、语音识别: 评估与评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测。