第七章自然语言处理习题参考解答7.1练习题7.1什么是自然语言?自然语言是由哪些构成的?7.2什么是自然语言理解?自然语言理解过程有哪些层次,各层次的功能如何?7.3 自然语言理解和自然语言自动生成的关系是什么?研究这两者时有什么共同点.7.4自然语言理解的发展分几个阶段?各阶段的研究重点是什么?7.5语言学家乔姆斯基的论文《语言描述的三个模型》的意义如何?7.6句法分析的目的是什么? 基于规则的句法分析理论和方法主要有哪些?7.7什么是乔姆斯基语法体系?它包含几个语法?各型语法之间有何不同?它们与短语结构语法的关系如何?7.8自动句法分析的常用算法有哪些?自顶向下分析算法的思想是什么?7.9下面是一个符合短语结构语法定义的受限英语子集的语法P: S→NP VP (a)NP→the NP1 (b)NP→NP1 (c)NP1→ADJS N (d)ADJS→Ф|ADJ ADJS (e)VP→V (f)VP→V NP (g)N→boy | Johnson | blackball (h)ADJ→little|dig (i)V→play|run (j)其中,大写的是非终结符,而小写的是终结符,Ф表示空字符串。
请依据该语法对句子the boy plays the blackball进行自顶向下的句法分析,并建立相应的句法分析树。
7.10写出下列乔姆斯基2型语法(上下文无关语法)所对应的递归转移网络:S→NP VPNP→Adjective NounNP→Determiner Noun PPNP→Determiner NounVP→Verb Adverb NPVP→VerbVP→Verb AdverbVP→Verb PPPP→Preposition NP7.11设有下列语法:G=(Vt,Vn,P,S)Vn={S, NP, VP, Det, N, V, Prep, PP}Vt={the, boy, dog, hits}S=SP: S→NP VP (a)NP→Det N (b)VP→V NP (c)VP→VP PP (d)PP→Prep NP (e)Det→the (f)N→boy | dog (g)V→hits (h)利用自底向上的分析算法对句子“the boy hits the dog”进行分析,并写出它的分析推导过程。
7.12语义分析的目的是什么?什么是语义文法?它对语义分析的作用如何?7.13建立语料库的意义是什么?一般对汉语语料库要做哪些基本的加工处理?7.14 汉语自动分词的方法有哪些?其难点何在?7.15 自动词性标注的意义何在?有什么难点?一般采用什么方法实现词性标注?7.2习题参考解答7.1答:(略)7.2答: 自然语言理解就是研究如何让计算机理解人类自然语言的一个研究领域。
从宏观上看,自然语言理解就是指使计算机能够执行人类所期望的某些语言功能,包括理解并回答人们用自然语言提出的有关问题;生成文本摘要和对文本进行释义;把一种自然语言表示的信息自动地翻译为另一种自然语言等等。
从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。
自然语言理解过程有3个层次:词法分析、句法分析和语义分析。
词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的。
句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。
语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。
7.3 答: (略)7.4答: (略)7.5答:(略)7.6答:句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。
基于规则的句法分析理论和方法主要有短语结构语法、乔姆斯基语法、语言串分析法、递归转移网络和扩充转移网络、范畴语法、依存语法和配价语法、管辖和约束理论、词汇功能语法、功能合一语法、蒙太格语法、广义短语结构语法等等。
其中短语结构语法是各种理论和方法的基础。
7.7答: 乔姆斯基语法体系是一组受限的短语结构语法。
它包含四种语法:0型语法、1型语法、2型语法和3型语法。
这四种语法的区别就是所受的约束不同,型号越高,所受到的约束就越多,其生成语言的能力就越弱,因而生成的语言集就越小,也更易于对其生成的语言进行计算机自动分析。
0型语法就是一种无约束的短语结构语法。
1型语法、2型语法和3型语法都是一种受约束的短语结构语法,而且3型语法受的约束最强。
有关详细的约束条件可参阅前面的内容简介。
7.8答:基于短语结构语法的自动分析算法主要有自顶向下回溯算法、自底向上并行算法、富田算法、左角分析算法和CYK算法等等。
自顶向下分析算法的思想就是从起始符开始向着被分析的句子进行推导,推导过程的语法树建立从根节点开始,自上而下进行。
每次推导只选择一种路径进行尝试,并保留其它可选择的路径,当推导失败时,进行回溯,尝试另一种推导路径。
7.9解:下面采用自顶向下回溯算法是对句子“the boy plays the blackball”进行分析。
搜索步骤搜索对象所使用的规则输入句子中遗留部分(1) S (a) the boy plays the blackball(2) NP VP (b) the boy plays the blackball(3) the NP1 VP the boy plays the blackball(4) NP1 VP (d) boy plays the blackball(5) ADJS N VP (e) boy plays the blackball(6) ФN VP boy plays the blackball(7) N VP (h) boy plays the blackball(8) boy VP boy plays the blackball(9) VP (f) plays the blackball(10) V (j) plays the blackball(11) play plays the blackball(12) the blackball这时,句子中还有遗留部分,但搜索对象中却已变空,分析过程已无法继续,只得回溯。
回溯到第(9)步,看看是否还能利用别的规则进行分析。
(9′) VP (g) plays the blackball(13) V NP (j) plays the blackball(14) play NP plays the blackball(15) NP (b) the blackball(16) the NP1 the blackball(17) NP1 (d) blackball(18) ADJS N (e) blackball(19) ФN blackball(20) N (h) blackball(21) blackball blackball(22) NIL NIL在应用规则(h)、(i)和(j)对搜索对象进行替换时,由于规则的右边有多个单词可供选择,这时,可根据句子遗留部分的第一个单词确定。
和此分析推导过程相对应的句子“the boy plays the blackball”的句法分析树如图7.6所示。
图7.6 “the boy plays the blackball ”的句法分析树7.10解:该文法的递归转移网络如图7.7:图7.7 题7.10的递归转移网络7.11解:采用移进-归约算法对句子“the boy hits the dog”进行自底向上分析的过程如下:步骤栈操作输入句子中的遗留部分(1) the boy hits the dog(2) the 移进boy hits the dog(3) Det 用规则(f)归约boy hits the dog(4) Det boy 移进hits the dog(5) Det N 用规则(g)归约hits the dog(6) NP 用规则(b)归约hits the dog(7) NP hits 移进the dog(8) NP V 用规则(h)归约the dog(9) NP V the 移进dog(10) NP V Det 用规则(f)归约dog(11) NP V Det dog 移进(12) NP V Det N 用规则(g)归约(13) NP V NP 用规则(b)归约(14) NP VP 用规则(c)归约(15) S 用规则(a)归约这时,输入句子串已空,且栈中只剩下起始符S,该句子被接受,分析成功。
其句法分析树如图7.8:图7.8 “the boy hits the dog ”的句法分析树7.12答:语义分析的目的就是通过对句子和词的分析,找出词义、句子的结构意义及其结合意义,从而确定语言所表达的真正含义或概念。
所谓语义文法,是在传统的短语结构语法的基础上将N(名词)、V(动词)等语法类别的概念,用某种专门的语义类别来代替。
也就是说,可以将语义文法表示成类似短语结构语法的四元组,也有终结符集合、非终结符结合和语义规则。
在有了这种表示形式的语义文法之后,就可以使用和分析短语结构语法相类似的方法来对语义进行分析。
例如,可以使用类似于句法分析的自顶向下和自底向上的分析方法对语义进行分析。
7.13答:传统的句法-语义分析技术,所采取的主要研究方法是基于规则的方法,也就是说,将理解自然语言所需的各种知识用规则的形式加以表达,然后再进行分析推理达到理解的程度。
但由于自然语言理解的复杂性,各种知识的“数量”浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识。
理解自然语言所需的各种知识恰恰蕴涵在大量的真实文本当中,20世纪80年代后期,自然语言理解的研究进入了一个新纪元,其重要标志就是,在基于规则的技术中引入语料库的方法,通过对语料库中大量真实文本的分析处理,从中获取理解自然语言所需的各种知识,从而实现以知识为基础的智能型自然语言理解系统。
这种建立在大规模语料库基础上的研究方法将自然语言处理的研究推向一个崭新的阶段。
由于书面汉语不同于英语、法语、德语等印欧语言,词与词之间没有空格。
汉语自然语言处理的难度显然要大于英语,因为词是进行自然语言理解的基本单位,所以必须要对汉语语料库进行基本的加工,这些基本的加工包括:分词、词性标注、词义标注(或概念标注)等。
7.14 答:汉语自动分词的方法主要有基于词典的机械匹配分词法、无词典分词法、基于专家系统和人工神经网络的分词法等。