《编译原理》教案授课类型(请打√):理论课讨论课□实验课□练习课□其他□教学方式(请打√):讲授讨论□示教□指导其他□教学资源(请打√):多媒体模型□实物□挂图□音像□其他□教学内容0 课程学习的要求及任务,学习方法介绍,成绩考核标准。
第一章引论1.1 什么叫编译程序?通常所说的翻译程序是指这样的一个程序,它能够把某一种语言程序(称为源语言程序)转换成另一种语言程序(称为目标语言程序),而后者与前者在逻辑上是等价的。
如果源语言是诸如FORTRAN、Pascal、C、Ada、Smalltalk或Java这样的“高级语言”,而目标语言是诸如汇编语言或机器语言之类的“低级语言”,这样的一个翻译程序就称为编译程序。
高级语言程序除了像上面所说的先编译后执行外,有时也可“解释”执行。
一个源语言的解释程序是这样的程序,它以该语言写的源程序作为输入,但不产生目标程序,而是边解释边执行源程序本身。
本书将不对解释程序作专门的讨论。
实际上,许多编译程序的构造与实现技术同样适用于解释程序。
根据不同的用途和侧重,编译程序还可进一步分类。
专门用于帮助程序开发和调试的编译程序称为诊断编译程序(Diagnostic Compiler),着重于提高目标代码效率的编译程序叫优化编译程序(Optimizing Compiler)。
现在很多编译程序同时提供了调试、优化等多种功能,用户可以通过“开关”进行选择。
运行编译程序的计算机称宿主机,运行编译程序所产生目标代码的计算机称目标机。
如果一个编译程序产生不同于其宿主机的机器代码,则称它为交叉编译程序(CrOSS Compiler)。
如果不需重写编译程序中与机器无关的部分就能改变目标机,则称该编译程序为可变目标编译程序(Retargetable Compiler)。
1.2 编译过程概述编译程序过程: 从输入源程序开始到输出目标程序为止的整个编译过程可分为以下五个阶段:词法分析,语法分析,语义分析,中间代码产生,优化和目标代码生成.1.3 编译程序的结构编译程序的结构可以按照从输入源程序开始到输出目标程序为止的整个编译过程可分为以下五个阶段:词法分析,语法分析,语义分析,中间代码产生,优化和目标代码生成。
1.3.1 编译程序总框编译程序的结构可以按照这五个阶段的任务分模块进行设计。
下图给出了编译程序的总框。
1.3.2 表格与表格管理编译程序在工作过程中需要保持一系列的表格,以登记源程序的各类信息和编译各阶段的进展状况。
在编译程序使用的表格中,最合理的是符号表。
编译程序在工作过程中需要保持一系列的表格,以登记源程序的各类信息和编译各阶段的进展状况。
合理地设计和使用表格是编译程序构造的一个重要问题。
在编译程序使用的表格中,最重要的是符号表。
它用来登记源程序中出现的每个名字以及名字的各种属性。
例如,一个名字是常量名、变量名,还是过程名等等;如果是变量名,它的类型是什么、所占内存是多大、地址是什么等等。
通常,编译程序在处理到名字的定义性出现时,要把名字的各种属性填人到符号表中;当处理到名字的使用性出现时,要对名字的属性进行查证。
当扫描器识别出一个名字(标识符)后,它把该名字填人到符号表中。
但这时不能完全确定名字的属性,它的各种属性要在后续的各阶段才能填人。
例如,名字的类型等要在语义分析时才能确定,而名字的地址可能要到目标代码生成才能确定。
由此可见,编译各阶段都涉及到构造、查找或更新有关的表格。
1.3.3 出错处理遍:是对源程序或源程序的中间结果从头到尾扫描一次,并作有关的加工处理,生产新的中间结果或目标程序。
一个编译程序不仅应能对书写正确的程序进行翻译,而且应能对出现在源程序中的错误进行处理。
如果源程序有错误,编译程序应设法发现错误,把有关错误信息报告给用户。
这部分工作是由专门的一组程序(叫做出错处理程序)完成的。
一个好的编译程序应能最大限度地发现源程序中的各种错误,准确地指出错误的性质和发生错误的地点,并且能将错误所造成的影响限制在尽可能小的范围内,使得源程序的其余部分能继续被编译下去,以便进一步发现其它可能的错误。
如果不仅能够发现错误,而且还能自动校正错、误,那当然就更好了。
但是,自动校正错误的代价是非常高的。
编译过程的每一阶段都可能检测出错误,其中,绝大多数错误可以在编译的前三阶段检测出来。
源程序中的错误通常分为语法错误和语义错误两大类。
语法错误是指源程序中不符合语法(或词法)规则的错误,它们可在词法分析或语法分析时检测出来。
例如,词法分析阶段能够检测出“非法字符”之类的错误;语法分析阶段能够检测出诸如“括号不匹配”、“缺少;”之类的错误。
语义错误是指源程序中不符合语义规则的错误,这些错误一般在语义分析时检测出来,有的语义错误要在运行时才能检测出来。
语义错误通常包括:说明错误、作用域错误、类型不一致等等。
1.3.4 遍遍:是对源程序或源程序的中间结果从头到尾扫描一次,并作有关的加工处理,生产新的中间结果或目标程序。
通常,每遍的工作由从外存上获得的前一遍的中间结果开始(对于第一遍而言,从外存上获得源程序),完成它所含的有关工作之后,再把结果记录于外存。
既可以将几个不同阶段合为一遍,也可以把一个阶段的工作分为若干遍。
例如,词法分析这一阶段可以单独作为一遍,但更多的时候是把它与语法分析合并为一遍;为了便于处理,语法分析和语义分析与中间代码产生又常常合为一遍。
在优化要求很高时,往往还可把优化阶段分为若干遍来实现。
当一遍中包含若干阶段时,各阶段的工作是穿插进行的。
例如,我们可以把词法分析、语法分析及语义分析与中间代码产生这三阶段安排成一遍。
这时,语法分析器处于核心位置,当它在识别语法结构而需要下一单词符号时,它就调用词法分析器,一旦识别出一个语法单位时,它就调用中间代码产生器,完成相应的语义分析并产生相应的中间代码。
一个编译程序究竟应分成几遍,如何划分,是与源语言、设计要求、硬件设备等诸因素有关的,因此难于统一划定。
遍数多一点有个好处,即整个编译程序的逻辑结构可能清晰一点。
但遍数多势必增加输入/输出所消耗的时间。
因此,在主存可能的前提下,一般还是遍数尽可能少一点为好。
应当注意的是,并不是每种语言都可以用单遍编译程序实现。
1.3.5 编译前端与后端概念上,我们有时把编译程序划分为编译前端和编译后端。
前端主要由与源语言有关但与目标机无关的那些部分组成。
这些部分通常包括词法分析、语法分析、语义分析与中间代码产生,有的代码优化工作也可包括在前端。
后端包括编译程序中与目标机有关的那些部分,如与目标机有关的代码优化和目标代码生成等。
通常,后端不依赖于源语言而仅仅依赖于中间语言。
可以取编译程序的前端,改写其后端以生成不同目标机上的相同语言的编译程序。
如果后端的设计是经过精心考虑的,那么后端的改写将用不了太大工作量,这样就可实现编译程序的目标机改变。
也可以设想将几种源语言编译成相同的中间语言,然后为不同的前端配上相同的后端,这样就可为同一台机器生成不同语言的编译程序。
然而,由于不同语言存在某些微妙的区别,因此在这方面所取得的成果还非常有限。
为了实现编译程序可改变目标机,通常需要有一种定义良好的中间语言支持。
例如.在著名的Ada程序设计环境APSE中,使用的是一种称为Diana的树形结构的中间语言一个Ada源程序通过前编译转换为Diana中间代码,由编译后端把Diana中间代码转换为目标代码。
编译前端与不同的编译后端以Diana为界面,实现编译程序的目标机改变。
又如,在Java语言环境中,为了使编译后的程序从一个平台移到另一个平台,Java定义一种虚拟机代码--Bytecode。
只要实际使用的操作平台上实现了的Java解释器,这个操作平台就可以执行各种Java程序。
这就是所谓Java语言操作平台无关性。
1.4 编译程序与程序设计环境开发通常还需要一些其它的工具;如编辑程序、连接程序,调试工具等等。
编译程序与这些程序设计工具一起构成所谓的程序设计环境。
在高级语言发展的早期,这些程序设计工具往往是独立的,缺乏整体性,而且也缺乏对软件开发全生命周期的支持。
随着软件技术的不断发展,现在人们越来越倾向于构造集成化的程序设计环境。
一个集成化的程序设计环境的特点是,它将相互独立的程序设计工具集成起来,以便为程序员提供完整的、一体化的支持,从而进一步提高程序开发效率,改善程序质量。
在一个好的集成化程序设计环境中,不仅包含丰富的程序设计工具,而且还支持程序设计方法学,支持程序开发的全生命周期。
有代表性的集成化程序设计环境有Ada语言程序设计环境APSE、LISP语言程序设计环境INTERLISP等。
广大读者所熟悉的Pascal、TurboC、VisualC++等语言环境也都可认为是集成化的程序设计环境。
1.5 编译程序的生成以前人们构造编译程序大多是用机器语言或汇编语言做工具的。
为了发挥各种不同硬件系统的效率,为了满足各种不同的具体要求,现在许多人仍然采用这种工具来构造编译程序。
但是,越来越多的人倾向于使用高级语言作为工具来构造编译程序。
因为,这样可以节省大量的程序设计时间,而且所构造出来的编译程序也易于阅读、修改和移植。
人们已经建立了多种编制部分编译程序或整个编译程序的有效工具。
有些能用于自动产生扫描器,有些可用于自动产生语法分析器,有些甚至可用来自动产生整个的编译程序。
如:编译程序-编译程序、编译程序产生器、翻译程序书写系统等,它们是按照对源语言和目标语言(或机器)的形式描述(作为输入数据)而自动产生编译程序的。
本课程将把自动产生器作为一个重要课题来讨论。
近些年来,有些人主张采用“自编译方式”产生编译程序。
意思是,先对语言的核心部分构造一个小小的编译程序(可用手编实现),再以它为工具构造一个能够编译更多语言成分的较大编译程序。
如此扩展下去,就象滚雪球一样,越滚越大,最后形成人们所期望的整个编译程序。
这种通过一系列自展途径而形成编译程序的过程叫作自编译过程。
现在,有些编译程序是通过“移植”得到的。
即把某一机器上的编译程序移植到另一机器上。
着需要寻求某种适当的“中间语言”。
但是,由于建立通用中间语言实际上办不到,因此,移植也只能在几种语言和几种机器之间进行。
授课类型(请打√):理论课讨论课□实验课练习课其他□教学方式(请打√):讲授讨论□示教□指导其他□教学资源(请打√):多媒体模型□实物□挂图□音像□其他□教学内容第二章词法分析2.1 对于词法分析器的要求首先讨论词法分析器输出的单词符号的一般形式,然后研究词法分析器应如何和语法分析器相衔接。
2.1.1 词法分析器的功能和输出形式词法分析器的功能是输入源程序,输出单词符号。
单词符号是一个程序语言的基本语法符号,程序语言的单词符号一般可分为下列五种:1 基本字如FORTRAN中的DIMENSION、IF和DO 等等;2 标识符用来表示各种名字,如变量名、数组名和过程名等等;3 常数各种类型的常数,如125,0.718、TRUE等等;4 运算符如+、-、*、/等等;5 界符如逗号、括号、分号等等。