当前位置：文档之家› 《编译原理》第三章词法分析

《编译原理》第三章词法分析

1．关键字(保留字或基本字)：
关键字一般是语言系统本身定义的, 通常是由字母组成的字符串。
2．标识符：用来表示各种名字如, 变量名, 数组名, 结构名, 函数名, 文件名等。
7
3.2.1 单词与属性字
3．常数：256，3 .14，true, ′abc′ 4．运算符：如，＋、－、*、/ 等等 5．分界符：如逗号, 分号, 括号, 单双引号等
第三章词法分析
第三章词法分析
主要章节
3.1 词法分析与词法分析程序 3.2 词法分析程序的设计与实现 3.3 词法分析程序的自动生成
3.1 词法分析程序的功能
词法分析的功能词法分析的功能
从左至右逐个字符地对源程序进行扫描，产生一个个单词符号，再转换成词标流的过程
源程序
词法分析器
单词序列
3
4
3.2
词法分析器的设计与实现
3.2.1 单词与属性字 1. 单词单词是语言中具有独立意义的最小语法单位。
要素
独立的意义最小的语法单位
例 …A*B…，单词是“A”、“*”和“B”。 …int int1…,单词是“int”和“int1”。 …A++*B…,单词是“A”、“++”、“*”和“B”。
8
3.2.1 单词与属性字
注意：注意：
(1) 同一个字符开头+后续字符->跨多个单词类；
(2) 非单词成分和预处理成分；
•Hale Waihona Puke :源程序注释；/* …….*/预处理指令：
•# define… # include…
9
3.2.1 单词与属性字
2. 属性字对所识别的单词的数据结构表示。
L1= （ T，C）属性字
预处理程序（作用）预处理程序（作用）
(1) 减少内存空间占用； (2) 减轻扫描器实质性处理的负担；
预处理程序主要任务：预处理程序主要任务：
(1) 滤掉源程序中的非单词成分(如无用空格；换行符等)； •滤掉注释； •宏替换； (2) 实际的预处理工作 •文件包含的嵌入； •条件编译的嵌入；
17
一类一种：关键字、标识符、常数、运算符、界符一字一种：关键字、运算符、分界符各一码
11
例题（一类一种）例题（一类一种）
int x=10，
单词类别 1 2 4 3 5 2 5
y；
单词属性值 int 指向x的符号表入口指针 = 10 ，指向y的符号表入口指针；
注：通常将标识符的属性放在符号表中，因此常把指向存放标识符有关信息的符号表入口的指针作为标识符的 12 属性值
例题（一字一种）例题（一字一种）
′while ′， ′ i ′， ′＜＞ ′， ′j ′， ′ do ′， ′if ′， ′i ′， ′＞ ′， ′j ′ , ′then ′, 'i ', ':= ′ , 'i', '-' , 'j ' , 'else', 'j ' , ':= ', 'j ', '- ', ' i ' 源程序经词法分析器的输出〈while，—— 〉〈id，指向i的符号表入口的指针〉〈relational－op ， < >〉〈id，指向j的符号表入口的指针〉〈do，—— 〉〈if，——〉〈id，指向i的符号表入口的指针〉 ………… 〈id，指向j的符号表入口的指针〉
设计工具 ——FA
作为扫描器的状态转换图的构造： step1 : 对语言的各类单词分别构造状态图； step2: 将各类状态图合并合并，构成一个能识别该语言合并所有单词的状态图。
(1) 将各类单词的状态图的初态合并为一个惟一初态； (2) 调整冲突编号。
18
例3.2 设某语言由标识符和无符号正整数两类单词构成，标识符和无符号正整数的词法规则：
1
other
*
2
其中： other表示非D 字符
20
step2: 将各类状态图合并合并，构成一个能识别合并该语言所有单词的状态图。
L
1
step2
D
2
L| D | _
other
3
*
其中： other表示非L| D | _字符
0
D
4 1
other
5 2
* 其中：
other表示非D 字符
词法分析方法：直接分析法
13
3.2.2
源程序的输入与预处理
1．输入缓冲区．
成对且对半互补的输入缓冲区模式。即将一个缓冲区分为两个半区, 每个半区长度为n(n一般为磁盘块或簇长的整倍数), 其结构如图所示。
n: 取2的整次幂；每个半区的末尾设置标志“ eof ”表示读入该半区的源程序的结束； B：单词w开始指针； F：扫描w的指针； 14
L→ a | b | … | z | A | B | … | Z D→0|1|…|9 <标识符> → L(L|D|_)* <无符号正整数> → DD*
19
step1 : 对语言的各类单词分别构造状态图；
L
1
step1
D
2
L| D | _
other
3
*
其中： other表示非L| D | _字符
0
D
状态转换图的实现
int state = 0; enum lettet ('a'..'z'); enum number ('0'..'9'); char char1; while(1) ｛ char1 = nextchar( ); switch(state) ｛ case 0: switch (char1) ｛ case 'a'…'z‘ : state = 1; break; '0'…'9‘ : state = 3; break; case case '=' : state = 5; break; case '*' : state = 6; break; case '+' : state = 7; break; case '{ ' : state = 11; break; case '} ' : state = 12; break; default : state =13; } break;
Token
Code
刻画单词类别（单词性质）刻画单词类别（单词性质）
如:标识符；运算符；… 标识符；运算符；
单词的内码值（可空）单词的内码值（可空）
10
说明
单词类别通常用整数编码单词类别提供给语法分析程序使用单词符号属性信息记录单词符号的特征或特性单词的属性值提供给语义分析程序使用
编码形式：
31
状态转换图的实现
case 1: { while (char1 == letter||number) char1 = nextchar(); state = 2; } break; case 2: { untread();return (02,value) or return(01,value);} break; /* 函数untread()功能是回退一个已读进的字符；属性01表示关键字；属性02表示标识符 */ case 3: {while (char1 == number) char1 = nextchar(); state = 4;} break; case 4: {untread(); return (03 ,value);}break; /* 属性03表示无符号整常数 */ case 5: return (04, );break; /* 属性04表示 “＝”*/ case 6: return (05, );break; /* 属性05表示 “*” */
21
例：设C语言子集由下列单词符号构成，以正规式的形式表示：
关键字：int, if, for 标识符：字母(字母|数字)* 无符号整常数：数字(数字)* 运算符或分界符： =, *,+，++，+=，{，}
22
23
24
25
语言词法规则状态转换图 (FA) 可行的扫描器数据中心法程序中心法存储和激活问题
5
复习
流行语言词法规则的表示：流行语言词法规则的表示：
BNF或EBNF； 3型文法；正规式
例
<关键字> -> int | float | for | #include | char | … <标识符> -><字母>{<字母>|<数字>} V = <字母>（<字母>|<数字>）*
6
3.2.1 单词与属性字
两半区互补功能算法：两半区互补功能算法：
if ( F= 前“ eof ”) { 重新分配、装入后半区;F++ }； else if ( F= 后“ eof ”) {重新分配、装入前半区；F=1}； else F++;
15
2．两个缓冲区的输入模式
控制线数据线 X : 固定长度的存储空间 ;
16
33
一 .自动生成思想
一个词法分析程序产生器它接收用正规式表示的定义在某语言字母表Σ上的单词, 然后从此正规式出发
(1) 构造能识别正规式描述的单词集(正规集)的非确定有限自动机NFA M’, 此步构造算法定义为X。 (2) 用子集法(子集法实现算法命名为Y)将M’确定化,得到与其等价的DFA M； (3) 用划分算法(命名为Z) 对M 化简, 得到DFA M"。则这个 DFA M"即是理论上的扫描器。

e商务文档

《编译原理》第三章词法分析

相关文档推荐：