【编译原理】03语法分析

1,语法分析的若干问题

1.1 语法分析器的作用        

        编译器前端的重要组成部分:        

        (1) 根据词法分析器提供的记号流,为语法正确的输入构造分析树(或语法树)。

         (2) 检查输入中的语法(可能包括词法)错误,并调用出错处理器进行适当处理。

语法分析器:

1、通用的语法分析方法

         Cocke-Younger-Kasami算法和Earley算法

2、自上而下

        对任何输入串,试图用一切可能的办法,从文法开始符号(根结点)出发,自上而下地为输入串建立一棵语法树;或者说为输入串寻找一个最左推导。

3、自下而上

       自上而下的一般方法: 消除左递归 提取左因子 递归下降分析 预测分析器

语法分析器在编译器中的位置与作用

1.2  语法错误的处理原则

1.2.1.源程序中可能出现的错误

语法错误

        词法错误:非法字符或关键字、标识符拼写错误等

        语法错误:语法结构出错,如少分号、{/}不配对等  

语义错误

        静态语义错误涉及的是编译时可检查出来的错误,如类型不一致、参数不匹配等;

        动态语义错误一般是指程序运行时的逻辑错误,如无穷递归、变量为零时作除数等。        

        大多数错误的诊断和恢复集中在语法分析阶段,一个原因是大多数错误是语法错误,另一个原因是语法分析方法的准确性,它们能以非常有效的方法诊断语法错误。在编译的时候,想要准确地诊断语义或逻辑错误有时是很困难的。

1.2.2.语法错误处理的目标

① 清楚而准确地报告错误的出现,地点正确、不漏报、不错报也不多报;      

② 迅速地从每个错误中恢复过来,以便分析继续进行;      

③ 对语法正确源程序的分析速度不应降低太多。

1.2.3.语法错误的基本恢复策略

        希望编译器的语法分析方式不是遇到一个语法错误就停止,就需要采取某种恢复策略,使得分析在遇到错误时还能够继续进行。

        紧急方式恢复:这是最简单的方法,适用于大多数分析方法。

        短语级恢复:建立在产生式(CFG)的基础上,以短语为基本分析单元,同时也便于进行语法制导翻译,恢复得比紧急方式要精确,因此被认为是一种较为理想的恢复方式。

        出错产生式

        全局纠正

例题:

        下述两条是有语法错误的语句,其中第一条赋值句结束时忘记加分号:x = a + b             y = c + d; 

        紧急方式:  x = a + b + d; -- 丢弃b之后的若干记号,直到遇到同步记号+      

        短语级恢复:x = a + b;     -- 加入分号,使之成为一个赋值句             

2,上下文无关文法(CFG)

2.1  CFG的定义与表示    

2.1.1 定义

         定义3.1  上下文无关文法是一个四元组G =(N,T,P,S):      

        ① N是非终结符的有限集合(Nonterminals);      

        ② T是终结符的有限集合(Terminals),且N∩T=Φ;      

        ③P是产生式的有限集合(Productions),每个产生式形如: A→α,其中A∈N,被称为产生式的左部,α∈(N∪T)*,被称为产生式的右部,若α=ε,则称A→ε为空产生式(也可以记为A →);      

        ④ S是非终结符,被称为文法的开始符号(Start symbol)。 

2.2.2 例题:

        定义简单算术表达式的上下文无关文法G3.1=(N,T,P,S)如下所示。    

 N={E}   T={+,*,(,),–,id}    S=E    

 P:      

E → E + E        (1)        

E → E * E         (2)        

E → (E)            (3)          

E → –E            (4)          

E → id              (5) 

2.2.3 表示 

        1.由产生式集表示CFG        

        文法可以由其产生式集P代替,而不写四元组。CFG的产生式表示也被称为巴克斯范式(BNF),值得注意的是,规范的BNF中,“→”用“::=”表示。

         2.产生式的一般读法:

         一般情况下,可以将产生式中的记号“→”读作“定义为”或者“可导出”。

        3.终结符与非终结符书写上的区分

         本教材默认采用区分大小写的方法来区分终结符与非终结符,若不作特殊说明,一般用大写英文字母A、B、C表示非终结符,小写英文字母a、b、c表示终结符,小写希腊字母α、β、δ表示任意的文法符号序列,即大小写混合的英文字母串。

        4.产生式的缩写形式 

           2.2.2的例题 G3.1可以重写为如下形式:E → E + E   |  E * E  |  (E)     | –E  | id            

2.2  CFG产生语言的基本方法 —— 推导

2.2.1 推导定义以及性质

        通过推导可以产生CFG所描述的语言。

        推导就是从文法的开始符号S开始,反复使用产生式,将产生式左部的非终结符替换为右部的文法符号序列,直到得到一个终结符序列 

2.2.2 例题:

文法G(E):

E → E + E           (1)

E→ E * E                 (2)          

E → (E)              (3)          

E → –E              (4)        

E → id                     (5)  

 根据文法G使用最左推导得出终结符序列  ”–(id+id)” 。

2.2.3 上下文无关语言(CFL),最左推导

定义3.3  

        由CFG  G所产生的语言L(G)被定义为:            

             

        L(G)称为上下文无关语言(CFL),ω称为句子。若Sα,α∈(N∪T)*,则称α为G的一个句型。 

定义3.4  

        在推导过程中,若每次直接推导均替换句型中最左边的非终结符,则称为最左推导,由最左推导产生的句型被称为左句型。    

        

        类似地,可以定义最右推导与右句型,最右推导也被称为规范推导。  

2.3  推导、分析树与语法树    

定义3.5  对CFG G的句型,分析树被定义为具有下述性质的一棵树。    

        ① 根由开始符号所标记;    

        ② 每个叶子由一个终结符、非终结符或ε标记;    

        ③ 每个内部结点由一个非终结符标记;    

        ④ 若A→X1X2...Xn是一个产生式,则X1,X2,...,Xn是标记为A的内部结点从左到右所有孩子的标记。若A→ε,则标记为A的结点可以仅有一个标记为ε的孩子。 

     分析树与文法和语言存在下述关系:      

        ① 每一直接推导(或者每个产生式),对应一棵仅有父子关系的子树,即产生式左部非终结符“长出”右部的孩子;      

        ② 分析树的叶子从左到右,构成G的一个句型。若叶子仅由终结符标记,则构成一个句子。 

     分析树与推导的关系:    

         ① 分析树是推导的图形表示,但不能显示推导的顺序;    

         ② 每棵分析树都可以对应惟一的最左推导或最右推导;但每个句子(产生式)不一定只有一棵分析树,也就是说每个句子不一定只有一个最左推导或者最右推导。 例:句子id + id * id      

例题:

  用文法G采用最左推导产生句子id+id*id. 

一个句子两棵分析树 (a) 先进行+运算;(b) 先进行*运算;(c) +左结合;(d) +右结合

2.4  二义性与二义性的消除

2.4.1  二义性(Ambiguity)

        定义3.7  若文法G对同一个句子产生不止一棵分析树,则称G是二义的。 

        ① 一个句型有多于一棵分析树,仅与文法和句型有关,与采用的推导方法无关;      

        ②  造成二义性的原因,是文法中缺少对文法符号优先级和结合性的规定。        

        在任何一个程序设计语言中,如果出现了二义性,则表示同一段程序在确定的、相同的环境下反复执行,会得到不同的结果,而这种情况在程序设计中是不允许的。也就是说,任何一个程序设计语言不应该有二义性。 

2.4.2 为文法符号规定优先级和结合性    

        改写文法可以解决二义性问题,但不是唯一的解决方法。比较上述讨论过的二义文法和非二义文法,发现二义文法至少有两个优点:      

        ① 比非二义文法容易理解;      

        ② 分析效率高(分析树低,直接推导步骤少)。 

3,语言与文法简介

        到目前为止,我们在两个层面上讨论了程序设计语言的结构:从词法分析的层面上看,语言是由字母组成的记号的集合;从语法分析的层面上看,语言是由记号组成的句子的集合。记号可以用正规式描述,句子可以用CFG描述。        

        程序设计语言的结构均可以用文法来描述。文法无论对程序设计语言的设计还是对编译器的编写,至少在以下三个方面起着重要作用:

        ① 文法给出了精确的、易于理解的语言结构的说明;      

        ② 以文法为基础的语言,便于加入新的或修改、删除旧的语言结构;      

        ③ 有些类别的文法,可以自动生成高效的分析器。        

3.1.为什么用正规式而不用CFG描述程序设计语言的词法  

          根据推论3.1,CFG既描述程序设计语言的语法又描述词法,而基于下述几个原因,往往采用正规式而不是CFG描述词法:      

        ① 词法规则简单,用正规式描述已足够;      

        ② 正规式的表示比CFG更直观、简洁、易于理解;      

        ③ 有限自动机的构造比下推自动机简单,且分析效率高;    

        ④ 区分词法和语法,为编译器前端的模块划分提供方便。 

3.2 正规式和CFG的适用条件

        一般情况下,正规式适合描述线性结构,如标识符、关键字、注释等。而CFG适合描述具有嵌套(层次)性质的非线性结构,如不同结构的句子if-then-else、begin-end等。

3.3  形式语言与自动机简介      

        乔姆斯基(Chomsky)把文法分为四种类型: 0型、1型、2型和3型。文法之间的差异在于对产生式施加不同的限制。      

        定义3.8  若文法G=(N,T,P,S)的每个产生式α→β中,均有α∈(N∪T)*,且至少含有一个非终结符,β∈(N∪T)*,则称G为0型文法。          

        对0型文法施加以下第i条限制,即可得到i型文法。

        1.G的任何产生式α→β(S→ε除外) 均满足|α|≤|β| (|x|表示x中文法符号的个数);      

        2.G的任何产生式形如A→β,其中A∈N,β∈(N∪T)*;      

        3.G的任何产生式形如A→a 或者A→aB(或者A→Ba),其中A,B∈N,a∈T。          

        0型文法也被称为短语文法,任何0型语言都是递归可枚举的,反之,递归可枚举集也必定是一个0型语言。

       1型文法就是上下文有关文法,这种文法意味着对非终结符的替换必须考虑上下文,并且一般不允许换成ε串。例如,若αAβ→αγβ是1型文法的产生式,α和β不全为空,则非终结符A只有在左边是α,右边是β这样的上下文中才可能替换成γ。      

        2型文法就是上下文无关文法,非终结符的替换无需考虑上下文。      

        3型文法等价于正规式,因而也被称为正规文法或线性文法。      

        四种类型的文法和它们所描述的语言,以及识别对应语言的自动机分别列举在表中。

4, 自上而下分析的一般方法        

4.1 基本思想 

        自上而下分析的基本思想是:对于任何一个输入序列,从文法的开始符号开始,进行最左推导,直到得到一个合法句子或者发现一个非法结构。在推导的过程中试图用一切可能的方法,自上而下、从左到右为输入序列建立分析树。整个分析是一种试探的过程,是反复使用不同产生式谋求与输入序列匹配的过程。

4.2 例题

        已知如下文法G(S),给出输入序列ω=cad,自上而下试探建立分析树的过程。

        G(S):  S → cAd            A → ab | a

试探性质的自上而下分析 (a) 匹配失败,回溯;(b) 匹配成功,接收

        (1) 若存在形如A → αβ1|αβ2的产生式,即A产生式中有多于一个候选项的前缀相同(称为公共左因子,或简称左因子),则可能会造成虚假匹配,使得在分析过程中可能需要进行大量回溯,从而造成分析效率低、语义动作难以恢复以及出错位置的报告不确切等。    

        (2) 若存在形如A → Aα的产生式,则分析过程中一旦采用了该产生式去替换,就会陷入死循环而使分析无法进行下去。产生式的这种形式被称为左递归。        

        为了避免上述弱点,需要对文法进行重写。消除左递归,以避免陷入死循环;提取左因子,以避免回溯。 

4.3  消除左递归

        分类:直接左递归 间接左递归 

   规则1     直接左递归的产生式A→Aα|β (β不以A开头), A→βA'  A'→αA'|ε

   规则2     直接左递归的产生式 A→ Aα1 | Aα2 | ... | Aαm |β1 |β2 | ...|βn(所有βi均不以A直接开头或间接开头), A→β1A'|β2A'|...|βnA'  A'→α1A'|α2A'|...αmA'|ε

并不是所有的文法都能消除左递归!!! 

4.4  提取左因子    

         对于有左因子的文法,推导过程中会出现无法确定用A产生式的哪个候选项替换A的情况,这时,可以重写A产生式来推迟这种决定,直到看见足够的输入,能正确决定所需选择为止。这一过程类似于有限自动机的确定化,被称为提取左因子。    

 算法3.3  提取文法的左因子      

输入 : 文法G      

输出:  等价的无左因子文法G' 

方法  :为每个产生式A,找出其候选项中最长公共前缀α,重排A产生式如下,其中γ是不以α为前缀的其他候选项。      

        A→ αβ1|αβ2| ...|αβn|γ    

并用下述产生式替代之。      

        A→ αA'|γ    

        A'→ β1|β2| ...|βn

重复此过程,直到所有A产生式的候选项中均不再有公共前缀。

练习:

1、文法G(A):A→aABj | a                      B→Bb | d

2、文法G(M):M→MaH | H                       H→b(M) | (M) | b

3、文法G(S):S→AdD | ε                      A→aAd | ε               D→DdA | b | ε 

5,FIRST集和FOLLOW集 

5.1 FIRST集 

  算法3.5  计算X的FIRST集合  

输入  文法符号X  

输出  X的FIRST集合  

方法  应用下述规则:    

        ① 若X是终结符,则FIRST(X)={X};  

         ② 若X 是非终结符且有X→ε,则加入ε到FIRST(X);    

        ③ 若X 是非终结符且有X→Y1Y2...Yk,并令Y0=ε,Yk+1=ε,则对所有j(0≤j≤k),若a∈FIRST(Yj+1)且ε∈FIRST(Yj),加入a到FIRST(X)。 

5.2 FOLLOW 

    算法3.6  计算所有非终结符的FOLLOW集合    

输入  文法G    

输出  G中所有非终结符的FOLLOW集合    

方法  应用下述规则:    

① 加入#到FOLLOW(S),其中,S是开始符号,#是输入结束标记;    

② 若有产生式A→αBβ,则除ε外,FIRST(β)的全体加入到FOLLOW(B);        

③ 若有产生式A→αB或A→αBβ而ε∈FIRST(β),则FOLLOW(A)的全体加入FOLLOW(B)。 

6,预测分析表

    算法3.7  构造预测分析表    

输入  文法G    

输出  分析表M    

方法  应用下述规则:    

① 对文法的每个产生式A→α,执行②和③;    

② 对FIRST(α)的每个终结符a,加入α到M[A,a];    

③ 若ε在FIRST(α)中,则对FOLLOW(A)的每个终结符b(包括#),加入α到M[A,b];        

④ M中其他没有定义的条目均是error。

     预测分析表是一个二维数组M[A, a] 所有的非终结符构成分析表的行下标; 所有的终结符构成分析表的列下标,其中包括特殊的结束标志#。 M[A, a]中的内容表示当前栈顶为非终结符A且当前输入为终结符a时,分析器要进行的动作。 

3.4.5.3  LL(1)文法      

        定义3.12  一个文法G被称为是LL(1)文法,当且仅当为它构造的预测分析表中不含多重定义的条目。由此分析表所组成的分析器被称为LL(1)分析器,它所分析的语言被称为LL(1)语言。第一个L表示从左到右扫描输入序列,第二个L表示产生最左推导,1表示在确定分析器的每一步动作时向前看一个终结符。 

     推论3.2  一个文法G是LL(1)的,当且仅当G的任何两个产生式A→α|β,满足下面条件:       ① 对任何终结符a,α和β不能同时推导出以a开始的文法符号序列;      

② α和β最多有一个可以推导出ε;      

③ 若β       ε,则α不能推导出以在FOLLOW(A)中的终结符开始的任何文法符号序列。 

         推论3.2实际上等价于当且仅当G的任何两个产生式A→α|β满足上述三个条件时,为文法G构造的预测分析表中不含多重定义的条目。反之,若不满足三个条件之一,则分析表中有多重定义条目。         若条件①不满足,即存在终结符a,α和β同时推导出以a开始的文法符号序列,则根据算法3.7规则②,M[A,a]中就会有多重定义条目A→α和A→β;

            若条件②不满足,即α和β均可推出ε,则根据算法3.7规则③,任何属于FOLLOW(A)的终结符b(包括#),M[A,b]中就会有多重定义条目A→α和A→β;     若条件③不满足,即存在终结符b,它既在FOLLOW(A)中,又在FIRST(α)中,则     算法3.7规则②把条目A→α加入到M[A,b]中,而规则③又把条目A→β加入到M[A,b]中。

LL(1)文法的弱点:  (1) 文法比较难写。因为按照人们习惯写出的文法,往往含有左递归和左因子。虽然有成熟的算法可以消除左递归和提取左因子,但改写之后的文法很难读也很难使用。同时对比分析树可以看出,改写后文法构造的分析树不直观且推导步骤增加。 (2) LL(1)文法适应范围有限,对于有些语言,往往写不出它的LL(1)文法。 

相关推荐

  1. 编译原理Lab2-用bison完成语法分析器

    2024-04-21 02:50:05       33 阅读
  2. 编译原理 - 语法制导翻译

    2024-04-21 02:50:05       36 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-21 02:50:05       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-21 02:50:05       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-21 02:50:05       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-21 02:50:05       20 阅读

热门阅读

  1. Android开发学习(1)--楔子

    2024-04-21 02:50:05       16 阅读
  2. [论文笔记] megatron训练参数:dataloader_type

    2024-04-21 02:50:05       14 阅读
  3. Blender3.6下载地址

    2024-04-21 02:50:05       13 阅读
  4. 前端遇到的问题

    2024-04-21 02:50:05       11 阅读
  5. Oracle存储过程的使用与实例

    2024-04-21 02:50:05       10 阅读
  6. C# 语言类型(三)—数组/枚举类型/结构体

    2024-04-21 02:50:05       14 阅读
  7. 用爬虫玩转石墨文档

    2024-04-21 02:50:05       14 阅读
  8. C语言经典例题-20

    2024-04-21 02:50:05       17 阅读
  9. 【第一章 先导篇】1. 规范化的学习模型

    2024-04-21 02:50:05       11 阅读