Tree(3)

バッカス・ナウア記法の素朴な解析法として次のようなものがあります。例えば、 A→bCD で A,C,D が非終端記号、 b が終端記号だった時、関数 A を次のように作ります。

そして非終端記号 C, D に対しても同様に関数を作ります。このようにすると構文木通りに関数が呼び出されて、与えられた記号列を処理できる場合があります。しかし、実際は一つの非終端記号から複数の導出規則が存在します。例えば、下の例では S から A か B のどちらを導出するかはすぐには決められません。

素朴な方法としては、適当に導出規則を選び、途中で失敗したら別の導出規則を選ぶ方法が考えられます。これをバックトラックと言います。確かにこの方法でも構文解析できますが、しかし、効率が悪いです。

ここで、次に読み込む記号から if 文でどちらの導出規則を適用するかが決められたら、効率的に解析が可能になります。どんな非終端記号に対しても、次の先頭の文字を読むだけで一意に導出が可能な文法を LL(1)文法と言います。

10-2. 数式の文法

足し算の文法

足し算だけの数式を解釈する文法を考えます。最初に次の文法を考えます。

文法 G₀

この文法では、 1+1 のような式は解釈できますが、 1+2+3 は駄目です。そこで、足し算がいくつつながっていても解釈可能な文法を考えます。数式は、一般に左から右へ解釈します。したがって、 1+2+3 は 1+2 を解釈した後、その和に対して +3 を加えたものを新しい和とします。つまり、次のようなルールが必要になります。

このルールがあれば、一番左の項以外はこれで解釈できます。一番左の項はそれだけで和とみなせば 1+2+3 を解釈できます。

文法 G₁

\begin{matrix} 和 \to 和 + 数 \\ 和 \to 数 \end{matrix}

なお、次のようにしてしまうと和の優先順序を指定できず、あいまいになります。

文法 G_1x

\begin{matrix} 和 \to 和 + 和 \\ 和 \to 数 \end{matrix}

拡張バッカス・ナウア記法

拡張バッカス・ナウア記法は、バッカス・ナウア記法に中括弧による繰返しの記法を付け加えたものです。また、丸括弧の中に | を使うことで、括弧内を選択できます。例えば、拡張バッカス・ナウア記法を使うと、上の足し算は「+ 数」を任意の回数繰返したものとして次のように書くことができます。

左再帰性の除去

上の

和 \to 和 + 数

というルールを入力列に適応するには、その先頭部分が「和」の形になっているかどうかを調べる必要があります。そして、そのためにはその先頭部分が「和」の形になっているかどうかを調べる必要があります。このように左辺と同じ非終端記号が右辺の先頭に来ていると、入力列を順に読む構文解析ができなくなります。これを左再帰性と言います。この左再帰性は次のようにすれば除去できます。次のような左再帰性を持つ生成規則があったとします。

A は非終端記号で、α と β は非終端記号、終端記号からなる列を表し、β は A で始まらないとします。この時、次のように書き直すと左再帰性がなくなります。

\begin{matrix} A \to β A' \\ A' \to α A' | ε \end{matrix}

上の足し算を解釈する文法G₁の左再帰性を除去すると次のようになります。

文法 G₂

\begin{matrix} 和 \to 数 和' \\ 和' \to + 数 和' | ε \end{matrix}

再帰的下向き構文解析法

文法に対して、左辺から右辺への導出が、次の一文字を読むだけで決定できれば、その文法をLL(1) 文法と言います。次の一文字を読むだけで決定できるかどうかは次の計算を行うことで判定できます。なお次の一文字を読んでプログラムの次の動きを決めますので、入力文字が終ったことを示す特殊な文字┤を考えることがあります。

α は非終端記号、終端記号からなる列とします。また A は非終端記号とします。この時 First(α), Follow(A), Director(A,α) を次のように定義します。

文法 G₂についてこれらを計算すると次のようになります。なお、数式の最後として = があることとし、Director は生成規則に関するものだけ求めます。

\begin{matrix} First (和') = \{+, =\} \\ First (和) = \{数\} \\ Follow (和) = \{=\} \\ Follow (和') = \{=\} \\ Director (和, 数 和') = \{数\} \\ Director (和', + 数 和') = \{+\} \\ Director (和', ε) = \{=\} \end{matrix}

このようにすべての非終端記号に対して、その生成規則を示す Director 同士に共通部分がない文法を LL(1) 文法と言います。 G₂ は計算した Director に共通部分がないので LL(1) 文法です。

LL(1) 文法は、先に示した素朴な関数呼出による構文解析に対して、次に来るものを判断して構文規則を変えることで構文解析ができるようになります。上の G₂ は計算した Director により次のように計算できます(わかりやすいように日本語を使ってますので、このままでは動きません)。なお、構文解析のことをparse、構文解析をするプログラムなどをparserといいます。

構文解析の意味付け

構文解析の手続きにおいて、出力を考えます。これは構文に関する意味を与えることになります。

ここでは、数式から構文解析木を作ることを考えます。始めに G₁ を考えます。各ルールで、次のように木が作られます。

ルール	構文解析木
$和 \to 和 + 数$
$和 \to 数$

和の部分を考えると、導出により木の下の方に移動していくので、上から下へ木を作っていく一方 G₂ は次のように木が作られます。

この場合、下から上へ木を作ることになります。これを上に示したプログラムを利用して、次のように生成させるます。

ルール	構文解析木
$和 \to 数和'$
$和' \to + 数和'$
$和' \to ε$	そのまま

10-3. 木の探索と表示

木の内部を検索、表示する際に、順序を複数決めることができます。以前は「木の左側を処理」、「注目頂点を表示」、「木の右側を処理」と、もっとも深い頂点から順に表示される表示法を紹介しました。これを深さ優先探索と言います。一方、同じ深さごとに探索、表示することもあります。これを幅優先探索と言います。

また、深さ優先探索に関しても「木の左側を処理」、「注目頂点を表示」、「木の右側を処理」の他にも、これらの出力の順番を変える方法が考えられます。ここで、例えば、次のような構文解析木が得られたとします。

その時「木の左側を処理」、「注目頂点を表示」、「木の右側を処理」とすれば中置記法の表示と一致します。一方「木の左側を処理」、「木の右側を処理」、「注目頂点を表示」とすると後置記法(逆ポーランド記法)と一致します。

演習10-1

以上の議論により、数式(足し算のみ)を逆ポーランド記法に変換するプログラムを作りなさい。

完全な数式処理

ここまでは足し算のみの数式を使って、文法、構文解析、構文解析による計算の手法を紹介しました。ここでは、完全な数式の文法を与えます。

まず、かけ算を考えます。かけ算だけの式の場合は計算の順序などは足し算と同様です。したがって、かけ算だけのルールを考えると次のようになります。

\begin{matrix} 積 \to 積 * 数 \\ 積 \to 数 \end{matrix}

ここで、積と和の優先順位を考えます。積の方が優先されますので、積を計算した後、和を計算します。これを実現させるには、和の計算で「数」という終端記号を計算の対象にしましたが、積を計算の対象に変更します。変更した後のルールは次のようになります。

\begin{matrix} 和 \to 和 + 積 \\ 和 \to 積 \\ 積 \to 積 * 数 \\ 積 \to 数 \end{matrix}

さらに括弧の処理を考えます。括弧の中にはどんな式も入ります。一方括弧はその中の値を計算したら、計算の対象となる値として数と同じように扱われます。今まで「数」という終端記号を使ってきましたが、ここで「値」という非終端記号を導入します。すると、値に関するルールは次のようになります。

\begin{matrix} 値 \to (和) \\ 値 \to 数 \end{matrix}

これらをすべてまとめると完全な数式処理の文法 G₃を定義できます。

文法 G₃

\begin{matrix} 和 \to 和 + 積 \\ 和 \to 積 \\ 積 \to 積 * 値 \\ 積 \to 値 \\ 値 \to (和) \\ 値 \to 数 \end{matrix}

演習10-2

演習10-3

演習10-4

演習10-5

G₄ の各導出規則に対して Director を求め、 LL(1)文法であることを確かめなさい。

演習10-6

中置記法で書かれた数式を逆ポーランド記法に変換するプログラムを書きなさい。

演習10-7

10-4. コンパイラコンパイラ

バッカス・ナウア記法を与えて、それを処理するプログラムを出力する処理系をコンパイラコンパイラと言います。 C 言語のプログラムを出力するものに yacc があります(bison という互換性のあるフリーソフトもあります)。 yacc は、数を取り出すなど構文解析の前段階である字句解析はしません。そのために lex という字句解析ソフトを使います(flex という互換性のあるフリーソフトもあります)。一方、 java 用のコンパイラコンパイラに JavaCCというクラスライブラリがあります。 JavaCC は構文解析も字句解析もできます。また、構文解析木を出力する JJTree というツールも付属してきます。

第 10 回木(3)

本日の内容

10-1. 構文解析

素朴な解析法

10-2. 数式の文法

足し算の文法

文法 G₀

文法 G₁

文法 G_1x

拡張バッカス・ナウア記法

左再帰性の除去

文法 G₂

再帰的下向き構文解析法

構文解析の意味付け

10-3. 木の探索と表示

演習10-1

完全な数式処理

文法 G₃

演習10-2

演習10-3

演習10-4

演習10-5

演習10-6

演習10-7

10-4. コンパイラコンパイラ

第 10 回 木(3)

本日の内容

10-1. 構文解析

素朴な解析法

10-2. 数式の文法

足し算の文法

文法 G0

文法 G1

文法 G1x

拡張バッカス・ナウア記法

左再帰性の除去

文法 G2

再帰的下向き構文解析法

構文解析の意味付け

10-3. 木の探索と表示

演習10-1

完全な数式処理

文法 G3

演習10-2

演習10-3

演習10-4

演習10-5

演習10-6

演習10-7

10-4. コンパイラコンパイラ

第 10 回木(3)

文法 G₀

文法 G₁

文法 G_1x

文法 G₂

文法 G₃