Устранение левой рекурсии

Материал из Викиконспекты
Версия от 22:21, 16 января 2016; KirillTim (обсуждение | вклад) (Интервики на методы нисходящего разбора)
Перейти к: навигация, поиск
Определение:
Говорят, что контекстно-свободная (КС) грамматика [math]\Gamma[/math] содержит непосредственную левую рекурсию (англ. direct left recursion), если она содержит правило вида [math]A \to A\alpha[/math].


Определение:
Говорят, что КС-грамматика [math]\Gamma[/math] содержит левую рекурсию (англ. left recursion), если в ней существует вывод вида [math]A \Rightarrow^* A\alpha[/math].


Методы нисходящего разбора (англ. top-down parsers) не в состоянии работать с леворекурсивными грамматиками. Проблема в том, что продукция вида [math]A \Rightarrow^* A\alpha[/math] может применяться бесконечно долго, так и не выработав некий терминальный символ, который можно было бы сравнить со строкой. Поэтому требуется преобразование грамматики, которое бы устранило левую рекурсию.


Устранение непосредственной левой рекурсии

Опишем процедуру, устраняющую все правила вида [math]A \to A\alpha[/math], для фиксированного нетерминала [math]A[/math].

  1. Запишем все правила вывода из [math]A[/math] в виде: [math]A \to A\alpha_1\,|\,\ldots\,|\,A\alpha_n\,|\,\beta_1\,|\,\ldots\,|\,\beta_m [/math], где
    • [math]\alpha[/math] — непустая последовательность терминалов и нетерминалов ([math]\alpha \nrightarrow \varepsilon [/math]);
    • [math]\beta[/math] — непустая последовательность терминалов и нетерминалов, не начинающаяся с [math]A[/math].
  2. Заменим правила вывода из [math]A[/math] на [math]A \to\beta_1A^\prime\, |\, \ldots\, |\, \beta_mA^\prime \,|\, \beta_1 \,|\, \ldots \,|\, \beta_m[/math].
  3. Создадим новый нетерминал [math]{A^\prime} \to \alpha_1{A^\prime}, |\, \ldots\, |\, \alpha_n{A^\prime} | \alpha_1\, |\, \ldots\, |\, \alpha_n[/math].

Изначально нетерминал [math]A[/math] порождает сроки вида [math]\beta\alpha_{i0}\alpha_{i1} \ldots \alpha_{ik}[/math]. В новой грамматике нетерминал [math]A[/math] порождает [math]\beta{A^\prime}[/math], а [math]A^\prime[/math] порождает строки вида [math]\alpha_{i0}\alpha_{i1} \ldots \alpha_{ik}[/math]. Из этого очевидно, что изначальная грамматика эквивалентна новой.

Пример

[math]A \to S\alpha | A\alpha[/math]

[math]S \to A\beta[/math]

Есть непосредственная левая рекурсия [math]A \to A\alpha[/math]. Добавим нетерминал [math]A^\prime[/math] и добавим правила [math]A \to S\alpha{A^{\prime}}[/math], [math] A^{\prime} \to \alpha{A^{\prime}} [/math].

Новая грамматика:

[math]A \to S\alpha{A^{\prime}} | S\alpha[/math]

[math]A^{\prime} \to \alpha{A^{\prime}}[/math]

[math]S \to A\beta[/math]

В новой грамматике нет непосредственной левой рекурсии, но нетерминал [math]A[/math] леворекурсивен, так как есть [math] A \Rightarrow S\alpha{A^{\prime}} \Rightarrow A\beta\alpha{A^{\prime}} [/math]

Алгоритм устранения произвольной левой рекурсии

Воспользуемся алгоритмом удаления [math] \varepsilon [/math]-правил. Получим грамматику без [math] \varepsilon [/math]-правил для языка [math]L(\Gamma) \setminus \lbrace \epsilon \rbrace[/math].

Упорядочим нетерминалы и будем добиваться того, чтобы не было правил вида [math]A_i \to A_j\alpha[/math], где [math]j \le i[/math]. Если данное условие выполняется для всех[math]A_i[/math], то в грамматике нет [math]A_i \to^* A_i[/math], а значит не будет левой рекурсии.

Пусть [math]N = \lbrace A_1, A_2, \ldots , A_n \rbrace[/math] — упорядоченное множество всех нетерминалов.

for все нетерминалы [math]A_i[/math] 
  for все нетерминалы [math]A_j[/math], такие, что [math] 1 \leq j \lt  i [/math] и 
    рассмотреть все правила вывода из [math]A_j[/math]: [math]A_j \to \delta_1 | \ldots | \delta_k[/math].
    заменить каждое правило [math]A_i \to A_j \gamma[/math] на [math]A_i \to \delta_1\gamma | \ldots | \delta_k\gamma[/math].
  устранить непосредственную левую рекурсию для [math]A_i[/math].

Если [math]\varepsilon[/math] присутствовал в языке исходной грамматики, добавим новый начальный символ [math]S'[/math] и правила [math]S' \to S \, | \, \varepsilon [/math].

После [math]i[/math] итерации внешнего цикла в любой продукции внешнего цикла в любой продукции вида [math]A_k \to A_l\alpha, k \lt i[/math], должно быть [math]l \gt k[/math]. В результате при следующей итерации внутреннего цикла растет нижний предел [math]m[/math] всех продукций вида [math]A_i \to A_m\alpha[/math] до тех пор, пока не будет достигнуто [math]i \le m [/math].

После [math]i[/math] итерации внешнего цикла в грамматике будут только правила вида [math]A_i \to A_j\alpha[/math], где [math]j \gt i[/math]. Можно заметить, что неравенство становится строгим только после применения алгоритма устранения непосредственной левой рекурсии. При этом добавляются новые нетерминалы. Пусть [math]{A^\prime}_i [/math] новый нетерминал. Можно заметить, что нет правила вида [math]\ldots \to {A^\prime}_i[/math], где [math]{A^\prime}_i[/math] самый левый нетерминал, а значит новые нетерминалы можно не рассматривать во внешнем цикле.

На [math]i[/math] итерации внешнего цикла все правила вида [math]A_i \to A_j \gamma[/math] где [math] j \lt i [/math] заменяются на [math]A_i \to \delta_1\gamma | \ldots | \delta_k\gamma[/math] где [math]A_j \to \delta_1 | \ldots | \delta_k[/math]. Очевидно, что одна итерация алгоритма не меняет язык, а значит язык получившийся в итоге грамматики совпадает с исходным.

Асимптотика

Пусть [math]a_i[/math] количество правил для нетерминала [math]A_i[/math]. Тогда [math]i[/math] итерация внешнего цикла будет выполняться за [math]O(\sum\limits_{A_i \to A_j, j \lt i} a_j) + O(a_i)[/math], что меньше чем [math]O(\sum\limits_{i=1}^n a_j)[/math], значит асимптотика алгоритма [math]O(n\sum\limits_{i=1}^n a_j)[/math].

Проблема этого алгоритма в том, что в зависимости от порядка нетерминалов в множестве размер грамматки может получиться экспоненциальным.

Пример грамматики для которой имеет значение порядок нетерминалов

[math]A_1 \to 0 | 1[/math]

[math]A_{i+1} \to {A_i}0 | {A_i}1 [/math] для [math]1 \leq i \lt n[/math]

Упорядочим множество нетерминалов по возрастанию индексов. Легко заметить, что правила для [math]A_i[/math] будут представлять из себя все двоичные вектора длины [math]i[/math], а значит размер грамматики будет экспоненциальным. Если упорядочить нетерминалы по убыванию в грамматике изменений не будет.

Пример

Дана грамматика

[math]A \to S\alpha [/math]

[math]S \to S\beta | A\gamma | \beta[/math]

Среди правил [math]A[/math] непосредственной рекурсии нет, поэтому во время первой итерации внешнего цикла ничего не происходит. Во время второй итерации внешнего цикла правило [math] S \to A\gamma [/math] переходит в [math] S \to S\alpha\gamma [/math].

Грамматика имеет вид

[math]A \to S\alpha [/math]

[math]S \to{S}{\beta} | {S}{\alpha}{\gamma} | \beta[/math]

Устраняем левую рекурсию для [math]S[/math]

[math] S \to\beta{S_1}[/math]

[math] {S_1} \to\beta{S_1} | \alpha\gamma{S_1} | {\beta} | {\alpha}{\gamma} [/math]

Литература

  • Хопкрофт Д., Мотвани Р., Ульман Д.Введение в теорию автоматов, языков и вычислений, 2-е изд. : Пер. с англ. — Москва, Издательский дом «Вильямс», 2002. — 528 с. : ISBN 5-8459-0261-4 (рус.)
  • Robert C. MooreRemoving Left Recursion from Context-Free Grammars