Построение FIRST и FOLLOW — различия между версиями

Версия 22:55, 28 июня 2014

Эта статья находится в разработке!

Для данной LL(1)-грамматики оказывается возможным построить нисходящий рекурсивный парсер, который по слову сможет построить его дерево разбора в грамматике или сказать, что слово не принадлежит языку грамматики. Более того, становится возможной даже автоматическая генерация парсеров для таких грамматик^[1].

Чтобы написать парсер для LL(1)-грамматики, необходимо построить множества [math] \mathrm{FIRST} [/math] и [math] \mathrm{FOLLOW} [/math], после чего по ним можно составить таблицу синтаксического анализатора.

Содержание

1 Построение FIRST
- 1.1 Псевдокод
2 Построение FOLLOW
- 2.1 Псевдокод
3 Пример
- 3.1 Конструирование FIRST для арифметических выражений
- 3.2 Конструирование FOLLOW для арифметических выражений
4 См. также
5 Примечания
6 Источники информации

Построение FIRST

Для построения [math] \mathrm{FIRST} [/math] воспользуемся несколькими леммами, которые следуют прямо из определения. Пусть [math] \alpha, \beta [/math] — цепочки из терминалов и нетерминалов, [math] c [/math] — символ из алфавита.

Лемма (1):

Данная лемма означает, что в множество [math] \mathrm{FIRST} [/math] правила [math] A \to X_1 X_2 \dots X_k [/math], где — произвольный терминал или нетерминал, — нужно добавить [math] \mathrm{FIRST}(X_i) [/math], если для всех [math] 1 \leqslant j \lt i [/math] верно, что .

Лемма (2):

Псевдокод

Алгоритм строит для каждого терминала грамматики отображение в множество символов. Перед запуском алгоритма необходимо избавиться от бесполезных символов. Изначально каждое правило отображается в пустое множество.


 function constructFIRST():
     for [math]( A  \in N )[/math]
         [math]\mathrm{FIRST}[A] =  \varnothing [/math]
     changed = true
     while changed
         changed = false
         for [math]( A \to \alpha \in P )[/math]
             [math] \mathrm{FIRST}[A]\ \cup =\ \mathrm{FIRST}(\alpha) [/math]
             changed = true if [math] \mathrm{FIRST}[A] [/math] изменился

Утверждение:

Приведённый алгоритм правильно строит множество для данной грамматики.

[math] \Leftarrow [/math]

Алгоритм на каждом шаге использует леммы, чтобы построить списки [math] \mathrm{FIRST} [/math] для каждого нетерминала. Поэтому он добавит только те терминалы, которые на самом деле лежат в [math] \mathrm{FIRST} [/math].

[math] \Rightarrow [/math]

Покажем, что алгоритм найдёт все символы из множества [math] \mathrm{FIRST} [/math].

Предположим, что в грамматике возможен вывод [math] A \Rightarrow^* c \gamma [/math], и алгоритм не включил [math] c [/math] в [math] \mathrm{FIRST}[A] [/math]. Докажем индукцией по числу шагов [math] \mathrm{while} [/math], что этого не может быть.

Пусть за [math] k [/math] шагов алгоритм добавит символы [math] c [/math] в множество [math] \mathrm{FIRST} [/math] для каждого нетерминала [math] A [/math], если [math] A \Rightarrow^k c \gamma [/math]. База индукции для числа шагов [math] 0 [/math] верна, если считать, что для всех терминалов нам известны [math] \mathrm{FIRST} [/math]. Если алгоритм корректно отрабатывает на [math](k-1)[/math]-ом шаге, то он правильно отработает их на [math]k[/math]-ом шаге, потому что

Для [math] \beta [/math] алгоритм правильно построил [math] \mathrm{FIRST} [/math] по предположению индукции, а для [math] A [/math] он правильно построит по леммам, следовательно, переход доказан.

К тому же алгоритм завершится за конечное число шагов, так как в для каждого нетерминала не может добавиться больше символов, чем есть в алфавите.

Построение FOLLOW

Сформулируем похожие утверждения для построения [math] \mathrm{FOLLOW} [/math].

Лемма (3):

Для каждого правила верно, что

Лемма (4):

Для каждого правила вида или верно, что

Псевдокод

Реализация построения [math] \mathrm{FOLLOW} [/math] получается сразу из лемм. Для алгоритма сначала требуется выполнить построение [math] \mathrm{FIRST} [/math] для грамматики.


 function constructFOLLOW():
     for [math]( A  \in N )[/math]
         [math]\mathrm{FOLLOW}[A] =  \varnothing [/math]
     [math]\mathrm{FOLLOW}[S] =  \{\$\} [/math]   // в стартовый терминал помещается символ конца строки 
     changed = true
     while changed
         changed = false
         for [math]( A \to \alpha \in P )[/math]
             for [math]( B : \alpha = \beta B \gamma)[/math]
                 [math] \mathrm{FOLLOW}[B]\ \cup =\ \mathrm{FIRST}(\gamma) \setminus \{\varepsilon\} [/math]
                 if [math] \varepsilon \in \mathrm{FIRST}(\gamma) [/math]
                     [math] \mathrm{FOLLOW}[B]\ \cup =\ \mathrm{FOLLOW}[A][/math]
                 changed = true if [math] \mathrm{FOLLOW}[B] [/math] изменился

Корректность данного алгоритма доказывается точно так же, как и корректность алгоритма конструирования [math] \mathrm{FIRST} [/math].

Пример

Рассмотрим, как будут строиться множества [math] \mathrm{FIRST} [/math] и [math] \mathrm{FOLLOW} [/math] на примере грамматики арифметических выражений. Ограничимся только операциями сложения, умножения и наличием скобок. Числа будем обозначать одной буквой [math] n [/math] для простоты. Интуитивная грамматики для арифметических выражений выглядит следующим образом:

Однако данная грамматика содержит левую рекурсию, правое ветвление и является неоднозначной. Чтобы избавиться от данных проблем неявно, можно придумать более удачную грамматику для рассматриваемого языка. Например, она может иметь следующий вид:

Данная грамматика содержит только правое ветвление, от которого можно избавиться левой факторизацией, после чего грамматика пример вид:

А затем для простоты анализирования раскрыть нетерминалы [math] E [/math] и [math] T [/math] в правилах для [math] E' [/math] и [math] T' [/math].

Конструирование FIRST для арифметических выражений

Правило	FIRST	FOLLOW
[math]A[/math]	[math]\{\ (,\ \varepsilon\ \} [/math]	[math]\{\ ),\ \$\ \} [/math]
[math]B[/math]	[math]\{\ (,\ \varepsilon\ \} [/math]	[math]\{\ (,\ ),\ \$\ \} [/math]

Конструирование FOLLOW для арифметических выражений

См. также

LL(k)-грамматики, множества FIRST и FOLLOW

Примечания

↑ ANTLR — Parser generator

Источники информации

Wikipedia — LL parser
СitForum — Синтаксический анализ
Альфред Ахо, Рави Сети, Джеффри Ульман. Компиляторы. Принципы, технологии, инструменты. Издательство Вильямс, 2003. ISBN 5-8459-0189-8

[1] ANTLR — Parser generator

[1]

@@ Строка 90: / Строка 90: @@
 <tex> E \to E + E \mid E \times E \mid (E) \mid n </tex>
-Однако данная грамматика содержит [[Устранение левой рекурсии | левую рекурсию]], [[LL(k)-грамматики, множества FIRST и FOLLOW#Теорема о связи LL(1)-грамматики с множествами FIRST и FOLLOW | правое ветвление]] и является [[Существенно неоднозначные языки#defambigous |неоднозначной]]. Чтобы избавиться от данных проблем неявно, можно придумать более удачную грамматику для языка арифметических выражений. Например, она может иметь следующий вид:
+Однако данная грамматика содержит [[Устранение левой рекурсии | левую рекурсию]], [[LL(k)-грамматики, множества FIRST и FOLLOW#Теорема о связи LL(1)-грамматики с множествами FIRST и FOLLOW | правое ветвление]] и является [[Существенно неоднозначные языки#defambigous |неоднозначной]]. Чтобы избавиться от данных проблем неявно, можно придумать более удачную грамматику для рассматриваемого языка. Например, она может иметь следующий вид:
 <tex>

Построение FIRST и FOLLOW — различия между версиями

Версия 22:55, 28 июня 2014

Содержание

Построение FIRST

Псевдокод

Построение FOLLOW

Псевдокод

Пример

Конструирование FIRST для арифметических выражений

Конструирование FOLLOW для арифметических выражений

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты