LL(k)-грамматики, множества FIRST и FOLLOW — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м (FIRST и FOLLOW)
м (FIRST и FOLLOW)
Строка 22: Строка 22:
 
Ключевую роль в построении парсеров для LL(1)-грамматик играю множества <tex> \mathrm{FIRST} </tex> и <tex> \mathrm{FOLLOW} </tex>.  
 
Ключевую роль в построении парсеров для LL(1)-грамматик играю множества <tex> \mathrm{FIRST} </tex> и <tex> \mathrm{FOLLOW} </tex>.  
  
Пусть <tex> c </tex> {{---}} символ из алфавита <tex> \Sigma </tex>, <tex> \alpha,\ \beta </tex> {{---}} строки из нетерминалов и терминалов (возможно пустые), <tex> S,\ A </tex> {{---}} нетерминалы грамматики (начальное и произвольное соответственно), <tex> \$ </tex> {{---}} символ окончания слова. Также будем считать, что в грамматике нет [[Удаление бесполезных символов из грамматики | недостижимых правил]]. Тогда определим <tex> \mathrm{FIRST} </tex> и <tex> \mathrm{FOLLOW} </tex> следующим образом:  
+
Пусть <tex> c </tex> {{---}} символ из алфавита <tex> \Sigma </tex>, <tex> \alpha,\ \beta </tex> {{---}} строки из нетерминалов и терминалов (возможно пустые), <tex> S,\ A </tex> {{---}} нетерминалы грамматики (начальный и произвольный соответственно), <tex> \$ </tex> {{---}} символ окончания слова. Также будем считать, что в грамматике нет [[Удаление бесполезных символов из грамматики | недостижимых правил]]. Тогда определим <tex> \mathrm{FIRST} </tex> и <tex> \mathrm{FOLLOW} </tex> следующим образом:  
 
{{Определение
 
{{Определение
 
|id=deffirst
 
|id=deffirst

Версия 01:50, 28 июня 2014

Эта статья находится в разработке!

Наибольший интерес в построении синтаксических анализаторов (парсеров) представляют LL(1)-грамматики, так как для них возможно построение нисходящих парсеров без возврата, то есть без корректировки выбранных правил в грамматике. LL(1)-грамматики являются подмножеством КС-грамматик. Однако для достаточно большого количества формальных языков можно построить LL(1)-грамматику, например, для языка арифметических выражений и даже для некоторых языков программирования, в частности можно и для языка Java.

LL(k)-грамматика

Дадим теперь формально определение LL(k)-грамматики.

Определение:
Пусть [math]\Gamma =\langle \Sigma, N, S, P \rangle[/math] — КС-грамматика. Рассмотрим возникновение следующей ситуации во время левостороннего вывода в этой грамматике слова [math] w [/math]:
  • [math] S \Rightarrow^* p A \beta \Rightarrow p \alpha \beta \Rightarrow^* p y \eta [/math]
  • [math] S \Rightarrow^* p A \beta \Rightarrow p \alpha' \beta \Rightarrow^* p y \xi [/math]

где [math] S [/math] — стартовый нетерминал грамматики, [math] p [/math] и [math] y [/math] — цепочки из терминалов, уже разобранная часть слова [math] w [/math], [math] A [/math] — нетерминал грамматики, в которой есть правила [math] A \rightarrow \alpha [/math] и [math] A \rightarrow \alpha' [/math], причём [math] \alpha, \alpha', \beta, \eta, \xi [/math] — последовательности из терминалов и нетерминалов.

Тогда если при выполнении условий, что [math] |y| = k [/math] или [math] |y| \lt k, \eta = \xi = \varepsilon [/math], верно, что [math] \alpha = \alpha' [/math], то [math] \Gamma [/math] называется LL(k)-грамматикой.

Неформально это означает, что если мы уже вывели какой-то префикс разбираемого слова, то, посмотрев на следующие [math] k [/math] cимволов, сможем одназначно выбрать правило вывода.

TODO: картинка

LL(1)-грамматика является частным случаем. Её определение почти такое же, только вместо строки [math] y [/math] один символ [math] c \in \Sigma \cup \{\varepsilon\} [/math].

FIRST и FOLLOW

Ключевую роль в построении парсеров для LL(1)-грамматик играю множества [math] \mathrm{FIRST} [/math] и [math] \mathrm{FOLLOW} [/math].

Пусть [math] c [/math] — символ из алфавита [math] \Sigma [/math], [math] \alpha,\ \beta [/math] — строки из нетерминалов и терминалов (возможно пустые), [math] S,\ A [/math] — нетерминалы грамматики (начальный и произвольный соответственно), [math] \$ [/math] — символ окончания слова. Также будем считать, что в грамматике нет недостижимых правил. Тогда определим [math] \mathrm{FIRST} [/math] и [math] \mathrm{FOLLOW} [/math] следующим образом:

Определение:
[math] \mathrm{FIRST}(\alpha) = \{c \mid \alpha \Rightarrow^* c \beta \} \cup \{ \varepsilon\ \mathrm{if}\ \alpha \Rightarrow^* \varepsilon \} [/math]


Определение:
[math] \mathrm{FOLLOW}(A) = \{c \mid S \Rightarrow^* \alpha A c \beta \} \cup \{ \$ \ \mathrm{if}\ S \Rightarrow^* \alpha A \} [/math]

Другими словами, [math] \mathrm{FIRST}(\alpha) [/math] — все символы (терминалы), с которых могут начинаться всевозможные выводы из [math] \alpha [/math], а [math] \mathrm{FOLLOW}(A) [/math] — всевозможные символы, которые встречаются после нетерминала [math] A [/math] во всех правилах грамматики.

Примеры

TODO: Какие-нибудь примеры

Теорема о связи LL(1)-грамматики с множествами FIRST и FOLLOW

TODO: Теорема об LL(1)-грамматиках

TODO: Пара следствий

См. также

Источники информации