Алгоритм Эрли — различия между версиями
Kirelagin (обсуждение | вклад) (→Алгоритм Эрли) |
м (rollbackEdits.php mass rollback) |
||
(не показано 14 промежуточных версий 5 участников) | |||
Строка 1: | Строка 1: | ||
+ | __TOC__ | ||
'''Алгоритм Эрли''' позволяет определить, выводится ли данное слово <tex>w</tex> в данной [[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|контекстно-свободной]] грамматике <tex>G</tex>. | '''Алгоритм Эрли''' позволяет определить, выводится ли данное слово <tex>w</tex> в данной [[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|контекстно-свободной]] грамматике <tex>G</tex>. | ||
Строка 4: | Строка 5: | ||
'''Выход:''' <tex>true</tex>, если <tex>w</tex> выводится в <tex>G</tex>; <tex>false</tex> — иначе. | '''Выход:''' <tex>true</tex>, если <tex>w</tex> выводится в <tex>G</tex>; <tex>false</tex> — иначе. | ||
− | |||
{{Определение | {{Определение | ||
|definition = | |definition = | ||
− | Пусть <tex>G = \langle N, \Sigma, P, S \rangle</tex> {{---}} [[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|контекстно-свободная]] грамматика и <tex>w = | + | Пусть <tex>G = \langle N, \Sigma, P, S \rangle</tex> {{---}} [[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|контекстно-свободная]] грамматика и <tex>w = w_0 w_1 \ldots w_{n-1}</tex> {{---}} входная цепочка из <tex>\Sigma^*</tex>. |
− | Объект вида <tex>[A \rightarrow \alpha \cdot \beta, i]</tex>, где <tex>A \rightarrow \alpha \beta </tex> — правило из <tex>P</tex> и <tex>0 \leqslant i \leqslant n</tex> — позиция в <tex>w</tex>, называется '''ситуацией''', относящейся к цепочке <tex>w</tex>. | + | Объект вида <tex>[A \rightarrow \alpha \cdot \beta, i]</tex>, где <tex>A \rightarrow \alpha \beta </tex> — правило из <tex>P</tex> и <tex>0 \leqslant i \leqslant n</tex> — позиция в <tex>w</tex>, называется '''ситуацией''', относящейся к цепочке <tex>w</tex>, где '''<tex> \cdot </tex>''' {{---}} вспомогательный символ, который не явлется терминалом или нетерминалом ( <tex> \cdot \notin \Sigma \cup N</tex>). |
}} | }} | ||
{{Определение | {{Определение | ||
|definition = | |definition = | ||
− | + | Ситуации хранятся в множествах <tex>D_0, \ldots ,D_{n-1}</tex>, называемых '''списками ситуаций'''. Причем наличие ситуации <tex>[A \rightarrow \alpha \cdot \beta , i]</tex> в <tex>j</tex>-м списке ситуаций <tex>D_j</tex> равносильно тому, что | |
− | + | <tex>\exists \delta \in \Sigma \cup N : ((S' \Rightarrow^* w_0 \ldots w_{i-1} A \delta) \wedge A \Rightarrow^* w_i \ldots w_{j-1})</tex>. | |
− | |||
− | |||
− | |||
− | |||
}} | }} | ||
{{Определение | {{Определение | ||
|definition = | |definition = | ||
− | Последовательность списков ситуаций <tex> | + | Последовательность списков ситуаций <tex>D_0, D_1, \ldots, D_{n-1} \ </tex> называется <b>списком разбора</b> для входной цепочки <tex>w</tex>. |
}} | }} | ||
== Алгоритм Эрли == | == Алгоритм Эрли == | ||
− | Чтобы воспользоваться леммой, необходимо найти <tex> | + | Чтобы воспользоваться леммой, необходимо найти <tex>D_n</tex> для <tex>w</tex>. Алгоритм Эрли является [[Динамическое программирование|динамическим алгоритмом]]: он последовательно строит список разбора, причём при построении <tex>D_j</tex> используются <tex>D_0, \ldots, D_{j}</tex> (то есть элементы списков с меньшими номерами и ситуации, содержащиеся в текущем списке на данный момент). |
+ | Алгоритм основывается на следующих трёх правилах: | ||
+ | # Если <tex>[A \rightarrow \alpha \cdot w_{j} \beta, i] \in D_{j-1}</tex> (где <tex>w_j</tex> — <tex>j</tex>-ый символ строки), то <tex>[A \rightarrow \alpha w_{j} \cdot \beta, i] \in D_j</tex>. | ||
+ | # Если <tex>[B \rightarrow \eta \ \cdot, i] \in D_j</tex> и <tex>[A \rightarrow \alpha \cdot B \beta, k] \in D_i</tex>, то <tex>[A \rightarrow \alpha B \cdot \beta, k] \in D_j</tex>. | ||
+ | # Если <tex>[A \rightarrow \alpha \ \cdot B \beta, i] \in D_{j} </tex> и <tex>(B \rightarrow \eta) \in P </tex>, то <tex>[B \rightarrow \cdot \ \eta, j] \in D_{j}</tex>. | ||
+ | |||
+ | === Псевдокод === | ||
Для простоты добавим новый стартовый вспомогательный нетерминал <tex>S'</tex> и правило <tex>(S' \rightarrow S)</tex>. | Для простоты добавим новый стартовый вспомогательный нетерминал <tex>S'</tex> и правило <tex>(S' \rightarrow S)</tex>. | ||
+ | |||
+ | '''function''' <tex>\mathtt{earley}(G, w)</tex>: | ||
+ | <font color=green>// Инициализация </font> | ||
+ | <tex> D_{0} = \lbrace [S' \rightarrow \cdot \ S, 0] \rbrace </tex> | ||
+ | '''for''' <tex>i = 1</tex> '''to''' <tex>len(w)</tex> | ||
+ | <tex>D_i</tex> = <tex>\varnothing </tex> | ||
+ | <font color=green>// Вычисление ситуаций </font> | ||
+ | '''for''' <tex>j = 0</tex> '''to''' <tex>len(w)</tex> | ||
+ | <tex>\mathtt{scan}(D, j, G, w)</tex> | ||
+ | '''while''' <tex>D_j</tex> изменяется | ||
+ | <tex>\mathtt{complete}(D, j, G, w)</tex> | ||
+ | <tex>\mathtt{predict}(D, j, G, w)</tex> | ||
+ | <font color=green>// Результат </font> | ||
+ | '''if''' <tex>[S' \rightarrow S \ \cdot, 0] \in D_{len(w)} </tex> | ||
+ | '''return''' ''true'' | ||
+ | '''else''' | ||
+ | '''return''' ''false'' | ||
+ | |||
+ | |||
+ | '''function''' <tex>\mathtt{scan}(D, j, G, w)</tex>: | ||
+ | '''if''' <tex>j</tex> == <tex>0</tex> | ||
+ | '''return''' | ||
+ | '''for''' <tex>[A \rightarrow \alpha \cdot a \beta, i] \in D_{j - 1} </tex> | ||
+ | '''if''' <tex>a</tex> == <tex>w_{j - 1}</tex> | ||
+ | <tex>D_{j}</tex> <tex> \cup</tex>= <tex>[A \rightarrow \alpha a \cdot \beta, i]</tex> | ||
− | <tex> | + | '''function''' <tex>\mathtt{complete}(D, j, G, w)</tex>: |
− | + | '''for''' <tex>[B \rightarrow \eta \ \cdot, i] \in D_{j} </tex> | |
− | + | '''for''' <tex>[A \rightarrow \alpha \cdot B \beta, j] \in D_{i} </tex> | |
− | + | <tex>D_{j}</tex> <tex> \cup</tex>= <tex>[A \rightarrow \alpha B \cdot \beta, j]</tex> | |
− | for <tex>[A \rightarrow \alpha \cdot | ||
− | |||
− | |||
− | function | + | '''function''' <tex>\mathtt{predict}(D, j, G, w)</tex>: |
− | + | '''for''' <tex>[A \rightarrow \alpha \cdot B \beta, i] \in D_{j} </tex> | |
− | + | '''for''' <tex>(B \rightarrow \eta) \in P </tex> | |
− | + | <tex>D_{j}</tex> <tex>\cup</tex>= <tex>[B \rightarrow \cdot \ \eta, j]</tex> | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
==Корректность алгоритма== | ==Корректность алгоритма== | ||
{{Теорема | {{Теорема | ||
− | |statement = Приведенный алгоритм правильно строит все списки ситуаций. | + | |statement = Приведенный алгоритм правильно строит все списки ситуаций. |
+ | То есть алгоритм поддерживает инвариант <tex> [A \rightarrow \alpha \cdot \beta, i] \in D_{j} \Longleftrightarrow \exists \delta \in \Sigma \cup N : ((S' \Rightarrow^* w_0 \ldots w_{i-1} A \delta) \wedge A \Rightarrow^* w_i \ldots w_{j-1})</tex> | ||
|proof = | |proof = | ||
− | + | <b><tex>\Longrightarrow</tex></b><br/> | |
Докажем индукцией по исполнению алгоритма.<br/> | Докажем индукцией по исполнению алгоритма.<br/> | ||
− | База | + | <u> ''База индукции:'' </u><br/> |
− | + | <tex>[S' \rightarrow \cdot S, 0] \in D_0 \ </tex>.<br/> | |
+ | <u> ''Индукционный переход:'' </u> <br/> | ||
+ | Пусть предположение верно для всех списков ситуаций с номерами меньше <tex> j </tex>. Разберемся, в результате применения какого правила ситуация <tex> [A \rightarrow \alpha \cdot \beta, i] </tex> попала в <tex>D_{j}</tex><br/> | ||
− | 1. Включаем по правилу <tex> | + | 1. Включаем по правилу <tex> \mathtt{scan} \ </tex>.<br/> |
− | + | Это произошло, если <tex> \alpha = \alpha ' a</tex>, <tex>a = w_{j-1}</tex> и <tex> [A \rightarrow \alpha ' \cdot a \beta, i] \in D_{j-1}</tex>.<br/> | |
+ | По предположению индукции <tex>S' \Rightarrow^* w_0 \ldots w_{i-1} A \delta</tex> и <tex>\alpha' \Rightarrow^* w_i \ldots w_{j-2}</tex>,<br/> | ||
+ | тогда в силу <tex>a = w_{j-1}</tex> получаем <tex>\alpha = \alpha ' a \Rightarrow^* w_i \ldots w_{j-2}w_{j-1} = w_i \ldots w_{j-1} \ </tex>.<br/> | ||
+ | Таким образом условия: <tex>S' \Rightarrow^* w_0 \ldots w_{i-1} A \delta</tex> и <tex>\alpha \Rightarrow^* w_i \ldots w_{j-1}</tex> выполняются. | ||
− | 2. Включаем по правилу <tex> | + | 2. Включаем по правилу <tex> \mathtt{predict} \ </tex>.<br/> |
− | + | По построению: <tex> \alpha = \varepsilon </tex> и <tex>i=j</tex>, что автоматически влечет второй пункт утверждения.<br/> | |
+ | Кроме того <tex>\exists i' \le i</tex> и ситуация <tex>[A' \rightarrow \alpha ' \cdot A \delta ', i'] \in D_i</tex>, из чего по предположению индукции следует <tex>S' \Rightarrow^* w_0 \ldots w_{i'-1} A' \delta ''</tex> | ||
+ | и <tex> \alpha ' \Rightarrow^* w_{i'} \ldots w_{i-1}</tex>.<br/> | ||
+ | Получаем, что <tex>S' \Rightarrow^* w_0 \ldots w_{i'-1} A' \delta ''</tex>, значит <tex>S \Rightarrow^* w_0 \ldots w_{i'-1} \alpha' A \delta' \delta '' </tex>, следовательно <tex> S' \Rightarrow^* w_0 \ldots w_{i'-1} w_{i'} \ldots w_{i-1} A \delta' \delta '' | ||
+ | </tex>, в итоге <tex> S' \Rightarrow^* w_0 \ldots w_{i-1} A \delta</tex>, что нам и требовалось. | ||
− | 3. Включаем по правилу <tex> | + | 3. Включаем по правилу <tex> \mathtt{complete} \ </tex>.<br/> |
− | + | По построению: <tex> \alpha = \alpha ' A' </tex> и <tex>\exists i', \delta : [A \rightarrow \alpha ' \cdot A' \beta, i] \in D_{i'} \wedge [A' \rightarrow \eta \cdot, i'] \in D_j</tex>.<br/> | |
+ | Cледовательно <tex>\alpha = \alpha ' A' \Rightarrow^* w_i \ldots w_{i'-1} w_{i'} \ldots w_{j} = w_i \ldots w_{j-1}</tex>, что дает нам второй пункт утверждения, а так как первый пункт следует из индукционного предположения, все хорошо. | ||
− | + | <b><tex>\Longleftarrow</tex></b><br/> | |
− | + | В обратную сторону будем доказывать индукцией по суммарной длине вывода <tex>w_0 \ldots w_{i-1} A \delta \ </tex> из <tex>S'</tex> и <tex>w_i \ldots w_{j-1}</tex> из <tex>\alpha</tex>. После чего применим | |
+ | индукцию по длине вывода <tex>w_i \ldots w_{j-1}</tex> из <tex>\alpha</tex>.<br/> | ||
+ | Рассмотрим три случая последнего символа <tex>\alpha</tex>: | ||
− | + | 1. <tex>\alpha = \alpha ' a</tex>, тогда <tex>a = w_{j-1}</tex> и <tex>\alpha ' \Rightarrow^* w_i \ldots w_{j-2}</tex>.<br/> | |
+ | По предположению индукции: <tex>[A \rightarrow \alpha ' \cdot a \beta, i] \in D_{j-1}</tex>, а отсюда по правилу <tex> \mathtt{scan}</tex> получаем <tex>[A \rightarrow \alpha ' a \cdot \beta, i] \in D_{j}</tex>. | ||
− | + | 2. <tex>\alpha = \alpha ' B</tex>, тогда <tex>\exists i' : \alpha ' \Rightarrow^* w_i \ldots w_{i'-1} \wedge B ' \Rightarrow^* w_{i'} \ldots w_{j-1}</tex>.<br/> | |
− | + | Тогда имеем <tex>[A \rightarrow \alpha ' a \cdot \beta, i] \in D_{j}</tex>. Также можно записать <tex>S' \Rightarrow^* w_0 \ldots w_{i-1} A \delta</tex>, как <tex>S' \Rightarrow^* w_0 \ldots w_{i-1} w_i \ldots w_{i'-1}B \beta \delta</tex>, | |
− | + | а также <tex>B \rightarrow \eta \wedge \eta \rightarrow w_{i'} \ldots w_{j-1}</tex>.<br/> | |
− | + | Применяя индукцию по второму параметру получим <tex>[B \rightarrow \eta \cdot, i'] \in D_j \ </tex>, откуда по правилу <tex> \mathtt{complete}</tex> получаем <tex>[A \rightarrow \alpha ' B \cdot \beta, i] \in D_{j}</tex>. | |
− | + | 3. <tex>\alpha = \varepsilon </tex>, тогда <tex>i=j</tex>.<br/> | |
− | <tex>\ | + | Тогда либо <tex>i = 0 \wedge A = S \wedge \delta = \varepsilon</tex>, что доказывает базу индукции,<br/> |
+ | либо вывод можно записать в виде <tex>S' \Rightarrow^* w_0 \ldots w{i'-1}w_{i'} \ldots w{i-1} A \delta ' \delta '' = w_0 \ldots w_{i-1} A \delta \ </tex> для некоторого правила <tex>(A' \rightarrow w_{i'} \ldots w_{i-1} A \delta ') \in P</tex>. <br/> | ||
+ | Отсюда по предположению индукции <tex>[A' \rightarrow \cdot w_{i'} \ldots w_{i-1} A \delta ', i'] \in D_{i'} \ </tex>, | ||
+ | что после нескольких применений правила <tex> \mathtt{scan}</tex> приводит к <tex>[A' \rightarrow w_{i'} \ldots w_{i-1} \cdot A \delta ', i'] \in D_{i} \ </tex>, | ||
+ | после чего по правилу <tex> \mathtt{predict} \ </tex> получим <tex>[A \rightarrow \cdot \beta, i] \in D_{j} \ </tex>, что и требовалось. | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
}} | }} | ||
==Пример== | ==Пример== | ||
Построим список разбора для строки <tex>w = (a + a)</tex> в грамматике со следующими правилами: | Построим список разбора для строки <tex>w = (a + a)</tex> в грамматике со следующими правилами: | ||
− | * <tex>S \rightarrow T + S</tex> | + | * <tex>S \rightarrow T + S</tex> |
− | * <tex>S \rightarrow T </tex> | + | * <tex>S \rightarrow T </tex> |
− | * <tex>T \rightarrow F * T</tex> | + | * <tex>T \rightarrow F * T</tex> |
− | * <tex>T \rightarrow F</tex> | + | * <tex>T \rightarrow F</tex> |
− | * <tex>F \rightarrow ( S )</tex> | + | * <tex>F \rightarrow ( S )</tex> |
− | * <tex>F \rightarrow a</tex> | + | * <tex>F \rightarrow a</tex> |
{| | {| | ||
Строка 111: | Строка 136: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | !<tex> | + | !<tex>D_0</tex> |
|- | |- | ||
| | | | ||
Строка 138: | Строка 163: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | !<tex> | + | !<tex>D_1</tex> |
|- | |- | ||
| | | | ||
Строка 165: | Строка 190: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | !<tex> | + | !<tex>D_2</tex> |
|- | |- | ||
| | | | ||
Строка 191: | Строка 216: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | !<tex> | + | !<tex>D_3</tex> |
|- | |- | ||
| | | | ||
Строка 218: | Строка 243: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | !<tex> | + | !<tex>D_4</tex> |
|- | |- | ||
| | | | ||
Строка 245: | Строка 270: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | !<tex> | + | !<tex>D_5</tex> |
|- | |- | ||
| | | | ||
Строка 268: | Строка 293: | ||
|} | |} | ||
− | Так как <tex>[S' \rightarrow S \cdot , 0] \in | + | Так как <tex>[S' \rightarrow S \cdot , 0] \in D_5</tex>, то <tex>w \in L(G) </tex>.<br> |
+ | |||
+ | ==См. также== | ||
+ | * [[Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ]] | ||
+ | * [[Алгоритм Кока-Янгера-Касами, модификация для произвольной грамматики]] | ||
+ | |||
+ | ==Источники информации== | ||
+ | *[http://lpcs.math.msu.su/~sk/lehre/fivt2013/Earley.pdf Алексей Сорокин {{---}} Алгоритм Эрли] | ||
+ | * Ахо А., Ульман Д.{{---}} Теория синтакcического анализа, перевода и компиляции. Том 1. Синтаксический анализ. Пер. с англ. {{---}} М.:«Мир», 1978. С. 358 — 364. | ||
− | + | [[Категория: Теория формальных языков]] | |
− | + | [[Категория: Контекстно-свободные грамматики]] | |
+ | [[Категория: Алгоритмы разбора]] |
Текущая версия на 19:27, 4 сентября 2022
Алгоритм Эрли позволяет определить, выводится ли данное слово контекстно-свободной грамматике .
в даннойВход: КС грамматика
Выход: , если выводится в ; — иначе.
Определение: |
Пусть контекстно-свободная грамматика и — входная цепочка из . Объект вида , где — правило из и — позиция в , называется ситуацией, относящейся к цепочке , где — вспомогательный символ, который не явлется терминалом или нетерминалом ( ). | —
Определение: |
Ситуации хранятся в множествах | , называемых списками ситуаций. Причем наличие ситуации в -м списке ситуаций равносильно тому, что .
Определение: |
Последовательность списков ситуаций | называется списком разбора для входной цепочки .
Алгоритм Эрли
Чтобы воспользоваться леммой, необходимо найти динамическим алгоритмом: он последовательно строит список разбора, причём при построении используются (то есть элементы списков с меньшими номерами и ситуации, содержащиеся в текущем списке на данный момент).
для . Алгоритм Эрли являетсяАлгоритм основывается на следующих трёх правилах:
- Если (где — -ый символ строки), то .
- Если и , то .
- Если и , то .
Псевдокод
Для простоты добавим новый стартовый вспомогательный нетерминал
и правило .function: // Инициализация for to = // Вычисление ситуаций for to while изменяется // Результат if return true else return false
function: if == return for if == =
function: for for =
function: for for =
Корректность алгоритма
Теорема: |
Приведенный алгоритм правильно строит все списки ситуаций.
То есть алгоритм поддерживает инвариант |
Доказательство: |
1. Включаем по правилу 2. Включаем по правилу 3. Включаем по правилу
1. 2. 3. |
Пример
Построим список разбора для строки
в грамматике со следующими правилами:
|
|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
Так как
См. также
Источники информации
- Алексей Сорокин — Алгоритм Эрли
- Ахо А., Ульман Д.— Теория синтакcического анализа, перевода и компиляции. Том 1. Синтаксический анализ. Пер. с англ. — М.:«Мир», 1978. С. 358 — 364.