|
|
Строка 36: |
Строка 36: |
| <font color=green>// Инициализация </font> | | <font color=green>// Инициализация </font> |
| <tex> D_{0} = \lbrace [S' \rightarrow \cdot \ S, 0] \rbrace </tex> | | <tex> D_{0} = \lbrace [S' \rightarrow \cdot \ S, 0] \rbrace </tex> |
− | '''for''' <tex>i = 1</tex> '''to''' <tex>len(w) - 1</tex> | + | '''for''' <tex>i = 1</tex> '''to''' <tex>len(w)</tex> |
| <tex>D_i</tex> = <tex>\varnothing </tex> | | <tex>D_i</tex> = <tex>\varnothing </tex> |
| <font color=green>// Вычисление ситуаций </font> | | <font color=green>// Вычисление ситуаций </font> |
− | '''for''' <tex>j = 0</tex> '''to''' <tex>len(w) - 1</tex> | + | '''for''' <tex>j = 0</tex> '''to''' <tex>len(w)</tex> |
| <tex>\mathtt{scan}(D, j, G, w)</tex> | | <tex>\mathtt{scan}(D, j, G, w)</tex> |
| '''while''' <tex>D_j</tex> изменяется | | '''while''' <tex>D_j</tex> изменяется |
Строка 50: |
Строка 50: |
| '''return''' ''false'' | | '''return''' ''false'' |
| | | |
− | <font color=green>// Первое правило </font>
| + | |
| '''function''' <tex>\mathtt{scan}(D, j, G, w)</tex>: | | '''function''' <tex>\mathtt{scan}(D, j, G, w)</tex>: |
| '''if''' <tex>j</tex> == <tex>0</tex> | | '''if''' <tex>j</tex> == <tex>0</tex> |
Строка 56: |
Строка 56: |
| '''for''' <tex>[A \rightarrow \alpha \cdot a \beta, i] \in D_{j - 1} </tex> | | '''for''' <tex>[A \rightarrow \alpha \cdot a \beta, i] \in D_{j - 1} </tex> |
| '''if''' <tex>a</tex> == <tex>w_{j - 1}</tex> | | '''if''' <tex>a</tex> == <tex>w_{j - 1}</tex> |
− | <tex>D_{j}</tex> <tex> \cup</tex>= <tex>[A \rightarrow \alpha \cdot a \beta, i]</tex> | + | <tex>D_{j}</tex> <tex> \cup</tex>= <tex>[A \rightarrow \alpha a \cdot \beta, i]</tex> |
− |
| + | |
− | <font color=green>// Второе правило </font>
| |
| '''function''' <tex>\mathtt{complete}(D, j, G, w)</tex>: | | '''function''' <tex>\mathtt{complete}(D, j, G, w)</tex>: |
| '''for''' <tex>[B \rightarrow \eta \ \cdot, i] \in D_{j} </tex> | | '''for''' <tex>[B \rightarrow \eta \ \cdot, i] \in D_{j} </tex> |
− | '''for''' <tex>[A \rightarrow \alpha \cdot B \beta, k] \in D_{i} </tex> | + | '''for''' <tex>[A \rightarrow \alpha \cdot B \beta, j] \in D_{i} </tex> |
− | <tex>D_{j}</tex> <tex> \cup</tex>= <tex>[A \rightarrow \alpha B \cdot \beta, k]</tex> | + | <tex>D_{j}</tex> <tex> \cup</tex>= <tex>[A \rightarrow \alpha B \cdot \beta, j]</tex> |
| | | |
− | <font color=green>// Третье правило </font>
| |
| '''function''' <tex>\mathtt{predict}(D, j, G, w)</tex>: | | '''function''' <tex>\mathtt{predict}(D, j, G, w)</tex>: |
| '''for''' <tex>[A \rightarrow \alpha \cdot B \beta, i] \in D_{j} </tex> | | '''for''' <tex>[A \rightarrow \alpha \cdot B \beta, i] \in D_{j} </tex> |
Алгоритм Эрли позволяет определить, выводится ли данное слово [math]w[/math] в данной контекстно-свободной грамматике [math]G[/math].
Вход: КС грамматика [math] G=\langle N,\Sigma, P, S \rangle[/math] и слово [math]w[/math].
Выход: [math]true[/math], если [math]w[/math] выводится в [math]G[/math]; [math]false[/math] — иначе.
Определение: |
Пусть [math]G = \langle N, \Sigma, P, S \rangle[/math] — контекстно-свободная грамматика и [math]w = w_0 w_1 ... w_{n-1}[/math] — входная цепочка из [math]\Sigma^*[/math].
Объект вида [math][A \rightarrow \alpha \cdot \beta, i][/math], где [math]A \rightarrow \alpha \beta [/math] — правило из [math]P[/math] и [math]0 \leqslant i \leqslant n[/math] — позиция в [math]w[/math], называется ситуацией, относящейся к цепочке [math]w[/math], где [math] \cdot [/math] — вспомогательный символ, который не явлется терминалом или нетерминалом ( [math] \cdot \notin \Sigma \cup N[/math]). |
Определение: |
Ситуации хранятся в множествах [math]D_0,...,D_{n-1}[/math], называемых списками ситуаций. Причем наличие ситуации [math][A \rightarrow \alpha \cdot \beta , i][/math] в [math]j[/math]-м списке ситуаций [math]D_j[/math] равносильно тому, что
[math]\exists \delta \in \Sigma \cup N : ((S' \Rightarrow^* w_0...w_{i-1} A \delta) \wedge A \Rightarrow^* w_i...w_{j-1})[/math]. |
Определение: |
Последовательность списков ситуаций [math]D_0, D_1, .., D_{n-1} \ [/math] называется списком разбора для входной цепочки [math]w[/math]. |
Алгоритм Эрли
Чтобы воспользоваться леммой, необходимо найти [math]D_n[/math] для [math]w[/math]. Алгоритм Эрли является динамическим алгоритмом: он последовательно строит список разбора, причём при построении [math]D_j[/math] используются [math]D_0, \ldots, D_{j}[/math] (то есть элементы списков с меньшими номерами и ситуации, содержащиеся в текущем списке на данный момент).
Алгоритм основывается на следующих трёх правилах:
- Если [math][A \rightarrow \alpha \cdot w_{j} \beta, i] \in D_{j-1}[/math] (где [math]w_j[/math] — [math]j[/math]-ый символ строки), то [math][A \rightarrow \alpha w_{j} \cdot \beta, i] \in D_j[/math].
- Если [math][B \rightarrow \eta \ \cdot, i] \in D_j[/math] и [math][A \rightarrow \alpha \cdot B \beta, k] \in D_i[/math], то [math][A \rightarrow \alpha B \cdot \beta, k] \in D_j[/math].
- Если [math][A \rightarrow \alpha \ \cdot B \beta, i] \in D_{j} [/math] и [math](B \rightarrow \eta) \in P [/math], то [math][B \rightarrow \cdot \ \eta, j] \in D_{j}[/math].
Псевдокод
Для простоты добавим новый стартовый вспомогательный нетерминал [math]S'[/math] и правило [math](S' \rightarrow S)[/math].
function [math]\mathtt{earley}(G, w)[/math]:
// Инициализация
[math] D_{0} = \lbrace [S' \rightarrow \cdot \ S, 0] \rbrace [/math]
for [math]i = 1[/math] to [math]len(w)[/math]
[math]D_i[/math] = [math]\varnothing [/math]
// Вычисление ситуаций
for [math]j = 0[/math] to [math]len(w)[/math]
[math]\mathtt{scan}(D, j, G, w)[/math]
while [math]D_j[/math] изменяется
[math]\mathtt{complete}(D, j, G, w)[/math]
[math]\mathtt{predict}(D, j, G, w)[/math]
// Результат
if [math][S' \rightarrow S \ \cdot, 0] \in D_{len(w)} [/math]
return true
else
return false
function [math]\mathtt{scan}(D, j, G, w)[/math]:
if [math]j[/math] == [math]0[/math]
return
for [math][A \rightarrow \alpha \cdot a \beta, i] \in D_{j - 1} [/math]
if [math]a[/math] == [math]w_{j - 1}[/math]
[math]D_{j}[/math] [math] \cup[/math]= [math][A \rightarrow \alpha a \cdot \beta, i][/math]
function [math]\mathtt{complete}(D, j, G, w)[/math]:
for [math][B \rightarrow \eta \ \cdot, i] \in D_{j} [/math]
for [math][A \rightarrow \alpha \cdot B \beta, j] \in D_{i} [/math]
[math]D_{j}[/math] [math] \cup[/math]= [math][A \rightarrow \alpha B \cdot \beta, j][/math]
function [math]\mathtt{predict}(D, j, G, w)[/math]:
for [math][A \rightarrow \alpha \cdot B \beta, i] \in D_{j} [/math]
for [math](B \rightarrow \eta) \in P [/math]
[math]D_{j}[/math] [math]\cup[/math]= [math][B \rightarrow \cdot \ \eta, j][/math]
Корректность алгоритма
Теорема: |
Приведенный алгоритм правильно строит все списки ситуаций.
То есть алгоритм поддерживает инвариант [math] [A \rightarrow \alpha \cdot \beta, i] \in D_{j} \Longleftrightarrow \exists \delta \in \Sigma \cup N : ((S' \Rightarrow^* w_0...w_{i-1} A \delta) \wedge A \Rightarrow^* w_i...w_{j-1})[/math] |
Доказательство: |
[math]\triangleright[/math] |
[math]\Longrightarrow[/math]
Докажем индукцией по исполнению алгоритма.
База индукции:
[math][S' \rightarrow \cdot S, 0] \in D_0 \ [/math].
Индукционный переход:
Пусть предположение верно для всех списков ситуаций с номерами меньше [math] j [/math]. Разберемся, в результате применения какого правила ситуация [math] [A \rightarrow \alpha \cdot \beta, i] [/math] попала в [math]D_{j}[/math]
1. Включаем по правилу [math] \mathtt{scan} \ [/math].
Это произошло, если [math] \alpha = \alpha ' a[/math], [math]a = w_{j-1}[/math] и [math] [A \rightarrow \alpha ' \cdot a \beta, i] \in D_{j-1}[/math].
По предположению индукции [math]S' \Rightarrow^* w_0...w_{i-1} A \delta[/math] и [math]\alpha' \Rightarrow^* w_i...w_{j-2}[/math],
тогда в силу [math]a = w_{j-1}[/math] получаем [math]\alpha = \alpha ' a \Rightarrow^* w_i...w_{j-2}w_{j-1} = w_i...w_{j-1} \ [/math].
Таким образом условия: [math]S' \Rightarrow^* w_0...w_{i-1} A \delta[/math] и [math]\alpha \Rightarrow^* w_i...w_{j-1}[/math] выполняются.
2. Включаем по правилу [math] \mathtt{predict} \ [/math].
По построению: [math] \alpha = \varepsilon [/math] и [math]i=j[/math], что автоматически влечет второй пункт утверждения.
Кроме того [math]\exists i' \le i[/math] и ситуация [math][A' \rightarrow \alpha ' \cdot A \delta ', i'] \in D_i[/math], из чего по предположению индукции следует [math]S' \Rightarrow^* w_0...w_{i'-1} A' \delta ''[/math]
и [math] \alpha ' \Rightarrow^* w_{i'}...w_{i-1}[/math].
Получаем, что [math]S' \Rightarrow^* w_0...w_{i'-1} A' \delta ''[/math], значит [math]S \Rightarrow^* w_0...w_{i'-1} \alpha' A \delta' \delta '' [/math], следовательно [math] S' \Rightarrow^* w_0...w_{i'-1} w_{i'}...w_{i-1} A \delta' \delta ''
[/math], в итоге [math] S' \Rightarrow^* w_0...w_{i-1} A \delta[/math], что нам и требовалось.
3. Включаем по правилу [math] \mathtt{complete} \ [/math].
По построению: [math] \alpha = \alpha ' A' [/math] и [math]\exists i', \delta : [A \rightarrow \alpha ' \cdot A' \beta, i] \in D_{i'} \wedge [A' \rightarrow \eta \cdot, i'] \in D_j[/math].
Cледовательно [math]\alpha = \alpha ' A' \Rightarrow^* w_i...w_{i'-1} w_{i'}...w_{j} = w_i...w_{j-1}[/math], что дает нам второй пункт утверждения, а так как первый пункт следует из индукционного предположения, все хорошо.
[math]\Longleftarrow[/math]
В обратную сторону будем доказывать индукцией по суммарной длине вывода [math]w_0...w_{i-1} A \delta \ [/math] из [math]S'[/math] и [math]w_i...w_{j-1}[/math] из [math]\alpha[/math]. После чего применим
индукцию по длине вывода [math]w_i...w_{j-1}[/math] из [math]\alpha[/math].
Рассмотрим три случая последнего символа [math]\alpha[/math]:
1. [math]\alpha = \alpha ' a[/math], тогда [math]a = w_{j-1}[/math] и [math]\alpha ' \Rightarrow^* w_i...w_{j-2}[/math].
По предположению индукции: [math][A \rightarrow \alpha ' \cdot a \beta, i] \in D_{j-1}[/math], а отсюда по правилу [math] \mathtt{scan}[/math] получаем [math][A \rightarrow \alpha ' a \cdot \beta, i] \in D_{j}[/math].
2. [math]\alpha = \alpha ' B[/math], тогда [math]\exists i' : \alpha ' \Rightarrow^* w_i...w_{i'-1} \wedge B ' \Rightarrow^* w_{i'}...w_{j-1}[/math].
Тогда имеем [math][A \rightarrow \alpha ' a \cdot \beta, i] \in D_{j}[/math]. Также можно записать [math]S' \Rightarrow^* w_0...w_{i-1} A \delta[/math], как [math]S' \Rightarrow^* w_0...w_{i-1} w_i...w_{i'-1}B \beta \delta[/math],
а также [math]B \rightarrow \eta \wedge \eta \rightarrow w_{i'}...w_{j-1}[/math].
Применяя индукцию по второму параметру получим [math][B \rightarrow \eta \cdot, i'] \in D_j \ [/math], откуда по правилу [math] \mathtt{complete}[/math] получаем [math][A \rightarrow \alpha ' B \cdot \beta, i] \in D_{j}[/math].
3. [math]\alpha = \varepsilon [/math], тогда [math]i=j[/math].
Тогда либо [math]i = 0 \wedge A = S \wedge \delta = \varepsilon[/math], что доказывает базу индукции,
либо вывод можно записать в виде [math]S' \Rightarrow^* w_0...w{i'-1}w_{i'}...w{i-1} A \delta ' \delta '' = w_0...w_{i-1} A \delta \ [/math] для некоторого правила [math](A' \rightarrow w_{i'}...w_{i-1} A \delta ') \in P[/math].
Отсюда по предположению индукции [math][A' \rightarrow \cdot w_{i'}...w_{i-1} A \delta ', i'] \in D_{i'} \ [/math],
что после нескольких применений правила [math] \mathtt{scan}[/math] приводит к [math][A' \rightarrow w_{i'}...w_{i-1} \cdot A \delta ', i'] \in D_{i} \ [/math],
после чего по правилу [math] \mathtt{predict} \ [/math] получим [math][A \rightarrow \cdot \beta, i] \in D_{j} \ [/math], что и требовалось. |
[math]\triangleleft[/math] |
Пример
Построим список разбора для строки [math]w = (a + a)[/math] в грамматике со следующими правилами:
- [math]S \rightarrow T + S[/math]
- [math]S \rightarrow T [/math]
- [math]T \rightarrow F * T[/math]
- [math]T \rightarrow F[/math]
- [math]F \rightarrow ( S )[/math]
- [math]F \rightarrow a[/math]
[math]D_0[/math]
|
Ситуация |
Из правила
|
[math][S' \rightarrow \cdot S, 0][/math] |
0
|
[math][S \rightarrow \cdot T + S, 0][/math] |
3
|
[math][S \rightarrow \cdot T, 0][/math] |
3
|
[math][T \rightarrow \cdot F * T, 0][/math] |
3
|
[math][T \rightarrow \cdot F, 0][/math] |
3
|
[math][F \rightarrow \cdot ( S ), 0][/math] |
3
|
[math][F \rightarrow \cdot a, 0][/math] |
3
|
|
|
[math]D_1[/math]
|
Ситуация |
Из правила
|
[math][F \rightarrow ( \cdot S ), 0][/math] |
1
|
[math][S \rightarrow \cdot T + S, 1][/math] |
3
|
[math][S \rightarrow \cdot T, 1][/math] |
3
|
[math][T \rightarrow \cdot F * T, 1][/math] |
3
|
[math][T \rightarrow \cdot F, 1][/math] |
3
|
[math][F \rightarrow \cdot ( S ), 1][/math] |
3
|
[math][F \rightarrow \cdot a, 1][/math] |
3
|
|
|
[math]D_2[/math]
|
Ситуация |
Из правила
|
[math][F \rightarrow a \cdot, 1][/math] |
1
|
[math][T \rightarrow F \cdot * T, 1][/math] |
2
|
[math][T \rightarrow F \cdot , 1][/math] |
2
|
[math][S \rightarrow T \cdot , 1][/math] |
2
|
[math][S \rightarrow T \cdot + S, 1][/math] |
2
|
[math][F \rightarrow ( S \cdot ), 0][/math] |
2
|
|
|
[math]D_3[/math]
|
Ситуация |
Из правила
|
[math][S \rightarrow T + \cdot S, 1][/math] |
1
|
[math][S \rightarrow \cdot T + S, 3][/math] |
3
|
[math][S \rightarrow \cdot T, 3][/math] |
3
|
[math][T \rightarrow \cdot F * T, 3][/math] |
3
|
[math][T \rightarrow \cdot F, 3][/math] |
3
|
[math][F \rightarrow \cdot ( S ), 3][/math] |
3
|
[math][F \rightarrow \cdot a, 3][/math] |
3
|
|
|
[math]D_4[/math]
|
Ситуация |
Из правила
|
[math][F \rightarrow a \cdot , 3][/math] |
1
|
[math][T \rightarrow F \cdot * T, 3][/math] |
2
|
[math][T \rightarrow F \cdot , 3][/math] |
2
|
[math][S \rightarrow T \cdot + S, 3][/math] |
2
|
[math][S \rightarrow T \cdot , 3][/math] |
2
|
[math][S \rightarrow T + S \cdot , 1][/math] |
2
|
[math][F \rightarrow ( S \cdot ), 0][/math] |
2
|
|
|
[math]D_5[/math]
|
Ситуация |
Из правила
|
[math][F \rightarrow ( S )\cdot , 0][/math] |
1
|
[math][T \rightarrow F \cdot * T, 0][/math] |
2
|
[math][T \rightarrow F \cdot , 0][/math] |
2
|
[math][S \rightarrow T \cdot + S, 0][/math] |
2
|
[math][S \rightarrow T \cdot , 0][/math] |
2
|
[math][S' \rightarrow S \cdot , 0][/math] |
2
|
|
|
Так как [math][S' \rightarrow S \cdot , 0] \in D_5[/math], то [math]w \in L(G) [/math].
См. также
Источники информации
- Алексей Сорокин — Алгоритм Эрли
- Ахо А., Ульман Д.— Теория синтакcического анализа, перевода и компиляции. Том 1. Синтаксический анализ. Пер. с англ. — М.:«Мир», 1978. С. 358 — 364.