Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики — различия между версиями

Версия 05:25, 18 января 2012

Алгоритм

На вход подается КС-грамматика [math]G = (N, \Sigma, P, S)[/math] и строка [math]w = a_1 a_2 \ldots a_n[/math] из [math]\Sigma^*[/math]. Результатом работы алгоритма является список разбора [math]I_0, I_1, \ldots , I_n[/math] для строки [math]w[/math].

Построение [math]I_0[/math]:

Шаг 1. Для каждого правила [math]S \rightarrow \alpha[/math] из [math]P[/math], включить в [math]I_0[/math].

Выполнять шаги [math](2)[/math] и [math](3)[/math] до тех пор, пока в [math]I_0[/math] можно включать новые ситуации.

Шаг 2. Если , то для всех включить в [math]I_0[/math] ситуацию .

Шаг 3. Если , то для всех правил из [math]P[/math] вида [math]B \rightarrow \gamma[/math] включить в [math]I_0[/math] ситуацию .

После того, как построены [math]I_0, I_1, \ldots , I_{j-1}[/math], строится [math]I_j[/math]:

Шаг 4. Для каждой ситуации включить в [math]I_j[/math] ситуацию .

Выполнять шаги [math](5)[/math] и [math](6)[/math] до тех пор, пока в [math]I_j[/math] можно включать новые ситуации.

Шаг 5. Если , то для всех ситуаций включить в [math]I_j[/math].

Шаг 6. Если , то для всех правил [math]B \rightarrow \gamma[/math] из [math]P[/math] включить в [math]I_j[/math].

Время работы для однозначной грамматики

Лемма (1):

в списке находится ситуаций.

Доказательство:

Так как грамматика фиксирована, то количество ситуаций вида не больше некоторой константы. Таким образом, так как в находятся ситуации, у которых , то всего в будет ситуаций.

Лемма (2):

Пусть — однозначная КС-грамматика и — цепочка из . Тогда алгоритм Эрли пытается включить в не более одного раза, если .

Доказательство:

Ситуацию можно включить в [math]I_j[/math] только на шагах [math](2)[/math], [math](4)[/math], или [math](5)[/math]. Если она включается на шаге [math](4)[/math], то последний символ цепочки [math]\alpha[/math] — терминал, а если на шагах [math](2)[/math] или [math](5)[/math], то — нетерминал. В первом случае результат очевиден. Во втором случае допустим, что включается в [math]I_j[/math], когда рассматриваются две различные ситуации и . Тогда ситуация должна оказаться одновременно в [math]I_k[/math] и в [math]I_l[/math].

Пусть [math]k \ne l[/math]. Тогда по теореме существуют такие и [math]\theta_4[/math], что и . Но в первом выводе , а во втором . Тогда для цепочки [math]a_1 \dots a_n[/math] существуют два разных дерева вывода, в которых [math]a_{i+1} \dots a_j[/math] выводится из [math]\alpha' B[/math] двумя разными способами.
Пусть [math]k = l[/math]. Тогда [math]\gamma \ne \delta[/math]. Тогда, так как и , то и , то есть [math]a_{k+1} \dots a_j[/math] выводится двумя разными способами.

Теорема:

Если входная грамматика однозначна, то время выполнения алгоритма Эрли для слова длины составляет .

Доказательство:

Орагнизуем каждый список разбора [math]I_j[/math] таким образом, чтобы по любому символу [math]x \in \Sigma \cup N[/math], можно было за [math]O(1)[/math] получить список тех и только тех ситуаций, содержащихся в [math]I_j[/math], которые имеют вид .

При построении [math]I_0[/math] входная строка не учитывается, поэтому этот список можно построить за константное время.

Рассмотрим [math]I_j, \, j \gt 0[/math]. Рассмотрим шаги [math](4)[/math], [math](5)[/math] и [math](6)[/math].

На шаге [math](4)[/math] исследуется [math]a_j[/math] и предыдущий список. Для каждой ситуации из [math]I_{j-1}[/math] с символом [math]a_j[/math], расположенным справа от точки, в [math]I_j[/math] включается некоторая ситуация. Так как список в [math]I_{j-1}[/math] можно найти за [math]O(1)[/math] по символу [math]a_j[/math], то на включение каждой ситуации в [math]I_j[/math] будет потрачено [math]O(1)[/math] операций.
Если применяется шаг [math](5)[/math], то в некотором списке [math]I_k[/math] для [math]k \le j[/math] надо просмотреть все ситуации, содержащие [math]"\cdot B"[/math] для некоторого конкретного [math]B[/math]. Для каждой такой ситуации в [math]I_j[/math] включается другая ситуация, и это время относится не к рассматриваемой ситуации, а к включаемой. Кроме того, так как по второй лемме для каждой ситуации предпринимается только одна попытка включить ее в список, то не нужно тратить время на проверку того, что включаемая ситуация уже есть в списке.
Так как грамматика фиксирована, то на шаге [math](6)[/math] при рассмотрении любой ситуации количество включаемых ситуаций не превосходит некоторой константы, поэтому на рассматриваемую ситуацию будет потрачено [math]O(1)[/math] операций.

Таким образом, на каждую ситуацию тратится операций. Тогда, учитывая лемму 1, получаем, что время работы алгоритма составляет .

Литература

А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ.

@@ Строка 30: / Строка 30: @@
 <tex>\forall\,j: 1 \le j \le n</tex> в списке <tex>I_j</tex> находится <tex>O(j)</tex> ситуаций.
 |proof=
-Так как грамматика фиксирована, то <tex>\forall i</tex> количество ситуаций вида <tex>[A \rightarrow \alpha \cdot \beta, i]</tex> не больше константного. Таким образом, так как в <tex>I_j</tex> находятся ситуации, у которых <tex>0 \le i \le j</tex>, то всего в <tex>I_j</tex> будет <tex>O(j)</tex> ситуаций.
+Так как грамматика фиксирована, то <tex>\forall i</tex> количество ситуаций вида <tex>[A \rightarrow \alpha \cdot \beta, i]</tex> не больше некоторой константы. Таким образом, так как в <tex>I_j</tex> находятся ситуации, у которых <tex>0 \le i \le j</tex>, то всего в <tex>I_j</tex> будет <tex>O(j)</tex> ситуаций.
 }}
@@ Строка 49: / Строка 49: @@
 Орагнизуем каждый список разбора <tex>I_j</tex> таким образом, чтобы по любому символу <tex>x \in \Sigma \cup N</tex>, можно было за <tex>O(1)</tex> получить список тех и только тех ситуаций, содержащихся в <tex>I_j</tex>, которые имеют вид <tex>[A \rightarrow \alpha \cdot x \beta, j]</tex>.
-Покажем, что на каждую ситуацию алгоритм расходует фиксированное количество времени.
+При построении <tex>I_0</tex> входная строка не учитывается, поэтому этот список можно построить за константное время.
-Список <tex>I_0</tex> можно построить за фиксированное время.
 Рассмотрим <tex>I_j, \, j > 0</tex>. Рассмотрим шаги <tex>(4)</tex>, <tex>(5)</tex> и <tex>(6)</tex>.
-# На шаге <tex>(4)</tex> исследуется <tex>a_j</tex> и предыдущий список. Для каждой ситуации из <tex>I_{j-1}</tex> с символом <tex>a_j</tex>, расположенным справа от точки, в <tex>I_j</tex> включается некоторая ситуация.  Так как список в <tex>I_{j-1}</tex> можно найти за <tex>O(1)</tex> по символу <tex>a_j</tex>, то на включение каждой ситуации в <tex>I_j</tex> будет потрачено фиксированное время.
+# На шаге <tex>(4)</tex> исследуется <tex>a_j</tex> и предыдущий список. Для каждой ситуации из <tex>I_{j-1}</tex> с символом <tex>a_j</tex>, расположенным справа от точки, в <tex>I_j</tex> включается некоторая ситуация.  Так как список в <tex>I_{j-1}</tex> можно найти за <tex>O(1)</tex> по символу <tex>a_j</tex>, то на включение каждой ситуации в <tex>I_j</tex> будет потрачено <tex>O(1)</tex> операций.
 #Если применяется шаг <tex>(5)</tex>, то в некотором списке <tex>I_k</tex> для <tex>k \le j</tex> надо просмотреть все ситуации, содержащие <tex>"\cdot B"</tex> для некоторого конкретного <tex>B</tex>. Для каждой такой ситуации в <tex>I_j</tex> включается другая ситуация, и это время относится не к рассматриваемой ситуации, а к включаемой. Кроме того, так как по второй лемме для каждой ситуации предпринимается только одна попытка включить ее в список, то не нужно тратить время на проверку того, что включаемая ситуация уже есть в списке.
-#Так как размер грамматики фиксирован, то , учитывая первую лемму, получаем, что шаг <tex>(6)</tex> выполняется за <tex>O(j)</tex>.
+#Так как грамматика фиксирована, то на шаге <tex>(6)</tex> при рассмотрении любой ситуации количество включаемых ситуаций не превосходит некоторой константы, поэтому на рассматриваемую ситуацию будет потрачено <tex>O(1)</tex> операций.
-Таким образом, время работы алгоритма составляет <tex>O(n^2)</tex>.
+Таким образом, на каждую ситуацию тратится <tex>O(1)</tex> операций. Тогда, учитывая лемму 1, получаем, что время работы алгоритма составляет <tex>O(n^2)</tex>.
 }}
 ==Литература==
 *А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ.

Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики — различия между версиями

Версия 05:25, 18 января 2012