Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики — различия между версиями

Версия 01:51, 24 января 2012

Алгоритм

Для начала модифицируем алгоритм Эрли.

Будем рассматривать грамматику без ε-правил и бесполезных символов.

[math]I_0[/math] = [math]\{[S' \rightarrow \cdot S, 0]\}[/math] # Правило (0) — инициализация
useful_loop(0)

for j = 1..n
    for [math][A \rightarrow \alpha \cdot a_{j} \beta, i] \in I_{j-1}[/math]
        [math]I_j[/math] ∪= [math][A \rightarrow \alpha a_{j} \cdot \beta, i][/math] # Правило (1)
    useful_loop(j)

function useful_loop(j):
    [math]I_j'' = I_j[/math]
    while [math]I_j'' \ne \varnothing[/math]
        [math]I_j' = I_j''[/math]
        [math]I_j'' = \varnothing[/math]
        for [math][B \rightarrow \eta \cdot , i] \in I_j'[/math] # (*)
            for [math][A \rightarrow \alpha \cdot B \beta, k] \in I_{i}[/math]
                [math]I_j''[/math] ∪= [math][A \rightarrow \alpha B \cdot \beta, k][/math] # Правило (2)
            
        for [math][B \rightarrow \alpha \cdot A \eta, k] \in I_j'[/math] # (**)
            for [math]\beta : (A \rightarrow \beta) \in P[/math]
                [math]I_j''[/math] ∪= [math][A \rightarrow \cdot \beta, j][/math] # Правило (3)
        [math]I_j[/math] ∪= [math]I_j''[/math]

В циклах, помеченных [math](*)[/math] и [math](**)[/math], просматривается не весь список [math]I_j[/math], а только те ситуации, которые были добавлены на предыдущей итерации цикла while. Данная модификация является корректной.

Рассмотрим цикл [math](*)[/math]. Если в текущей ситуации этого цикла [math]i \ne j[/math], то во внутреннем цикле просматривается список с меньшим индексом, в который новые ситуации больше не добавляются. Поэтому после первого просмотра этого списка будут добавлены все ситуации, удовлетворяющие условию, и больше ситуацию в цикле [math](*)[/math] рассматривать не нужно. Если же [math]i = j[/math], то , что возможно, только если [math]B = S', \eta = \varepsilon[/math]. Тогда во внутреннем цикле не будет добавлено ни одной ситуации, так как [math]S'[/math] не встречается в правых частях правил.
Теперь рассмотрим цикл [math](**)[/math]. Так как для каждой ситуации в список добавляется новая ситуация, соответствующая правилу из грамматики, а грамматика фиксирована, то после первого просмотра будут добавлены все возможные ситуации для .

Таким образом, во все списки будут добавлены ситуации, которые были бы добавлены в ходе обычного алгоритма. Очевидно, что лишних ситуаций добавлено не будет, так как в циклах [math](*)[/math] и [math](**)[/math] просматривается подмножество полного списка. Значит этот алгоритм эквивалентен оригинальному.

Время работы для однозначной грамматики

Лемма (1):

в списке находится ситуаций.

Доказательство:

Так как грамматика фиксирована, то количество ситуаций вида не больше некоторой константы. Таким образом, поскольку в находятся ситуации, у которых , всего в будет ситуаций.

Лемма (2):

Пусть — однозначная КС-грамматика без непорождающих нетерминалов и — цепочка из . Тогда алгоритм Эрли пытается включить в не более одного раза, если .

Доказательство:

Ситуацию можно включить в [math]I_j[/math] только по правилам [math](1)[/math] (если последний символ [math]\alpha[/math] — терминал) и [math](2)[/math] (если нетерминал). В первом случае результат очевиден. Во втором случае допустим, что включается в [math]I_j[/math], когда рассматриваются две ситуации и (они различны, так как в цикле [math](*)[/math] каждая ситуация из каждого списка рассматривается по одному разу). Тогда ситуация должна оказаться одновременно в [math]I_{k_1}[/math] и в [math]I_{k_2}[/math]. Таким образом, получаем:

и ;
и .

Следовательно, и .
Заметим, что . Предположим, что (ведь в грамматике нет непорождающих нетерминалов). Тогда и аналогично .

Таким образом, если , то подстрока выводится двумя различными способами из и (поскольку в первом случае , а во втором ), то есть у строки есть два различных вывода, что противоречит однозначности грамматики. Если же , то , что приводит к аналогичному противоречию.

Теорема:

Если входная грамматика однозначна, то время выполнения алгоритма Эрли для слова длины составляет .

Доказательство:

По лемме 1 в [math]j[/math]-том списке в итоге будет содержаться [math]O(j)[/math] ситуаций, а по лемме 2 алгоритм попытается добавить в список принадлежащую ему ситуацию ровно один раз, т.е. соответствующие строчки кода выполнятся для [math]j[/math]-того списка суммарно [math]O(j)[/math] раз.

Заметим, чтобы избежать «холостых» итераций во внутреннем цикле правила [math](2)[/math], необходимо организовать списки [math]I_k[/math] таким образом, чтобы по любому символу [math]x \in (\Sigma \cup N)[/math], можно было за [math]O(1)[/math] получить список тех и только тех ситуаций, содержащихся в [math]I_k[/math], которые имеют вид (например, этого можно добиться с помощью хеш-таблицы).

Таким образом, поскольку списков ситуаций всего , время работы алгоритма составляет .

Литература

А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ.

@@ Строка 59: / Строка 59: @@
 Если входная грамматика однозначна, то время выполнения алгоритма Эрли для слова длины <tex>n</tex> составляет <tex>O(n^2)</tex>.
 |proof=
-Орагнизуем каждый список разбора <tex>I_j</tex> таким образом, чтобы по любому символу <tex>x \in \Sigma \cup N</tex>, можно было за <tex>O(1)</tex> получить список тех и только тех ситуаций, содержащихся в <tex>I_j</tex>, которые имеют вид <tex>[A \rightarrow \alpha \cdot x \beta, j]</tex>.
+По лемме 1 в <tex>j</tex>-том списке в итоге будет содержаться <tex>O(j)</tex> ситуаций, а по лемме 2 алгоритм попытается добавить в список принадлежащую ему ситуацию ровно один раз, т.е. соответствующие строчки кода выполнятся для <tex>j</tex>-того списка суммарно <tex>O(j)</tex> раз.
-Время построения <tex>I_0</tex> не зависит от входной строки.
+Заметим, чтобы избежать «холостых» итераций во внутреннем цикле правила <tex>(2)</tex>, необходимо организовать списки <tex>I_k</tex> таким образом, чтобы по любому символу <tex>x \in (\Sigma \cup N)</tex>, можно было за <tex>O(1)</tex> получить список тех и только тех ситуаций, содержащихся в <tex>I_k</tex>, которые имеют вид <tex>[A \rightarrow \alpha \cdot x \beta, j]</tex> (например, этого можно добиться с помощью [[Хеширование#Хеш-таблица|хеш-таблицы]]).
-Рассмотрим <tex>I_j, \, j > 0</tex>.
+Таким образом, поскольку списков ситуаций всего <tex>n</tex>, время работы алгоритма составляет <tex>O(n^2)</tex>.
-# При включении ситуаций по правилу <tex>(1)</tex> необходимо лишь просмотреть предыдущий список и для каждого его элемента выполнить константное число операций.
-# Рассмотрим правило <tex>(2)</tex>. Можно считать, что внутри цикла <tex>(*)</tex> рассматриваются те и только те ситуации, которые удовлетворяют условию (так как список таких ситуаций можно по нетерминалу получить за <tex>O(1)</tex>). Тогда каждая такая ситуация будет добавлена в список и, исходя из леммы 2, попытка добавления будет единственной. А так как по лемме 1 всего в списке <tex>I_j</tex> находится <tex>O(j)</tex> ситуаций, то суммарно за все итерации внешнего цикла while внутри цикла <tex>(*)</tex> будет рассмотрено <tex>O(j)</tex> ситуаций.
-# Так как грамматика фиксирована, то при применении правила <tex>(3)</tex> при рассмотрении любой ситуации количество включаемых ситуаций не превосходит некоторой константы, поэтому для каждой рассмотренной ситуации будет выполнено <tex>O(1)</tex> операций.
-Таким образом, на построение списка <tex>I_j</tex> будет потрачено <tex>O(j)</tex> операций. Тогда время работы алгоритма составляет <tex>O(n^2)</tex>.
 }}
 ==Литература==
 *А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ.

Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики — различия между версиями

Версия 01:51, 24 января 2012