Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики

Алгоритм

На вход подается КС-грамматика [math]G = (N, \Sigma, P, S)[/math] и строка [math]w = a_1 a_2 \ldots a_n[/math] из [math]\Sigma^*[/math]. Результатом работы алгоритма является список разбора [math]I_0, I_1, \ldots , I_n[/math] для строки [math]w[/math].

Для простоты добавим новый стартовый вспомогательный нетерминал [math]S'[/math] и правило [math]S' \rightarrow S[/math].

[math]I_0[/math] ∪= [math][S' \rightarrow \cdot S, 0][/math] # Правило (0) — инициализация
useful_loop(0)

for i = 1..n
    for [math][A \rightarrow \alpha \cdot a_{j} \beta, i] \in I_{j-1}[/math]
        [math]I_j[/math] ∪= [math][A \rightarrow \alpha a_{j} \cdot \beta, i][/math] # Правило (1)
    useful_loop(j)

function useful_loop(j):
    do
        for [math][B \rightarrow \eta \cdot , i] \in I_j[/math]
            for [math][A \rightarrow \alpha \cdot B \beta, k] \in I_{i}[/math]
                [math]I_j[/math] ∪= [math][A \rightarrow \alpha B \cdot \beta, k][/math] # Правило (2)
            
        for [math][B \rightarrow \alpha \cdot A \eta, k] \in I_j[/math]
            for [math]\beta : (A \rightarrow \beta) \in P[/math]
                [math]I_j[/math] ∪= [math][A \rightarrow \cdot \beta, j][/math] # Правило (3)
    while на данной итерации какое-то множество изменилось

Время работы для однозначной грамматики

Лемма (1):

в списке находится ситуаций.

Доказательство:

Так как грамматика фиксирована, то количество ситуаций вида не больше некоторой константы. Таким образом, поскольку в находятся ситуации, у которых , всего в будет ситуаций.

Лемма (2):

Пусть — однозначная КС-грамматика без непорождающих нетерминалов и — цепочка из . Тогда алгоритм Эрли пытается включить в не более одного раза, если .

Доказательство:

Ситуацию можно включить в [math]I_j[/math] только по правилам [math](1)[/math] (если последний символ [math]\alpha[/math] — терминал) и [math](2)[/math] (если нетерминал). В первом случае результат очевиден. Во втором случае допустим, что включается в [math]I_j[/math], когда рассматриваются две различные ситуации и . Тогда ситуация должна оказаться одновременно в [math]I_{k_1}[/math] и в [math]I_{k_2}[/math].

Пусть [math]k_1 \ne k_2[/math]. Тогда существуют такие и [math]\delta_2[/math], что и . Но в первом выводе , а во втором . Тогда для цепочки [math]a_1 \dots a_n[/math] существуют два разных дерева вывода, в которых [math]a_{i+1} \dots a_j[/math] выводится из [math]\alpha' B[/math] двумя разными способами.
Пусть [math]k_1 = k_2 = k[/math]. Тогда [math]\eta_1 \ne \eta_2[/math]. Тогда, так как и , то и . Так как , то . Аналогично, . Теперь, если предположить, что , то можно видеть, что и , а поскольку, как мы установили, из [math]\eta_1[/math] и [math]\eta_2[/math] выводится [math]a_{k + 1} \dots a_j[/math], у строки [math]a_1 \ldots a_j w'[/math] в данной грамматике есть два различных вывода, что противоречит однозначности.

Теорема:

Если входная грамматика однозначна, то время выполнения алгоритма Эрли для слова длины составляет .

Доказательство:

Орагнизуем каждый список разбора [math]I_j[/math] таким образом, чтобы по любому символу [math]x \in \Sigma \cup N[/math], можно было за [math]O(1)[/math] получить список тех и только тех ситуаций, содержащихся в [math]I_j[/math], которые имеют вид .

Время построения [math]I_0[/math] не зависит от входной строки.

Рассмотрим [math]I_j, \, j \gt 0[/math].

При включении ситуаций по правилу [math](1)[/math] необходимо лишь просмотреть предыдущий список и для каждого его элемента выполнить константное число операций.
Если применяется правило [math](2)[/math], то в некотором списке [math]I_k[/math] для [math]k \le j[/math] надо просмотреть все ситуации, содержащие [math]"\cdot B"[/math] для некоторого конкретного [math]B[/math]. Для каждой такой ситуации в [math]I_j[/math] включается другая ситуация, и это время относится не к рассматриваемой ситуации, а к включаемой. Кроме того, так как по второй лемме для каждой ситуации предпринимается только одна попытка включить ее в список, то не нужно тратить время на проверку того, что включаемая ситуация уже есть в списке.
Так как грамматика фиксирована, то при применении правила [math](3)[/math] при рассмотрении любой ситуации количество включаемых ситуаций не превосходит некоторой константы, поэтому на рассматриваемую ситуацию будет потрачено [math]O(1)[/math] операций.

Таким образом, на каждую ситуацию в каждом списке тратится операций. Тогда, учитывая лемму 1, получаем, что время работы алгоритма составляет .

Литература

А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ.

Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики