Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики — различия между версиями

Текущая версия на 19:12, 4 сентября 2022

Содержание

1 Алгоритм
2 Доказательство эквивалентности
3 Время работы для однозначной грамматики
4 См. также
5 Источники информации

Алгоритм

Для начала модифицируем алгоритм Эрли. Главным отличием от базовой версии алгоритма является функция [math]\mathtt{rulesLoop}[/math], внутри которой мы, как и в базовой версии, просматриваем второе и третье правило, однако, в отличие от базовой версии, где при каждом изменении [math]D_j[/math] мы просматривали весь список [math]D_j[/math] и применяли к нему второе и третье правило, в модифицированной версии мы применяем правила внутри [math]\mathtt{rulesLoop}[/math], просматривая только те ситуации, которые были добавлены на предыдущей итерации цикла [math]\mathtt{while}[/math].

Будем рассматривать грамматику без ε-правил и бесполезных символов.

function [math]\mathtt{earleyMod}(G, w)[/math]:
   // Инициализация 
   [math] D_{0} = \lbrace [S' \rightarrow \cdot S, 0] \rbrace [/math]
   rulesLoop(0)
   for j = 1 .. n
       for [math][A \rightarrow \alpha \cdot a_{j} \beta, i] \in D_{j-1}[/math]
           [math]D_j[/math] [math] \cup[/math] = [math][A \rightarrow \alpha a_{j} \cdot \beta, i][/math]  // Первое правило 
       rulesLoop(j)

function [math]\mathtt{rulesLoop(j)}[/math]:
    [math]D_j'' = D_j[/math]
    while [math]D_j'' \ne \varnothing[/math]
        [math]D_j' = D_j''[/math]
        [math]D_j'' = \varnothing[/math]
        for [math][B \rightarrow \eta \cdot , i] \in D_j'[/math]             // Цикл (*) 
            for [math][A \rightarrow \alpha \cdot B \beta, k] \in D_{i}[/math]
                [math]D_j''[/math] [math] \cup[/math] = [math][A \rightarrow \alpha B \cdot \beta, k]  [/math] // Второе правило 
            
        for [math][B \rightarrow \alpha \cdot A \eta, k] \in D_j'[/math]        // Цикл (**) 
            for [math]\beta : (A \rightarrow \beta) \in P[/math]
                [math]D_j''[/math] [math] \cup[/math] = [math][A \rightarrow \cdot \beta, j][/math]     // Третье правило 
        [math]D_j[/math] [math] \cup[/math] = [math]D_j''[/math]

Доказательство эквивалентности

В циклах, помеченных [math](*)[/math] и [math](**)[/math], просматривается не весь список [math]D_j[/math], а только те ситуации, которые были добавлены на предыдущей итерации цикла [math]\mathrm{while}[/math]. Данная модификация является корректной.

Рассмотрим цикл [math](*)[/math]. Если в текущей ситуации этого цикла [math]i \ne j[/math], то во внутреннем цикле просматривается список с меньшим индексом, в который новые ситуации больше не добавляются. Поэтому после первого просмотра этого списка будут добавлены все ситуации, удовлетворяющие условию, и больше ситуацию в цикле [math](*)[/math] рассматривать не нужно. Если же [math]i = j[/math], то , что возможно, только если [math]B = S', \eta = \varepsilon[/math]. Тогда во внутреннем цикле не будет добавлено ни одной ситуации, так как [math]S'[/math] не встречается в правых частях правил.
Теперь рассмотрим цикл [math](**)[/math]. Так как для каждой ситуации в список добавляется новая ситуация, соответствующая правилу из грамматики, а грамматика фиксирована, то после первого просмотра будут добавлены все возможные ситуации для .

Таким образом, во все списки будут добавлены ситуации, которые были бы добавлены в ходе обычного алгоритма. Очевидно, что лишних ситуаций добавлено не будет, так как в циклах [math](*)[/math] и [math](**)[/math] просматривается подмножество полного списка. Значит этот алгоритм эквивалентен оригинальному.

Время работы для однозначной грамматики

Лемма (1):

в списке находится ситуаций.

Доказательство:

Так как грамматика фиксирована, то количество ситуаций вида не больше некоторой константы. Таким образом, поскольку в находятся ситуации, у которых , всего в будет ситуаций.

Лемма (2):

Пусть — однозначная КС-грамматика без непорождающих нетерминалов и — цепочка из . Тогда алгоритм Эрли пытается включить в не более одного раза, если .

Доказательство:

Ситуацию можно включить в [math]D_j[/math] только по правилам [math](1)[/math] (если последний символ [math]\alpha[/math] — терминал) и [math](2)[/math] (если нетерминал). В первом случае результат очевиден. Во втором случае допустим, что включается в [math]D_j[/math], когда рассматриваются две ситуации и (они различны, так как в цикле [math](*)[/math] каждая ситуация из каждого списка рассматривается по одному разу). Тогда ситуация должна оказаться одновременно в [math]D_{k_1}[/math] и в [math]D_{k_2}[/math]. Таким образом, получаем:

и ;
и .

Следовательно, и .
Заметим, что . Предположим, что (ведь в грамматике нет непорождающих нетерминалов). Тогда и аналогично .
Таким образом, если [math]k_1 \ne k_2[/math], то подстрока [math]a_{i+1} \ldots a_j[/math] выводится двумя различными способами из [math]\alpha' \eta_1[/math] и [math]\alpha' \eta_2[/math] (поскольку в первом случае , а во втором ), то есть у строки [math]a_1 \ldots a_jw'[/math] есть два различных вывода, что противоречит однозначности грамматики. Если же [math]k_1 = k_2[/math], то [math]\eta_1 \ne \eta_2[/math], что приводит к аналогичному противоречию.

Суммируя выше сказанное, отметим, что противоречие получается из того факта, что в некоторый момент времени (то есть для подстроки ) мы получаем два различных дерева вывода. Поэтому, в дальнейшем, при выводе суффикса , каким образом мы его не получим, деревьев вывода будет как минимум два, поскольку они будут получаться заменой какого-то листа (терминального символа) на какое-то правило (поддерево из нетерминалов и терминалов),таким образом, получаем противоречие с однозначностью (по определению неоднозачной грамматики)

Теорема:

Если входная грамматика однозначна, то время выполнения алгоритма Эрли для слова длины составляет .

Доказательство:

Орагнизуем каждый список разбора [math]D_j[/math] таким образом, чтобы по любому символу [math]x \in \Sigma \cup N[/math], можно было за [math]O(1)[/math] получить список тех и только тех ситуаций, содержащихся в [math]D_j[/math], которые имеют вид .

Время построения [math]D_0[/math] не зависит от входной строки.

Рассмотрим [math]D_j, \, j \gt 0[/math].

При включении ситуаций по правилу [math](1)[/math] необходимо лишь просмотреть предыдущий список и для каждого его элемента выполнить константное число операций.
Рассмотрим правило [math](2)[/math]. Можно считать, что внутри цикла [math](*)[/math] рассматриваются те и только те ситуации, которые удовлетворяют условию (так как список таких ситуаций можно по нетерминалу получить за [math]O(1)[/math] следующим образом: каждый раз, когда мы добавляем ситацаию вида в [math]D_j[/math], мы просмотрим в заранее заготовленном массиве для [math]D_j[/math], есть ли в [math]D_j[/math] ситуации вида . Если да, то добавим в [math]D_j[/math].). Тогда каждая такая ситуация будет добавлена в список и, исходя из леммы 2, попытка добавления будет единственной. А так как по лемме 1 всего в списке [math]D_j[/math] находится [math]O(j)[/math] ситуаций, то суммарно за все итерации внешнего цикла while внутри цикла [math](*)[/math] будет рассмотрено [math]O(j)[/math] ситуаций.
Так как грамматика фиксирована, то при применении правила [math](3)[/math] при рассмотрении любой ситуации количество включаемых ситуаций не превосходит некоторой константы, поэтому для каждой рассмотренной ситуации будет выполнено [math]O(1)[/math] операций.

Таким образом, на построение списка будет потрачено операций. Тогда время работы алгоритма составляет .

См. также

Источники информации

А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ. Издательство "Мир", Москва, 1978г., стр. 364-366

@@ Строка 1: / Строка 1: @@
 ==Алгоритм==
-Для начала модифицируем [[Алгоритм Эрли|алгоритм Эрли]].
+Для начала модифицируем [[Алгоритм Эрли|алгоритм Эрли]]. Главным отличием от базовой версии алгоритма является функция <tex>\mathtt{rulesLoop}</tex>, внутри которой мы, как и в базовой версии, просматриваем второе и третье правило, однако, в отличие от базовой версии, где при каждом изменении <tex>D_j</tex> мы просматривали весь список <tex>D_j</tex> и применяли к нему второе и третье правило, в модифицированной версии мы применяем правила внутри <tex>\mathtt{rulesLoop}</tex>, просматривая только те ситуации, которые были добавлены на предыдущей итерации цикла <tex>\mathtt{while}</tex>.
 Будем рассматривать грамматику [[Удаление eps-правил из грамматики|без &epsilon;-правил]] и [[Удаление бесполезных символов из грамматики|бесполезных символов]].
-  '''function''' <tex>\mathtt{earley_mod}(G, w)</tex>:
+  '''function''' <tex>\mathtt{earleyMod}(G, w)</tex>:
      <font color=green>// Инициализация </font>
      <tex> D_{0} = \lbrace [S' \rightarrow \cdot S, 0] \rbrace </tex>
-     useful_loop(0)
+     rulesLoop(0)
      '''for''' j = 1 .. n
          '''for''' <tex>[A \rightarrow \alpha \cdot a_{j} \beta, i] \in D_{j-1}</tex>
              <tex>D_j</tex> <tex> \cup</tex> = <tex>[A \rightarrow \alpha a_{j} \cdot \beta, i]</tex>  <font color=green>// Первое правило </font>
-         useful_loop(j)
+         rulesLoop(j)
-  '''function''' useful_loop(j):
+  '''function''' <tex>\mathtt{rulesLoop(j)}</tex>:
       <tex>D_j'' = D_j</tex>
       '''while''' <tex>D_j'' \ne \varnothing</tex>
@@ Строка 29: / Строка 29: @@
 == Доказательство эквивалентности ==
-В циклах, помеченных <tex>(*)</tex> и <tex>(**)</tex>, просматривается не весь список <tex>D_j</tex>, а только те ситуации, которые были добавлены на предыдущей итерации цикла <code>while</code>. Данная модификация является корректной.
+В циклах, помеченных <tex>(*)</tex> и <tex>(**)</tex>, просматривается не весь список <tex>D_j</tex>, а только те ситуации, которые были добавлены на предыдущей итерации цикла <tex>\mathrm{while}</tex>. Данная модификация является корректной.
 # Рассмотрим цикл <tex>(*)</tex>. Если в текущей ситуации <tex>[B \rightarrow \eta \cdot, i]</tex> этого цикла <tex>i \ne j</tex>, то во внутреннем цикле просматривается список с меньшим индексом, в который новые ситуации больше не добавляются. Поэтому после первого просмотра этого списка будут добавлены все ситуации, удовлетворяющие условию, и больше ситуацию <tex>[B \rightarrow \eta \cdot, i]</tex> в цикле <tex>(*)</tex> рассматривать не нужно. Если же <tex>i = j</tex>, то <tex>\eta \Rightarrow^* \varepsilon</tex>, что возможно, только если <tex>B = S', \eta = \varepsilon</tex>. Тогда во внутреннем цикле не будет добавлено ни одной ситуации, так как <tex>S'</tex> не встречается в правых частях правил.
 # Теперь рассмотрим цикл <tex>(**)</tex>. Так как для каждой ситуации <tex>[B \rightarrow \alpha \cdot A \eta, k]</tex> в список добавляется новая ситуация, соответствующая правилу из грамматики, а грамматика фиксирована, то после первого просмотра будут добавлены все возможные ситуации для <tex>[B \rightarrow \alpha \cdot A \eta, k]</tex>.
@@ Строка 38: / Строка 38: @@
 |about=1
 |statement=
-<tex>\forall\,j: 1 \le j \le n</tex> в списке <tex>D_j</tex> находится <tex>O(j)</tex> ситуаций.
+<tex>\forall\,j: 1 \leqslant j \leqslant n</tex> в списке <tex>D_j</tex> находится <tex>O(j)</tex> ситуаций.
 |proof=
-Так как грамматика фиксирована, то <tex>\forall i</tex> количество ситуаций вида <tex>[A \rightarrow \alpha \cdot \beta, i]</tex> не больше некоторой константы. Таким образом, поскольку в <tex>D_j</tex> находятся ситуации, у которых <tex>0 \le i \le j</tex>, всего в <tex>D_j</tex> будет <tex>O(j)</tex> ситуаций.
+Так как грамматика фиксирована, то <tex>\forall i</tex> количество ситуаций вида <tex>[A \rightarrow \alpha \cdot \beta, i]</tex> не больше некоторой константы. Таким образом, поскольку в <tex>D_j</tex> находятся ситуации, у которых <tex>0 \leqslant i \leqslant j</tex>, всего в <tex>D_j</tex> будет <tex>O(j)</tex> ситуаций.
 }}
@@ Строка 80: / Строка 80: @@
 == Источники информации==
-*А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ.
+*А. Ахо, Дж. Ульман. Теория синтакcического анализа, перевода и компиляции. Том 1. Синтакcический анализ. Издательство "Мир", Москва, 1978г., стр. 364-366
 [[Категория: Теория формальных языков]]
 [[Категория: Контекстно-свободные грамматики]]
+[[Категория: Алгоритмы разбора]]

Алгоритм Эрли, доказательство оценки O(n^2) для однозначной грамматики — различия между версиями

Текущая версия на 19:12, 4 сентября 2022

Содержание