Текущая версия на 23:24, 4 ноября 2014

Перенаправление на:

Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ

Задача о выводе в контекстно-свободной грамматике - задача о том, выводимо ли данное слово в данной контекстно-свободной грамматике. Алгоритм Кока-Янгера-Касами - алгоритм, решающий эту задачу.

Содержание

1 Определения
- 1.1 Контекстно-свободная грамматика
  - 1.1.1 Пример
- 1.2 Нормальная форма Хомского
2 Алгоритм Кока-Янгера-Касами
- 2.1 Сложность алгоритма
- 2.2 Псевдокод
3 Ссылки

Определения

Контекстно-свободная грамматика

Определение:

Контекстно-свободная грамматика (КС-грамматика, бесконтекстная грамматика) — способ описания формального языка, задающийся:

Множеством [math]\Sigma[/math] терминальных символов
Множеством [math]N[/math] нетерминальных символов
Стартовым нетерминалом [math]S \in N[/math]
Множеством продукций вида , где [math]A \in N[/math], [math]B_i \in \Sigma \cup N[/math], то есть у которых левые части - одиночные нетерминалы, а правые - последовательности терминалов и нетерминалов.

Пример

Терминалы: {(, )}. Нетерминалы: {S}. Продукции:

S → SS
S → ()
S → (S)

Данная грамматика задает язык правильных скобочных последовательностей. Например, последовательность (()(())) может быть выведена следующим образом:

Нормальная форма Хомского

Нормальная форма Хомского - нормальная форма КС-грамматик, в которой все продукции имеют вид:

A → a, где A - нетерминал, а a - терминал
A → BC, где A, B, C - нетерминалы, причем B и C не являются начальными нетерминалами
S → ε, где S - начальный нетерминал и ε - пустая строка (данная продукция необходима, если в языке присуствует пустая строка)

Можно показать, что любую КС-грамматику можно привести к нормальной форме Хомского.

Алгоритм Кока-Янгера-Касами

Алгоритм Кока-Янгера-Касами (Cocke — Younger — Kasami algorithm, CYK - алгоритм) - универсальный алгоритм, позволяющий по слову узнать, выводимо ли оно в заданной КС-грамматике в нормальной форме Хомского.

Пусть дана строка [math]a_1 a_2 ... a_n[/math]. Заведем трехмерный массив d, состоящий из логических значений, и [math]d[A,i,j] = true[/math] тогда и только тогда, когда из нетерминала [math]A[/math] правилами грамматики можно вывести подстроку [math]a_i a_{i+1} ... a_j[/math]. Тогда:

[math]d[A,i,i] = true[/math], если в грамматике присутствует правило [math]A \rightarrow a_i[/math], иначе [math]false[/math]
Остальные элементы массива заполняются динамически: . То есть, подстроку [math]a_i...a_j[/math] можно вывести из нетерминала [math]A[/math], если существует продукция [math]A \rightarrow BC[/math] и такое [math]k[/math], что подстрока [math]a_i...a_k[/math] выводима из [math]B[/math], а подстрока [math]a_{k+1}...a_j[/math] - из [math]C[/math].

Значение [math]d[S,1,n][/math] содержит ответ на вопрос, выводима ли данная строка в данной грамматике.

Заметим, что если массив будет хранить целые числа, а формулу заменить на , то [math]d[A,i,j][/math] - количество способов получить подстроку [math]a_i...a_j[/math] из нетерминала [math]A[/math].

Пусть [math]P_{A \rightarrow BC}[/math] - стоимость вывода по правилу [math]A \rightarrow BC[/math]. Тогда, если использовать формулу , то [math]d[A,i,j][/math] - минимальная стоимость вывода подстроки [math]a_i...a_j[/math] из нетерминала [math]A[/math].

Таким образом, задача о выводе в КС-грамматике в нормальной форме Хомского является обобщением задачи динамического программирования на подотрезке.

Сложность алгоритма

Пусть, [math]n[/math] - длина входной строки, а [math]m[/math] - количество правил вывода в грамматике.

Обработка правил вида [math]A \rightarrow a_i[/math] выполняется за [math]O(nm)[/math].

Проход по всем подстрокам выполняется за [math]O(n^2)[/math]. В обработке подстроки присутствует цикл по всем правилам вывода и по всем разбиениям на две подстроки, следовательно обработка работает за [math]O(nm)[/math]. В итоге - [math]O(n^3 m)[/math].

Следовательно, общее время работы алгоритма - [math]O(n^3 m)[/math]. Кроме того, алгоритму требуется память (на массив [math]d[/math]) объемом [math]O(n^2 m)[/math].

Псевдокод

 function CYK (a - строка длины n, G - набор правил вывода грамматики с m нетерминалами, S - стартовый нетерминал) -> bool
 begin
   d : array [1..m,1..n,1..n] of bool
   for i = 1 to n
     if (A -> a[i] - продукция)
       d[A,i,i] = true
   for len = 1 to n-1
     for i = 1 to n-l
       for (A -> BC - продукция)
         for k = i to i+len-1
           d[A,i,i+len] = d[A,i,i+len] or (d[B,i,k] and d[C,k+1,i+len])
   return d[S,1,n]
 end

Ссылки

@@ Строка 1: / Строка 1: @@
-[[Файл:table.jpg|300px|thumb|right|Таблица разбора алгоритма для цепочки из шести символов. В клетку <tex>t_{34}</tex> должны быть помещены нетерминалы, из которых выводится фрагмент входной строки длиной четыре символа, начинающийся с <tex>a_{3}</tex>, т.е. это цепочка <tex>a_{3}a_{4}a_{5}a_{6}</tex>. Этот фрагмент тремя способами можно разбить на пары непустых соседних фрагментов: (1) <tex>a_{3}</tex> и <tex>a_{4}a_{5}a_{6}</tex>, (2): <tex>a_{3}a_{4}</tex> и <tex>a_{5}a_{6}</tex>, (3): <tex>a_{3}a_{4}a_{5}</tex> и <tex>a_{6}</tex>. Этим трем парам фрагментов соответствуют пары клеток, в которых могут стоять нетерминалы, из которых эти фрагменты выводятся: (1) <tex>t_{31}</tex> и <tex>t_{43}</tex>, (2): <tex>t_{32}</tex> и <tex>t_{52}</tex>, (3): <tex>t_{33}</tex> и <tex>t_{61}</tex>.]]
+#перенаправление [[Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ]]
-= Контекстно-свободная грамматика =
+'''Задача о выводе в контекстно-свободной грамматике''' - задача о том, выводимо ли данное слово в данной контекстно-свободной грамматике. '''Алгоритм Кока-Янгера-Касами''' - алгоритм, решающий эту задачу.
-Контекстно-свободная грамматика (КС-грамматика, бесконтекстная грамматика) — частный случай формальной грамматики, у которой левые части всех правил являются одиночными нетерминалами.
+= Определения =
-Для того, чтобы определить контекстно-свободную грамматику, необходимо:
-* 1) Задать конечное множество A - алфавит; его
-элементы  называют символами, а конечные последовательности симво-
-лов называют словами (в данном алфавите);
-* 2) Разделить все символы алфавита A на две группы:  терми-
-нальные ("окончательные") и нетерминальные ("промежуточные");
-* 3) Выбрать один из нетерминальных символов, который будет считаться начальным;
-* 4) Указать конечное число правил грамматики(продукций) вида:
-     K &rarr; X
-где K - некоторый нетерминальный символ, а X - слово, которое может состоять как из терминальных, так и не из терминальных символов.
-Выводом в контекстно-свободной грамматике называется последовательность слов X[0], X[1], ... ,X[n], где X[0] состоит только из начального символа, а каждое слово X[i+1] получается из X[i] заменой какого-либо нетерминального символа на  слово по одному из правил грамматики.
-==Пример==
+== Контекстно-свободная грамматика ==
-Пусть алфавит состоит из символов a, b и S, при этом S - стартовый символ, а и b - терминальные. Пусть в этой грамматике определены следующие правила:
+{{Определение
-* S &rarr; SS;
+|definition=
-* S &rarr; ab;
+'''[[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|Контекстно-свободная грамматика]]''' ('''КС-грамматика''', '''бесконтекстная грамматика''') — способ описания формального языка, задающийся:
-* S &rarr; aSb;
-Тогда в ней можно вывести слово ababab следующим образом:
-   S &rarr; SS &rarr; Sab &rarr; SSab &rarr; abSab &rarr; ababab
-При этом, например, слово bab невозможно вывести в этой грамматике.
-= Задача о выводе =
+* Множеством <tex>\Sigma</tex> терминальных символов
+* Множеством <tex>N</tex> нетерминальных символов
-Задача вывода в контекстно-свободной грамматике состоит в том, чтобы выяснить, можно ли вывести данное слово в этой КС-грамматике, т.е. выяснить принадлежность этого слова определяемому грамматикой языку. Для решения этой задачи существуют несколько способов, например, нисходящий анализ методом линейного спуска. Также применяется восходящий алгоритм синтаксического анализа Кока - Янгера - Касами.
+* Стартовым нетерминалом <tex>S \in N</tex>
+* Множеством продукций вида <tex>A \rightarrow B_1 B_2 ... B_n</tex>, где <tex>A \in N</tex>, <tex>B_i \in \Sigma \cup N</tex>, то есть у которых левые части - одиночные нетерминалы, а правые - последовательности терминалов и нетерминалов.
+}}
+=== Пример ===
+Терминалы: {(, )}. Нетерминалы: {S}. Продукции:
+* S &rarr; SS
+* S &rarr; ()
+* S &rarr; (S)
+Данная грамматика задает язык правильных скобочных последовательностей. Например, последовательность (()(())) может быть выведена следующим образом:
+* <tex> S \Rightarrow (S) \Rightarrow (SS) \Rightarrow (()(S)) \Rightarrow (()(())) </tex>
+== Нормальная форма Хомского ==
+'''[[Нормальная форма Хомского]]''' - нормальная форма КС-грамматик, в которой все продукции имеют вид:
+* A &rarr; a, где ''A'' - нетерминал, а ''a'' - терминал
+* A &rarr; BC, где ''A'', ''B'', ''C'' - нетерминалы, причем ''B'' и ''C'' не являются начальными нетерминалами
+* S &rarr; ε, где S - начальный нетерминал и ε - пустая строка (данная продукция необходима, если в языке присуствует пустая строка)
+[[Нормальная форма Хомского|Можно показать]], что любую КС-грамматику можно привести к нормальной форме Хомского.
 = Алгоритм Кока-Янгера-Касами =
-Алгоритм является универсальным для всех КС-грамматик, которые должны быть приведены в нормальную форму Хомского без &epsilon;-правил. Правила такой грамматики имеют вид либо А&rarr;а, либо А&rarr;BC, где a - терминал, B и C нетерминалы ,не являющиеся начальными. Алгоритм использует только квадратную матрицу, т.е. <tex>O(n^2)</tex> памяти.  В алгоритме осуществляется для каждой ячейки перебор по всем разделениям фрагмента строки  <tex>O(n^3)</tex>.
+'''Алгоритм Кока-Янгера-Касами''' (''Cocke — Younger — Kasami algorithm'', '''CYK - алгоритм''') - универсальный алгоритм, позволяющий по слову узнать, выводимо ли оно в заданной КС-грамматике в нормальной форме Хомского.
+Пусть дана строка <tex>a_1 a_2 ... a_n</tex>. Заведем трехмерный массив d, состоящий из логических значений, и  <tex>d[A,i,j] = true</tex> тогда и только тогда, когда из нетерминала <tex>A</tex> правилами грамматики можно вывести подстроку <tex>a_i a_{i+1} ... a_j</tex>. Тогда:
+* <tex>d[A,i,i] = true</tex>, если в грамматике присутствует правило <tex>A \rightarrow a_i</tex>, иначе <tex>false</tex>
+* Остальные элементы массива заполняются динамически: <tex>d[A,i,j] = \bigvee\limits_{A \rightarrow BC}\bigvee\limits_{k = i}^{j-1} d[B,i,k] \wedge d[C,k+1,j]</tex>. То есть, подстроку <tex>a_i...a_j</tex> можно вывести из нетерминала <tex>A</tex>, если существует продукция <tex>A \rightarrow BC</tex> и такое <tex>k</tex>, что подстрока <tex>a_i...a_k</tex> выводима из <tex>B</tex>, а подстрока <tex>a_{k+1}...a_j</tex> - из <tex>C</tex>.
+Значение <tex>d[S,1,n]</tex> содержит ответ на вопрос, выводима ли данная строка в данной грамматике.
-Сам алгоритм состоит в построении треугольной матрицы разбора T по заданной входной строке '''<tex>a_1,  a_2,  \ldots,  a_n</tex>'''. В каждый элемент этой матрицы <tex>t_{ik}</tex> помещаются все нетерминалы, из которых можно вывести отрезок входной строки длины k, начинающийся  i-ым символом: '''<tex>a_i,  \ldots,  a_{i+k-1}</tex>'''.
+Заметим, что если массив будет хранить целые числа, а формулу заменить на <tex>d[A,i,j] = \sum\limits_{A \rightarrow BC}\sum\limits_{k = i}^{j-1} d[B,i,k] \cdot d[C,k+1,j]</tex>, то <tex>d[A,i,j]</tex> - количество способов получить подстроку <tex>a_i...a_j</tex> из нетерминала <tex>A</tex>.
-Элементы матрицы вычисляются следующим образом:
-:: <tex>\forall</tex>i <tex>t_{i1}</tex> = { A | A &rarr; <tex>a_i</tex>};
-:: <tex>\forall</tex>i < j  <tex>t_{ij}</tex> = {A | A&rarr;BC и <tex>1 \leqslant k < j : B \in t_{ik}, C \in t_{i+k, j-k}</tex>}.
-Действительно, в каждый элемент <tex>t_{i1}</tex> (в данном случае удобнее рассматривать первой нижнюю строку) помещаются все нетерминалы, для которых существует правило A &rarr; <tex>a_i</tex>. Пусть теперь заполнены все строки до j-1-й включительно.
-Рассмотрим элемент <tex>t_{ij}</tex>, соответствующий фрагменту &lt;<tex>a_1,\ldots, a_j </tex>&gt; входной строки. Разобьём его всеми способами на пары соседних строк &lt;<tex>a_i</tex>&gt; и &lt;<tex>a_{i+1}...a_j</tex>&gt;; &lt;<tex>a_ia_{i+1}</tex>&gt; и &lt;<tex>a_{i+2} ...a_j</tex>&gt;, и т.д. Каждому варианту разбиения соответствует пара элементов матрицы, в которых стоят нетерминалы, из которых могут быть выведены соответствующие строки. Пусть эта пара элементов – (t',t"). В рассматриваемый элемент <tex>t_{ij}</tex> помещаем нетерминал А, если среди правил грамматики есть правило А&rarr;ВС, и нетерминал В входит в элемент t', а С – входит в элемент t".
-Входная строка принадлежит языку, порождаемому грамматикой, если в элементе <tex>t_{1n}</tex> встретится начальный нетерминал.
+Пусть <tex>P_{A \rightarrow BC}</tex> - ''стоимость'' вывода по правилу <tex>A \rightarrow BC</tex>. Тогда, если использовать формулу <tex>d[A,i,j] = \min\limits_{A \rightarrow BC} \min\limits_{k = i}^{j-1}  ( d[B,i,k] + d[C,k+1,j] + P_{A \rightarrow BC} )</tex>, то <tex>d[A,i,j]</tex> - минимальная стоимость вывода подстроки <tex>a_i...a_j</tex> из нетерминала <tex>A</tex>.
-=Литература=
+Таким образом, задача о выводе в КС-грамматике в нормальной форме Хомского является обобщением задачи динамического программирования на подотрезке.
+=== Сложность алгоритма ===
+Пусть, <tex>n</tex> - длина входной строки, а <tex>m</tex> - количество правил вывода в грамматике.
+Обработка правил вида <tex>A \rightarrow a_i</tex> выполняется за <tex>O(nm)</tex>.
+Проход по всем подстрокам выполняется за <tex>O(n^2)</tex>. В обработке подстроки присутствует цикл по всем правилам вывода и по всем разбиениям на две подстроки, следовательно обработка работает за <tex>O(nm)</tex>. В итоге - <tex>O(n^3 m)</tex>.
+Следовательно, общее время работы алгоритма - <tex>O(n^3 m)</tex>. Кроме того, алгоритму требуется память (на массив <tex>d</tex>) объемом <tex>O(n^2 m)</tex>.
+=== Псевдокод ===
+  function CYK (a - строка длины n, G - набор правил вывода грамматики с m нетерминалами, S - стартовый нетерминал) -> bool
+  begin
+    d : array [1..m,1..n,1..n] of bool
+    for i = 1 to n
+      if (A -> a[i] - продукция)
+        d[A,i,i] = true
+    for len = 1 to n-1
+      for i = 1 to n-l
+        for (A -> BC - продукция)
+          for k = i to i+len-1
+            d[A,i,i+len] = d[A,i,i+len] or (d[B,i,k] and d[C,k+1,i+len])
+    return d[S,1,n]
+  end
+= Ссылки =
-* [http://www.intuit.ru/department/algorithms/mathformlang/7/]
 * [http://en.wikipedia.org/wiki/CYK_algorithm Википедия - CYK algorithm]
 * [http://www.ctc.msiu.ru/program/t-system/diploma/node39.html Алгоритм Кока-Янгера-Касами]
+[[Категория:В разработке]]
+[[Категория:Дискретная математика и алгоритмы]]
+[[Категория:Динамическое программирование]]
+[[Категория:Теория формальных языков]]

Задача о выводе в контекстно-свободной грамматике, алгоритм Кока-Янгера-Касами — различия между версиями

Текущая версия на 23:24, 4 ноября 2014

Содержание

Определения

Контекстно-свободная грамматика

Пример

Нормальная форма Хомского

Алгоритм Кока-Янгера-Касами

Сложность алгоритма

Псевдокод

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты