Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ — различия между версиями

Версия 23:22, 4 ноября 2014

Задача:

Пусть дана контекстно-свободная грамматика грамматика в нормальной форме Хомского и слово . Требуется выяснить, выводится ли это слово в данной грамматике.

Содержание

1 Алгоритм
2 Модификации
3 Псевдокод
4 Асимптотика
5 См. также
6 Источники информации

Алгоритм

Алгоритм Кока-Янгера-Касами (Cocke — Younger — Kasami algorithm, CYK - алгоритм) - универсальный алгоритм, позволяющий по слову узнать, выводимо ли оно в заданной КС-грамматике в нормальной форме Хомского. Будем решать задачу динамическим программированием. Заведем трехмерный массив d, состоящий из логических значений, и [math]d[A][i][j] = true[/math] тогда и только тогда, когда из нетерминала [math]A[/math] правилами грамматики можно вывести подстроку [math]w[i..j][/math].

Рассмотрим все пары , где [math]m[/math] - константа и [math]m \lt n[/math].

Шаг 1. База

[math]m = 0[/math]. В таком случае [math]i = j[/math].

Инициализируем массив для всех нетерминалов, из которых выводится какой-либо символ строки [math]w[/math]. В таком случае:

, если в грамматике присутствует правило . Иначе .

Шаг 2. Переход

[math]m = j - i[/math].

Значения для всех нетерминалов и пар уже вычислены, поэтому . То есть, подстроку [math]w[i \dots j][/math] можно вывести из нетерминала [math]A[/math], если существует продукция вида [math]A \rightarrow BC[/math] и такое [math]k[/math], что подстрока [math]w[i \dots k][/math] выводима из [math]B[/math], а подстрока [math]w[k + 1 \dots j][/math] - из [math]C[/math].

Завершение

\После окончания работы значение [math]d[S][1][n][/math] содержит ответ на вопрос, выводима ли данная строка в данной грамматике.

Модификации

Заметим, что если массив будет хранить целые числа, а формулу заменить на , то [math]d[A,i,j][/math] - количество способов получить подстроку [math]w[i \dots j][/math] из нетерминала [math]A[/math].

Пусть [math]P_{A \rightarrow BC}[/math] - стоимость вывода по правилу [math]A \rightarrow BC[/math]. Тогда, если использовать формулу , то [math]d[A,i,j][/math] - минимальная стоимость вывода подстроки [math]a_i...a_j[/math] из нетерминала [math]A[/math].

Таким образом, задача о выводе в КС-грамматике в нормальной форме Хомского является обобщением задачи динамического программирования на подотрезке.

Псевдокод

boolean CYK(char[] w, list [math]\Gamma[/math], int S)
   int n = length(w)
   boolean d[[math]|\Gamma|[/math]][n][n]
   for i = 1 ... n
      for (A [math]\rightarrow[/math] w[i] [math]\in[/math] [math]\Gamma[/math])
         d[A][i][i] = true
   for m = 1 .. n - 1
      for i = 1 .. n - m
         int j = i + m
         for (A [math]\rightarrow[/math] BC [math]\in[/math] [math]\Gamma[/math])
            for k = i .. i + len - 1
               d[A][i][j] = d[A][i][j] or d[B][i][k] and d[C][k + 1][j]
return d[S][1][n]

Асимптотика

Обработка правил вида [math]A \rightarrow w[i][/math] в шаге 1 выполняется за [math]O(n \cdot |\Gamma|)[/math].

Проход по всем подстрокам выполняется за [math]O(n^2)[/math]. В обработке подстроки присутствует цикл по всем правилам вывода и по всем разбиениям на две подстроки, следовательно обработка работает за [math]O(n \cdot |\Gamma|)[/math]. В итоге получаем конечную сложность [math]O(n^3 \cdot |\Gamma|)[/math].

Следовательно, общее время работы алгоритма - [math]O(n^3 m)[/math]. Кроме того, алгоритму требуется память (на массив [math]d[/math]) объемом [math]O(n^2 \cdot |N|)[/math], где [math]|N|[/math] - количество нетерминалов грамматики.

См. также

Источники информации

@@ Строка 39: / Строка 39: @@
      '''for''' i = 1 ... n
         '''for''' (A <tex>\rightarrow</tex> w[i] <tex>\in</tex> <tex>\Gamma</tex>)
-           d[A,i,i] = true
+           d[A][i][i] = true
-     '''for''' len = 1 .. n - 1
+     '''for''' m = 1 .. n - 1
-        '''for''' i = 1 .. n - len
+        '''for''' i = 1 .. n - m
+          '''int''' j = i + m
            '''for''' (A <tex>\rightarrow</tex> BC <tex>\in</tex> <tex>\Gamma</tex>)
               '''for''' k = i .. i + len - 1
-                 d[A][i][i + len] = d[A][i][i + len] '''or''' d[B][i][k] '''and''' d[C][k + 1][i + len]
+                 d[A][i][j] = d[A][i][j] '''or''' d[B][i][k] '''and''' d[C][k + 1][j]
   '''return''' d[S][1][n]

Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ — различия между версиями

Версия 23:22, 4 ноября 2014

Содержание

Алгоритм

Шаг 1. База

Шаг 2. Переход

Завершение

Модификации

Псевдокод

Асимптотика

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты