Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ — различия между версиями
Kabanov (обсуждение | вклад) м (→Псевдокод) |
Kabanov (обсуждение | вклад) (Псевдокод!) |
||
Строка 1: | Строка 1: | ||
{{Задача | {{Задача | ||
|definition = | |definition = | ||
− | Пусть дана [[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|контекстно-свободная грамматика]] | + | Пусть дана [[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|контекстно-свободная грамматика]] <tex>\Gamma</tex> в [[нормальная форма Хомского|нормальной форме Хомского]] и слово <tex>w \in \Sigma^{*}</tex>. Требуется выяснить, выводится ли это слово в данной грамматике. |
}} | }} | ||
Строка 28: | Строка 28: | ||
== Модификации == | == Модификации == | ||
− | === Количество | + | === Количество способов вывести слово === |
Если массив будет хранить целые числа, а формулу заменить на <tex>d[A][i][j] = \sum\limits_{A \rightarrow BC}\sum\limits_{k = i}^{j-1} d[B][i][k] \cdot d[C][k + 1][j]</tex>, то <tex>d[A][i][j]</tex> - количество способов получить подстроку <tex>w[i \dots j]</tex> из нетерминала <tex>A</tex>. | Если массив будет хранить целые числа, а формулу заменить на <tex>d[A][i][j] = \sum\limits_{A \rightarrow BC}\sum\limits_{k = i}^{j-1} d[B][i][k] \cdot d[C][k + 1][j]</tex>, то <tex>d[A][i][j]</tex> - количество способов получить подстроку <tex>w[i \dots j]</tex> из нетерминала <tex>A</tex>. | ||
Версия 00:02, 5 ноября 2014
Задача: |
Пусть дана контекстно-свободная грамматика в нормальной форме Хомского и слово . Требуется выяснить, выводится ли это слово в данной грамматике. |
Содержание
Алгоритм
Алгоритм Кока-Янгера-Касами (Cocke — Younger — Kasami algorithm, CYK - алгоритм) - универсальный алгоритм, позволяющий по слову узнать, выводимо ли оно в заданной КС-грамматике в нормальной форме Хомского. Будем решать задачу динамическим программированием. Заведем трехмерный массив , состоящий из логических значений, и тогда и только тогда, когда из нетерминала правилами грамматики можно вывести подстроку .
Рассмотрим все пары
, где - константа и . .Шаг 1. База
. В таком случае .
Инициализируем массив для всех нетерминалов, из которых выводится какой-либо символ строки
. В таком случае:- , если в грамматике присутствует правило . Иначе .
Шаг 2. Переход
.
Значения для всех нетерминалов и пар
уже вычислены, поэтому . То есть, подстроку можно вывести из нетерминала , если существует продукция вида и такое , что подстрока выводима из , а подстрока - из .Завершение
После окончания работы значение
содержит ответ на вопрос, выводима ли данная строка в данной грамматике, где - начальный символ грамматики.Модификации
Количество способов вывести слово
Если массив будет хранить целые числа, а формулу заменить на
, то - количество способов получить подстроку из нетерминала .Минимальная стоимость вывода слова
Пусть
- стоимость вывода по правилу . Тогда, если использовать формулу , то - минимальная стоимость вывода подстроки из нетерминала .Таким образом, задача о выводе в КС-грамматике в нормальной форме Хомского является обобщением задачи динамического программирования на подотрезке.
Псевдокод
boolean CYK(char[] w, list, int S): int n = length(w) boolean d[ ][n][n] for i = 1 ... n for (A w[i] ) d[A][i][i] = true for m = 1 .. n - 1 for i = 1 .. n - m int j = i + m for (A BC ) for k = i .. j - 1 d[A][i][j] = d[A][i][j] or d[B][i][k] and d[C][k + 1][j] return d[S][1][n]
Асимптотика
Обработка правил вида
в шаге 1 выполняется за .Проход по всем подстрокам в шаге 2 выполняется за
. В обработке одной подстроки присутствует цикл по всем правилам вывода и по всем разбиениям на две подстроки, следовательно обработка работает за . В итоге получаем конечную сложность .Следовательно, общее время работы алгоритма - нетерминалов грамматики.
. Кроме того, алгоритму требуется память (на массив ) объемом , где - количество