Изменения

Алгоритм Кока-Янгера-Касами, модификация для произвольной грамматики

4224 байта добавлено, 22:38, 23 мая 2019

м

→‎Псевдокод: tex

{{Задача|definition = Пусть дана [[Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора|контекстно-свободная грамматика]] ~~грамматика~~ <tex>\Gamma</tex> и слово <tex>w \in \Sigma^{*}</tex>. Требуется выяснить, выводится ли это слово в данной грамматике.}}

[[Алгоритм_Кока-Янгера-Касами_разбора_грамматики_в_НФХ|Базовая версия]] данного алгоритма работает только для грамматик в [[нормальная форма Хомского|нормальной форме Хомского]]. Модифицируем алгоритм для работы на произвольных контекстно-свободных грамматиках . Модификация алгоритма сильно проще в написании, чем приведение к [[~~Удаление_цепных_правил_из_грамматики~~нормальная форма Хомского|~~без цепных правил]] и [[Удаление_eps-правил_из_грамматики|без <tex>\varepsilon</tex>-правил~~нормальной форме Хомского]], поэтому часто используют её, не смотря на то, что время работы у нее больше.

== Алгоритм для произвольной грамматики ==

~~Обозначим <tex>M = \max\limits_{A \rightarrow \alpha}\left|\alpha\right|</tex> — максимальную длину правой части правила.~~

Будем решать задачу динамическим программированием. Введём динамику <tex>a\left[A,i,j\right] = \left[A \Rightarrow^{*} w[i..\ldots j-1]\right]\ </tex>, аналогично [[Алгоритм_Кока-Янгера-Касами_разбора_грамматики_в_НФХ|базовой версии ]] алгоритма. Также введём вспомогательный четырехмерный массив <tex>h\left[A \rightarrow \alpha, i, j, k\right] = true \ </tex> тогда и только тогда, когда из префикса длины <tex>k</tex> правой части данного правила можно вывести <tex>w\left[i \ldots j-1\right]</tex>. Рассмотрим все тройки <tex>\lbrace \langle j, i \rangle \mid j-i=m \rbrace</tex>, где <tex>m</tex> {{---}} константа и <tex>m < n</tex>, и <tex>k</tex> такое, что <tex>k < \left|\alpha\right|</tex>. * '''База динамики''': :<tex>a\left[A, i, i+1\right] = true \ </tex>, если в грамматике <tex>\Gamma</tex> присутствует правило <tex>A \rightarrow w[i] \ </tex>, иначе <tex>a\left[A, i, i+1\right] = false \ </tex>; :<tex>a\left[A, i, i\right] = true \ </tex>, если в грамматике <tex>\Gamma</tex> присутствует правило <tex>A \rightarrow \varepsilon \ </tex>, иначе <tex>a\left[A, i, i\right] = false \ </tex>; :<tex>h\left[A \rightarrow \alpha, i, i, 0\right] = true \ </tex>. * '''Переход''': :Пусть значения для всех нетерминалов, пар <tex>\lbrace \langle j', i' \rangle \mid j' - i' < m \rbrace \ </tex> и <tex>\lbrace k' \mid k' < k \rbrace \ </tex> уже вычислены, поэтому вспомогательная динамика: <tex> h\left[A \rightarrow \alpha, i, j+1, k\right] = \bigvee\limits_{r=i \ldots j+1}\left(h\left[A \rightarrow \alpha, i, r, k-1\right] \wedge a\left[\alpha\left[k\right],r,j+1\right]\right)</tex> То есть, подстроку <tex>w[i \ldots j]</tex> можно вывести из префикса длины <tex>k</tex> правой части данного правила, если из префикса длины <tex>k-1</tex> правой части данного правила можно вывести <tex>w\left[i \ldots r-1\right]</tex>, а подстрока <tex>w[r \ldots j]</tex> выводится из <tex>k</tex>-го символа правой части правила. Это вычисление может обратится к <tex>a\left[A,i,j+1\right] </tex>, но на результат это не повлияет, так как в данный момент <tex>a\left[A,i,j+1\right]=false \ </tex>. :Но если <tex>\alpha\left[k\right]</tex> {{---}} терминал, то подстроку <tex>w[i \ldots j]</tex> можно вывести из префикса длины <tex>k</tex> правой части данного правила, если из префикса длины <tex>k-1</tex> правой части данного правила можно вывести <tex>w\left[i \ldots r-1\right] \ </tex>, а подстрока <tex>w[r \ldots j]</tex> выводится, если <tex>w\left[r \ldots j\right]=\alpha\left[k\right] \ </tex>. :Базовая динамика выражается так: <tex>a\left[A,i,j\right]=\bigvee\limits_{A \rightarrow \alpha}h\left[A \rightarrow \alpha, i, j, \left|\alpha\right|\right] \ </tex>. То есть, подстроку <tex>w[i \ldots j-1] \ </tex> можно вывести из нетерминала <tex>A</tex>, если из длины правой части данного правила можно вывести <tex>w\left[i \ldots j-1\right] </tex>.

Также введём вспомогательный трехмерный массив <tex>h\left[A \rightarrow \alpha, i, j, k\right] = true</tex> тогда и только тогда, когда из префикса длины <tex>k</tex> правой части данного правила можно вывести <tex>w\left[i..j\right]</tex>. * '''Завершение''':

* '''База динамики''': После окончания работы ответ содержится в ячейке <tex>a\left[AS, i1, in\right] ~~= true~~</tex>, ~~если в грамматике <tex>\Gamma</tex> присутствует правило~~ где <tex>~~A \rightarrow w[i]</tex>, иначе <tex>a\left[A, i, i\right]~~ n = ~~false</tex>. <tex>a\left[A, i, i\right] = \left[ A \rightarrow~~ |w[i] \in P \right]</tex> — вывод терминалов, <tex>a\left[A, i, i-1\right] = \left[ A \rightarrow \varepsilon \right]</tex> — <tex>\varepsilon</tex>-вывод; <tex>\forall A \rightarrow \alpha \:\: h\left[A \rightarrow \alpha, i, i-1, 0\right] = true</tex> — <tex>\varepsilon</tex>-вывод для <tex>\varepsilon|</tex>~~-префиксов правил~~.

* == Псевдокод ==<code> '''~~Переход~~CYK_Modified'''(S, Г): ~~Пусть для всех подстрок~~ <~~tex~~font color = darkgreen>// S {{---}} строка длины n, Г {{---}} КС-грамматика '''for''' i = 1..n '''for''' Rj -> alpha // перебор состояний '''if'''( A ->w[i] in Г) a[A, i, i+1] = true // если в грамматике Г присутствует правило A -> w[i] '''else''' a[A, i, i+1] = false '''if'''( A -> eps in Г) a[A, i, i] = true // если в грамматике Г присутствует правило A -> eps '''else''' a[A, i, i] = false h[A->alpha, i, i, 0] = true '''for''' m = 1..n '''for''' i = 1..n j]= i+m '''for''' k = 1..M '''for''' Rj -> alpha /~~tex> динамики уже вычислены. Сначала вычислим вспомогательную динамику:~~ / перебор состояний <~~tex~~/font color = darkgreen>~~\forall k:~~ h~~\left~~[A ~~\rightarrow \~~->alpha, i, j+1, k~~\right~~] = ~~\bigvee\limits_{~~OR( for r=i-1..j~~}\left~~+1) (h~~\left~~[A ~~\rightarrow \~~->alpha, i, r, k-1~~\right~~] ~~\wedge~~ & a~~\left~~[\alpha[k],r,j+1~~,j\right~~]~~\right~~)~~</tex>~~ '''for''' i = 1.. Это вычисление может обратится к <tex>a\left[A,i,j\right]</tex>, но на результат это не повлияет, так так в данный момент <tex>a\left[A,i,n '''for''' j~~\right]~~=~~false</tex>~~1.. ~~Главная динамика выражается так: <tex~~n '''for''' Rj ->alpha a~~\left~~[A,i,j~~\right~~]=~~\bigvee\limits_{~~OR( for A ~~\rightarrow \~~->alpha}) h~~\left~~[A ~~\rightarrow \~~->alpha, i, j, ~~\left~~|\alpha~~\right~~|~~\right~~]/~~tex~~/ где |alpha| {{---}} размер правой части правила. '''return''' a[S, 1, n]

* '''Завершение''': После окончания работы ответ содержится в ячейке <tex>a\left[S, 1, n\right]</tex>, где <tex>n = |w|</~~tex~~code>.

== Оценка сложности ==

~~Расчёт~~ Обозначим <tex>M = \max\limits_{A \rightarrow \alpha}\left|\alpha\right|</tex> — максимальную длину правой части правила. Обработки правил вида <tex>A \rightarrow w[i]</tex>, <tex>A \rightarrow \varepsilon</tex> и нахождение <tex>h\left[A \rightarrow \alpha, i, i, 0\right] \ </tex> выполняются за <tex>O(n \cdot |\Gamma|)</tex>. Время одного перехода вспомогательной динамики <tex>O(n)</tex>, суммарное число состояний <tex>O(n^2 \cdot |\Gamma| \cdot M)</tex>. Отсюда расчёт вспомогательной динамики занимает <tex>O \left( n^3 \cdot |\Gamma| \cdot M \right)\ </tex> времени, ~~основной динамики —~~ базовая динамика находится, как <tex>O \left( n^2 \cdot |\Gamma| \right)</tex>. Итоговая временная сложность алгоритма равна <tex>O \left( n^3 \cdot |\Gamma| \cdot M \right)</tex>. Алгоритму требуется <tex>O(n^2 \cdot |\Gamma| \cdot M)\ </tex> памяти. == См. также == * [[Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ|Алгоритм Кока-Янгера-Касами разбора грамматики в НФХ]]* [[Алгоритм_Эрли|Алгоритм Эрли]]

[[Категория: Теория формальных языков]]

[[Категория: Контекстно-свободные грамматики]]

[[Категория:Динамическое программирование]]

Gaporf

390

правок

Изменения

Алгоритм Кока-Янгера-Касами, модификация для произвольной грамматики

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты