Регулярная аппроксимация КС-языков

Определения

Определение:

Контекстно-свободная грамматика называется самоприменимой (англ. self-embeded), если , .

Определение:

Нетерминал в грамматике называется рекурсивным (англ. recursive), если .

Определение:

Нетерминалы в грамматике называются взаимно рекурсивными (англ. mutual recursive), если .

Алгоритм преобразования грамматики в конечный автомат

Лемма:

Не самоприменимая контекстно-свободная грамматика генерирует регулярный язык.

Доказательство:

В качестве конструктивного доказательства рассмотрим алгоритм построения конечного автомата по грамматике. Также приведем ссылку на формальное доказательство^[1].

Идея алгоритма

Пусть, [math] N^* [/math] множество рекурсивных нетерминалов из [math] N [/math]. Пусть, разбиение [math] N^*[/math] на [math] k [/math] дизъюнктных множеств взаимно рекурсивных нетерминалов, [math] N_i \neq \emptyset [/math].

Определим вспомогательную функцию [math]\mathtt {isLeftType}(N_i)[/math], которая возвращает [math]true[/math], если существует .

Аналогично определим функцию [math]\mathtt {isRightType}(N_i)[/math], которая возвращает [math]true[/math], если существует

bool isLeftType([math]N_i[/math]: nonterminal): 
    return [math] \exists (A \Rightarrow \alpha B \beta) \in P[ A \in N_i \land B \in N_i \land \alpha \neq \varepsilon ][/math]

bool isRightType([math]N_i[/math]: nonterminal): 
    return [math] \exists (A \Rightarrow \alpha B \beta) \in P[ A \in N_i \land B \in N_i \land \beta \neq \varepsilon ][/math]

Определим функцию :

function getTheTypeOfMutualRecursiveSet([math]N_i[/math]: nonterminal): int
   if !isLeftType([math]N_i[/math]) and isRightType([math]N_i[/math]) 
       return left
   if isLeftType([math]N_i[/math]) and !isRightType([math]N_i[/math]) 
       return right
   if isLeftType([math]N_i[/math]) and isRightType([math]N_i[/math]) 
       return self
   if !isLeftType([math]N_i[/math]) and !isRightType([math]N_i[/math]) 
       return cyclic

Когда функция состоит только из лево-рекурсивных нетерминалов.

Аналогично для .

Когда функция состоит только из правил, участвующих в рекурсии.

Функция , для такого , при котором грамматика самоприменима.

Заметим, что [math] \forall i [/math] , т.к в противном случае грамматика будет самоприменима. В основе алгоритма будет рекурсивный обход грамматики. Спускаемся по грамматике до тех пор не приходим в нетерминал или символ алфавита:

Символ алфавит или [math] \varepsilon [/math] — добавляем новое правило в автомат;
Нерекурсивный нетерминал — запускаемся от всех правых частей правил, который терминал порождает;
Рекурсивный нетерминал — в зависимости от типа рекурсивного нетерминала, продолжаем рекурсию (будет ясно из пседокода).

Псевдокод

[math]Q[/math] — множество состояний ДКА.

[math]\Delta[/math] — множество переходов ДКА.

[math]T[/math] — множество допускающих состояний.

function createFA(G: grammar):              // [math] G = \langle N, \Sigma, P, S \rangle[/math] 
    [math]\mathtt{Q} \leftarrow \varnothing[/math]
    [math]\Delta \leftarrow \varnothing [/math]
    s = createState
    f = createState
    [math]F \leftarrow \{f\} [/math]
    return makeFA(s,S,f)
     
function makeFA(q0: vertex, a: char, q1: vertex):
   if a == [math] \varepsilon [/math] or a [math] \in \Sigma[/math]             // пришли в лист дерева разбора
        [math] \Delta = \Delta \cup \{(q_0,a,q_1)\} [/math]
        return
   if a == [math]X\beta[/math] where [math] X \in (N \cup \Sigma) \land \beta \in (N \cup \Sigma)^* \land |\beta| \gt  0 [/math]  
        q = createState
        makeFA([math]q_0,X,q_1[/math])
        makeFA([math]q, \beta, q_1 [/math])
        return
    if exist [math] N_i [/math] where [math] a \in N_i [/math]  
         foreach b in [math]N_i[/math] 
            [math]q_b[/math] = createState
         if getTheTypeOfMutualRecursiveSet([math] N_i [/math]) == left 
            foreach C in [math]N_i[/math] where [math] C \rightarrow X_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_0, X_1 \ldots X_m, q_C[/math])             
            foreach C,D in [math]N_i[/math] where [math] C \rightarrow DX_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_D, X_1 \ldots X_m, q_C[/math])
               [math] \Delta = \Delta \cup \{(q_a,\varepsilon,q_1)\} [/math]
          else                      // рекурсивный нетерминал right или cyclic   
            foreach C in [math]N_i[/math] where [math] C \rightarrow X_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_C, X_1 \ldots X_m, q_1[/math])             
            foreach C,D in [math]N_i[/math] where [math] C \rightarrow DX_1 \ldots X_m \land X_1, \ldots X_m \neq N_i [/math]
               makeFA([math]q_D, X_1 \ldots X_m, q_C[/math])
               [math] \Delta = \Delta \cup \{(q_0, \varepsilon ,q_a)\} [/math] 
             return
    foreach p in [math]P[/math] where p == [math] a \rightarrow \beta [/math]
       makeFA([math] q_0, \beta, q_1 [/math])

Аппроксимации самоприменимой грамматики

В данном разделе покажем методы апроксимации: [math]\mathrm {RTN}[/math] (recursive transition network) аппроксимацию и [math]\mathrm {MN}[/math] (Mohri and Nederhof's) аппроксимацию — самоприменимой контекстно-свободной грамматики к регулярной грамматике. Для удобства будем считать, что грамматика представлена в НФХ.

Автоматы для грамматики

RTN аппроксимация

Построим, по данной грамматике аппроксимирующий ее конечный автомат.

Конечный автомат для грамматики

Для каждого нетерминала [math] A[/math] в грамматике, создадим новый конечный автомат [math] T_A[/math], добавим в него два состояния [math] q_A[/math] и [math]q_{A^*}[/math].
Для каждого правила грамматике , введм новые состояния в автомат этого нетерминала [math] q_0^A \ldots q_m^A[/math], а также добавим новые правила перехода в [math] \Delta[/math]: .
Таким образом мы построили множество конечных автоматов [math]T[/math] = [math] \{ T_A \mid A \in N\}[/math] для каждого нетерминала [math]A[/math]. Теперь объединим все в один автомат. Объединим все состоянии автоматов из [math]T[/math] в множество [math]Q[/math]. Скопируем все переходы каждого автомата из [math]T[/math] в [math]\Delta[/math]. Далее для каждого перехода вида [math](q,A,p), A\in N[/math], вместо него добавим два новых перехода: .

MN аппроксимация

Построим по данной самоприменимой контекстно-свободной грамматике [math] G [/math] регулярную грамматику [math] G^*[/math].

Для каждого нетерминала [math] A \in N [/math] из [math]G[/math], добавим нетерминалы [math]A[/math] и [math] A^*[/math] в [math] G^* [/math].
Для каждого правила , где . Добавим в [math] G^*[/math] нетерминалы и следуюшие правила: .

(Если , тогда добавим правило ).

В итоге [math] G^*[/math] — правоконтекстная грамматика, эквивалентная конечному автомату, который задает регулярный язык.

Пример

Исходная грамматика [math] G [/math] генерирует язык: . Результирущая грамматика [math] G^*[/math] генирирует регулярный язык: [math] (ab)^+ a^*[/math].

Сравнение двух методов

Ясно, что оба языка, генерируемых конечным автомат для первого метода и апрокисимируещей граматикой для второго метода, содержат в себе язык генерируемый исходной грамматикой. Привлекателным свойством [math]\mathrm {MN}[/math] аппроксимации по сравнению с [math]\mathrm {RTN}[/math], то, что она можеть быть применима к большим грамматикам: для каждого нетерминала грамматике [math] G[/math], добавляется не более одного нового нетерминала в [math] G^*[/math] и размер результирующий грамматики максимум в [math]2[/math] раза больше, чем размер исходной. Так как для [math]\mathrm {RTN}[/math] апроксимации грамматики , количество состаяний апроксимируещего автомата в худшем случаи может составлять [math] O(|N|^2)[/math], что может быть критично для аппроксимации больших грамматик. Также,еще несколько эффекивных методов аппрокимации можно найти в статьях, приведенных в ссылках.

См. также

Примечания

↑ Noam Chomsky — A note on phrase structure grammars

Источники информации

Jean-Claude Junqua,Gertjan van Noord — Robustness in Language and Speech Technology — Kluwer Academic Publishers, 2001 — ISBN 0-7923-6790-1
Strongly Regular Grammars and Regular Approximation of Contex-Free Languages
Practical Experiments with Regular Approximation of Context-Free Languages
Willem J. M. Levelt — An Introduction to the Theory of Formal Languages and Automata — John Benjamin B.V., 2008 — ISBN 978-90-272-3250-2

[1] Noam Chomsky — A note on phrase structure grammars

[1]

Регулярная аппроксимация КС-языков

Определения

Алгоритм преобразования грамматики в конечный автомат

Идея алгоритма

Псевдокод

Аппроксимации самоприменимой грамматики

RTN аппроксимация

MN аппроксимация

Пример

Сравнение двух методов

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты