Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора

Основные определения

Определение:

Контекстно-свободной грамматикой (англ. сontext-free grammar) называется грамматика, у которой в левых частях всех правил стоят только одиночные нетерминалы.

Определение:

Контекстно-свободный язык (англ. context-free language) — язык, задаваемый контекстно-свободной грамматикой.

Лево- и правосторонний вывод слова

Определение:

Выводом слова (англ. derivation of a word) называется последовательность строк, состоящих из терминалов и нетерминалов. Первая строка последовательности состоит из одного стартового нетерминала. Каждая последующая строка получена из предыдущей путем замены любого нетерминала по одному (любому) из правил, а последней строкой в последовательности является слово .

Пример:

Рассмотрим грамматику, выводящую все правильные скобочные последовательности.

и — терминальные символы

— стартовый нетерминал

Правила:

[math]S\rightarrow (S)S[/math]
[math]S\rightarrow S(S)[/math]
[math]S\rightarrow \varepsilon[/math]

Выведем слово [math](()(()))()[/math]:

Определение:

Левосторонним выводом слова (англ. leftmost derivation) называется такой вывод слова , в котором каждая последующая строка получена из предыдущей путем замены по одному из правил самого левого встречающегося в строке нетерминала.

Определение:

Правосторонним выводом слова (англ. rightmost derivation) называется такой вывод слова , в котором каждая последующая строка получена из предыдущей путем замены по одному из правил самого правого встречающегося в строке нетерминала.

Рассмотрим левосторонний вывод скобочной последовательности из примера:

Дерево разбора

Определение:

Деревом разбора грамматики (англ. parse tree) называется дерево, в вершинах которого записаны терминалы или нетерминалы. Все вершины, помеченные терминалами, являются листьями. Все вершины, помеченные нетерминалами, имеют детей. Дети вершины, в которой записан нетерминал, соответствуют раскрытию нетерминала по одному любому правилу (в левой части которого стоит этот нетерминал) и упорядочены так же, как в правой части этого правила.

Определение:

Крона дерева разбора (англ. leaves of the parse tree) — множество терминальных символов, упорядоченное в соответствии с номерами их достижения при обходе дерева в глубину из корня. Крона дерева разбора представляет из себя слово языка, которое выводит это дерево.

Построим дерево разбора скобочной последовательности из примера.

Теорема:

Пусть — КС-грамматика. Предположим, что существует дерево разбора с корнем, отмеченным , и кроной , где . Тогда в грамматике существует левое порождение

Доказательство:

Используем индукцию по высоте дерева.

База: Базисом является высота [math]1[/math], наименьшая из возможных для дерева разбора с терминальной кроной.

Поскольку это дерево является деревом разбора, должно быть продукцией. Таким образом, есть одношаговое левое порождение из .

Индукционный переход: Существует корень с отметкой [math]A[/math] и сыновьями, отмеченными слева направо [math]X_1X_2 \ldots X_k[/math]. Символы [math]X[/math] могут быть как терминалами, так и переменными.

Если [math]X_i[/math] — терминал, то определим [math]\omega_i[/math] как цепочку, состоящую из одного [math]X_i[/math].
Если [math]X_i[/math] — переменная, то она должна быть корнем некоторого поддерева с терминальной кроной, которую обозначим [math]\omega_i[/math]. Заметим, что в этом случае высота поддерева меньше [math]n[/math], поэтому к нему применимо предположение индукции. Следовательно, существует левое порождение .

Заметим, что . Построим левое порождение цепочки [math]\omega[/math] следующим образом:

Начнем с шага .

Затем для покажем, что имеет место следующее порождение:

Данное доказательство использует в действительности еще одну индукцию, на этот раз по [math]i[/math]. Для базиса [math]i = 0[/math] мы уже знаем, что .

Для индукции предположим, что существует следующее порождение:

Если [math]X_i[/math] — терминал, то не делаем ничего, но в дальнейшем рассматриваем [math]X_i[/math] как терминальную цепочку [math]\omega_i[/math]. Таким образом, приходим к существованию следующего порождения.
Если [math]X_i[/math] является переменной, то продолжаем порождением [math]\omega_i[/math] из [math]X_i[/math] в контексте уже построенного порождения. Таким образом, если этим порождением является: , то продолжаем следующими порождениями:

Результатом является порождение .

Когда , результат представляет собой левое порождение из .

Теорема:

Для каждой грамматики и из цепочка имеет два разных дерева разбора тогда и только тогда, когда имеет два разных левых порождения из .

Доказательство:

[math]\Longrightarrow[/math]

Внимательно рассмотрим построение левого порождения по дереву разбора в доказательстве теоремы. В любом случае, если у двух деревьев разбора впервые появляется узел, в котором применяются различные продукции, левые порождения, которые строятся, также используют разные продукции и, следовательно, являются различными.

[math] \Longleftarrow [/math]

Хотя мы предварительно не описали непосредственное построение дерева разбора по левому порождению, идея его проста. Начнем построение дерева с корня, отмеченного стартовым символом. Рассмотрим порождение пошагово. На каждом шаге заменяется переменная, и эта переменная будет соответствовать построенному крайнему слева узлу дерева, не имеющему сыновей, но отмеченному этой переменной. По продукции, использованной на этом шаге левого порождения, определим, какие сыновья должны быть у этого узла. Если существуют два разных порождения, то на первом шаге, где они различаются, построенные узлы получат разные списки сыновей, что гарантирует различие деревьев разбора.

Однозначные грамматики

Определение:

Грамматика называется однозначной (англ. unambiguous grammar), если у каждого слова имеется не более одного дерева разбора в этой грамматике.

Лемма:

Пусть — однозначная грамматика. Тогда существует ровно один левосторонний (правосторонний) вывод.

Доказательство:

Очевидно, что по дереву разбора однозначно восстанавливается левосторонний(правосторонний) вывод. Поскольку каждое слово из языка выводится только одним деревом разбора, то существует только один левосторонний(правосторонний) вывод этого слова.

Утверждение:

Грамматика из примера не является однозначной.

Выше уже было построено дерево разбора для слова [math](()(()))()[/math]. Построим еще одно дерево разбора для данного слова.

Например, оно будет выглядеть так:

Таким образом, существует слово, у которого есть более одного дерева разбора в данной грамматике эта грамматика не является однозначной.

Утверждение:

Существуют языки, которые можно задать одновременно как однозначными, так и неоднозначными грамматиками.

Для доказательства достаточно привести однозначную грамматику для языка правильных скобочных последовательностей (неоднозначной грамматикой для данного языка является грамматика из примера выше).

Рассмотрим грамматику:

и — терминальные символы

— стартовый нетерминал

Правила:

[math]S\rightarrow (S)S[/math]
[math]S\rightarrow \varepsilon[/math]

Покажем, что эта грамматика однозначна. Для этого, используя индукцию, докажем, что для любого слова [math]\omega[/math], являющегося правильной скобочной последовательностью, в данной грамматике существует только одно дерево разбора.

База: Если [math]\omega=\varepsilon[/math], то оно выводится только по второму правилу [math]\Rightarrow[/math] для него существует единственное дерево разбора.

Индукционный переход: Пусть и [math]\forall \upsilon[/math]: и [math]\upsilon[/math] — правильная скобочная последовательность, у которой [math]\exists![/math] дерево разбора.

Найдем в слове минимальный индекс такой, что слово является правильной скобочной последовательностью. Так как минимальный, то . Из того, что является правильной скобочной последовательностью и — правильные скобочные последовательности, при этом и по индукционному предположению предположению у и существуют единственные деревья разбора.

Если мы покажем, что из части первого правила можно вывести только слово , то утверждение будет доказано (так как из первой части первого правила выводится , а из второй только и для каждого из них по предположению существуют единственные деревья разбора).

Пусть из была выведена часть слова , где , при этом является правильной скобочной последовательностью, но тогда как минимальный индекс мы должны были выбрать , а не — противоречие.

Аналогично из не может быть выведена часть слова , где , потому что тогда не будет правильной скобочной последовательностью, так как в позиции баланс скобок будет отрицательный.

Значит, из была выведена часть слова имеет единственное дерево разбора данная грамматика однозначная.

Таким образом, для языка правильных скобочных последовательностей мы привели пример как однозначной, так и неоднозначной грамматики.

Однако, есть КС-языки, для которых не существует однозначных КС-грамматик. Такие языки и грамматики их порождающие называют существенно неоднозначными.

Основная статья: Существенно неоднозначные языки

См. также

Источники информации

Wikipedia — Context-free grammar
Википедия — Контекстно-свободная грамматика
Хопкрофт Д., Мотвани Р., Ульман Д. — Введение в теорию автоматов, языков и вычислений, 2-е изд. : Пер. с англ. — Москва, Издательский дом «Вильямс», 2002. — 528 с. : ISBN 5-8459-0261-4 (рус.)

Контекстно-свободные грамматики, вывод, лево- и правосторонний вывод, дерево разбора

Основные определения

Лево- и правосторонний вывод слова

Дерево разбора

Однозначные грамматики

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты