Лемма Огдена

Для бесконечного языка применение приведённых в предыдущем разделе приёмов приведёт к началу построения в общем случае бесконечного числа правил грамматики. Требуется более мощный аппарат, которым служит доказываемая ниже лемма Огдена.

Содержание

1 Лемма
2 Примеры не КС-языка, для которого выполняется лемма
- 2.1 Пример [math] 1 [/math]
- 2.2 Пример [math] 2 [/math]
3 См. также
4 Примечания
5 Источники информации

Лемма

Лемма:

Для каждой контекстно-свободной грамматики существует такое , что для любого слова длины не менее и для любых выделенных в не менее позиций, может быть представлено в виде , причем:

[math]x[/math] содержит выделенную позицию;
либо [math]u[/math] и [math]v[/math], либо [math]y[/math] и [math]z[/math] обе содержат выделенные позиции;
[math]vxy[/math] содержат не более [math]n[/math] выделенных позиций;
существует [math]A \in N[/math], такой что . (т.е. )

Доказательство:

Введем следующие обозначения: [math]m = |N|[/math] и [math]l[/math] — длина самой длинной правой части правила из [math]P[/math]. Тогда в качестве [math]n[/math] возьмем [math]l^{2m + 3}[/math]. Рассмотрим дерево разбора [math]T[/math] для произвольного слова [math]\omega \in L(\Gamma)[/math], у которого [math]|\omega| \geqslant n[/math]. В силу выбора [math]n[/math] в [math]T[/math] будет по крайне мере один путь от корня до листа длины не менее [math]2m + 3[/math]. Произвольным образом выделим в [math]\omega[/math] не менее [math]n[/math] позиций. Соответствующие этим позициям листья дерева [math]T[/math] будем называть выделенными.

Пусть [math]v_1[/math] — корень [math]T[/math], а [math]v_{i + 1}[/math] — сын [math]v_i[/math], который имеет среди своих потомков наибольшее число выделенных листьев (если таких несколько, то [math]v_{i + 1}[/math] самый правый из них). Рассмотрим [math]v_1, v_2, \ldots, v_p[/math] — путь от корня до листа.

Будем называть ветвящейся ту вершину, у которой по крайне мере два сына имеют выделенных потомков. Докажем по индукции, что если среди [math]v_1, v_2, \ldots, v_i[/math] вершин есть [math]k[/math] ветвящихся, то [math]v_{i + 1}[/math] имеет хотя бы [math]l^{2m + 3 - k}[/math] выделенных потомков.
База индукции: [math]i = 0[/math]. Тогда [math]k = 0[/math] и [math]v_1[/math] имеет по крайне мере [math]n[/math] выделенных потомков, поскольку является корнем.
Индукционный переход. Если [math]v_i[/math] не является ветвящейся вершиной, то [math]v_{i + 1}[/math] имеет такое же число ветвящихся потомков, как и [math]v_i[/math]. Если [math]v_i[/math] — ветвящаяся вершина, то [math]v_{i + 1}[/math] имеет не более чем в [math]l[/math] раз меньшее число выделенных потомков.

Поскольку [math]v_1[/math] имеет хотя бы [math]n = l^{2m + 3}[/math] выделенных потомков, то [math]v_1, v_2, \ldots, v_p[/math] содержит по крайне мере [math]2m + 3[/math] ветвящиеся вершин. Заметим, что [math]v_p[/math] — лист, поэтому [math]p \gt 2m + 3[/math].

Дерево вывода

Будем называть левой ветвящейся вершиной, если ее сын, не принадлежащий пути , имеет выделенного потомка, лежащего слева от . В противном случае назовем правой ветвящейся вершиной. Рассмотрим последние вершины, принадлежащие пути . Предположим, что хотя бы вершины — левые ветвящиеся (случай, когда хотя бы вершины — правые ветвящиеся, разбирается аналогично). Пусть — последние левые ветвящиеся вершины. Поскольку , то среди них можно найти как минимум две вершины, соответствующие одному нетерминалу. Обозначим эти вершины и , причем — потомок . Тогда на рисунке показано, как представить в требуемом виде.

Условие выполнено, поскольку содержит выделенную вершину, а именно . Очевидно, что условие выполнено в силу предложенного разбиения . Кроме того, содержит выделенную вершину, а именно потомка некоторого сына вершины . Аналогично, выделенный потомок некоторого сына вершины содержится в . Таким образом, условие выполнено. Поскольку между и не более вершин, вершина имеет не более выделенных потомков, поэтому условие выполнено.

Примеры не КС-языка, для которого выполняется лемма

Следует обратить особое внимание на то, что лемма содержит лишь необходимые условия принадлежности КС языку.

Пример [math] 1 [/math]

Утверждение:

Можно построить такой язык, для которого будет выполняться лемма Огдена, однако язык не будет контекстно-свободным.

При анализе этого языка следует использовать алгебраические свойства множества. Выберем [math]P[/math] — подмножество [math]N[/math] и

Языки над [math]X=\{a, b\}[/math].

Очевидно, что [math]B_{p}[/math] — КС, если [math]A_{p}[/math] контекстно-свободен. [math]B_{p}[/math] является рекурсивно-перечислимым, если и [math]A_{p}[/math] им является.

Для будет выполняться лемма Огдена при . Выбрав таким образом, чтобы он был рекурсивно-перечислимым, мы создадим язык для которого будет выполняться лемма Огдена, однако язык не будет контекстно-свободным. (Такие языки существуют)^[1]

Пример [math] 2 [/math]

Утверждение:

Язык , где — попарно различны, не является КС-языком.

Предположим, что данный язык контекстно-свободный. Возьмем цепочку , где [math]k[/math] — константа из леммы Огдена, выделив в ней все вхождения символа [math]a[/math]. Тогда при представлении цепочки [math]\omega[/math] в виде [math]uvxyz[/math] цепочка [math]x[/math] (по условию (1) леммы) обязательно «зацепит» хотя бы один символ [math]a[/math]. Cледовательно, цепочка [math]v[/math] состоит только из символов [math]a[/math] (как и цепочка [math]u[/math]). А именно, [math]v = \alpha^p[/math], .

Тогда, если цепочка [math]x[/math] содержит и другие символы, кроме [math]a[/math], цепочка [math]y[/math] может входить либо в «зону» символов [math]b[/math] (целиком), либо в «зону» символов [math]c[/math] (целиком), так как расположение накачиваемых цепочек на стыках зон, очевидно, невозможно. В первом случае «кратность» [math]\alpha[/math] накачки цепочки [math]v[/math], которая уравняет числа символов [math]a[/math] и [math]c[/math], определяется из соотношения: , то есть [math]\alpha = \dfrac{k!}{p} [/math]

Во втором случае [math]\dfrac {k-1!}{p}[/math] - кратная накачка цепочки [math]v[/math] уравняет числа вхождений символов [math]a[/math] и [math]b[/math]. Не исключено, наконец, что обе накачиваемые цепочки расположены в «зоне» символов [math]a[/math]. Но тогда одним из указанных выше способов накачки можно уравнять числа либо символов [math]a[/math] и [math]b[/math], либо [math]a[/math] и [math]c[/math].

Рис. Цепочки контекстно-свободного языка

Заметим, что возможность выделения символов существенно упрощает анализ данного языка, так как позволяет считать, что цепочка может расположиться единственным способом. Иначе, т.е. при использовании леммы о разрастании для кс-языков, решение задачи было бы, по меньшей мере, сильно затруднено.

См. также

Лемма о разрастании для КС-грамматик

Примечания

↑ A.V. Aho & J.D. Ullman, The Theory of Parsing, Translation and Compilimg, Vol. I, 1972

Источники информации

Wikipedia — Лемма Огдена
Hopcroft, Motwani and Ullman — Automata Theory, Languages, and Computation — Addison-Wesley, 1979. ISBN 81-7808-347-7.
Ogden, W. (1968). A helpful result for proving inherent ambiguity. Mathematical Systems Theory. 2 (3): 191–194.
On languages satisfying Ogden's lemma
Ogden's lemma

[1] A.V. Aho & J.D. Ullman, The Theory of Parsing, Translation and Compilimg, Vol. I, 1972

[1]

Лемма Огдена

Содержание

Лемма

Примеры не КС-языка, для которого выполняется лемма

Пример [math] 1 [/math]

Пример [math] 2 [/math]

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты