Иерархия Хомского формальных грамматик
Определение: |
Иерархия Хомского — классификация формальных грамматик и задаваемых ими языков, согласно которой они делятся на 4 класса по их условной сложности. |
Класс 0
К нулевому классу относятся все формальные грамматики. Элементы этого класса называются неограниченными грамматиками (англ. unrestricted grammars), поскольку на них не накладывается никаких ограничений. Они задают все языки, которые могут быть распознаны машиной Тьюринга. Эти языки также известны как рекурсивно перечислимые (англ. recursively enumerable).
Правила можно записать в виде:
, где — любая непустая цепочка, содержащая хотя бы один нетерминальный символ, а — любая цепочка символов из алфавита.
Практического применения в силу своей сложности такие грамматики не имеют.
Класс 1
Первый класс представлен неукорачивающими и контекстно-зависимыми грамматиками.
Type-1 grammars (context-sensitive grammars) generate the context-sensitive languages. These grammars have rules of the form \alpha A\beta \rightarrow \alpha\gamma\beta with A a nonterminal and \alpha, \beta and \gamma strings of terminals and/or nonterminals. The strings \alpha and \beta may be empty, but \gamma must be nonempty. The rule S \rightarrow \epsilon is allowed if S does not appear on the right side of any rule. The languages described by these grammars are exactly all languages that can be recognized by a linear bounded automaton (a nondeterministic Turing machine whose tape is bounded by a constant times the length of the input.)
Определение: |
Неукорачивающие грамматики — это формальные грамматики, всякое правило из | которых имеет вид , где и (возможно правило , но тогда не встречается в правых частях правил).
Определение: |
Контекстно-зависимые грамматики — это формальные грамматики, всякое правило из | которых имеет вид , где , и (возможно правило , но тогда не встречается в правых частях правил).
Как будет показано далее, неукорачивающие грамматики эквивалентны контекстно-зависимым.
Класс 2
Второй класс составляют контекстно-свободные грамматики.
Type-2 grammars (context-free grammars) generate the context-free languages. These are defined by rules of the form A \rightarrow \gamma with A a nonterminal and \gamma a string of terminals and/or nonterminals. These languages are exactly all languages that can be recognized by a non-deterministic pushdown automaton. Context-free languages – or rather the subset of deterministic context-free language – are the theoretical basis for the phrase structure of most programming languages, though their syntax also includes context-sensitive name resolution due to declarations and scope. Often a subset of grammars are used to make parsing easier, such as by an LL parser.
Определение: |
Контекстно-свободные грамматики — это формальные грамматики, всякое правило из | которых имеет вид , где , .
Класс 3
Элементами третьего класса являются праволинейные (автоматные) грамматики.
К третьему типу относятся регулярные грамматики (автоматные) — самые простые из формальных грамматик. Они являются контекстно-свободными, но с ограниченными возможностями.
Все регулярные грамматики могут быть разделены на два эквивалентных класса, которые для грамматики вида III будут иметь правила следующего вида:
- или , где (для леволинейных грамматик).
- ; или , где (для праволинейных грамматик).
Регулярные грамматики применяются для описания простейших конструкций: идентификаторов, строк, констант, а также языков ассемблера, командных процессоров и др.
Type-3 grammars (regular grammars) generate the regular languages. Such a grammar restricts its rules to a single nonterminal on the left-hand side and a right-hand side consisting of a single terminal, possibly followed by a single nonterminal (right regular). Alternatively, the right-hand side of the grammar can consist of a single terminal, possibly preceded by a single nonterminal (left regular); these generate the same languages – however, if left-regular rules and right-regular rules are combined, the language need no longer be regular. The rule S \rightarrow \epsilon is also allowed here if S does not appear on the right side of any rule. These languages are exactly all languages that can be decided by a finite state automaton. Additionally, this family of formal languages can be obtained by regular expressions. Regular languages are commonly used to define search patterns and the lexical structure of programming languages.
Определение: |
Праволинейные (автоматные) грамматики — это формальные грамматики, всякое правило из | которых имеет вид либо , где , , .
Распознавание
Для языков, которые задаются грамматиками из иерархии Хомского, есть машины, которые их распознают. Следующая таблица сопоставляет классы иерархии Хомского, языки, которые ими задаются, и машины, которые распознают эти языки.
Грамматика | Языки | Машина |
---|---|---|
Класс 0 | рекурсивно перечислимые | машина Тьюринга |
Класс 1 | контекстно-зависимые | ЛПА |
Класс 2 | контекстно-свободные | автоматы с магазинной памятью |
Класс 3 | регулярные | конечные автоматы |
Источники информации
- А. Ахо, Дж. Ульман. Теория синтаксического анализа, перевода и компиляции. Синтаксический анализ. Том 2. Пер. с англ. — М.: Книга по Требованию, 2012. — ISBN 978-5-458-27407-4
- Wikipedia — Chomsky hierarchy
- Википедия — Иерархия Хомского