Регулярные выражения с обратными ссылками
Определение: |
Регулярные выражения с обратными ссылками (англ. regex with backreferences) — одна из разновидностей регулярных выражений, дающая возможность использовать в них слова, принадлежащие некоторой группе. |
— пример такого регулярного выражения.
Выражение, заключённое в скобки, называется группой (англ. capture group). Скобки захватывают текст, сопоставленный регулярным выражением внутри нумерованной группы, который может быть повторно использован с помощью обратной ссылки с указанием номера группы.
«
» – символ обратной ссылки (англ. backreference), который действует на первую группу. Обратная ссылка показывает, что после группы — — и символа должен быть описан тот же текст, что содержится в ней.Порядок нумерации групп: сначала внешняя, потом вложенные (в порядке обхода в глубину).
Примеры
- Выразим язык тандемных повторов над алфавитом используя механизм обратных ссылок:
- Данный язык не является регулярным, однако его можно представить с помощью регулярных выражений с использованием обратных ссылок.
- Выведем регулярное выражение для языка, состоящего из палиндромов фиксированной длины или :
- для чётного :
- для нечётного :
- где « » – любой одиночный символ.
- Запишем регулярное выражение для языка лемме о разрастании), но также легко представим с помощью обратных ссылок: . Данный язык не является ни регулярным, ни контекстно-свободным (по
- .
- Группа — — представляет из себя регулярное выражение для языка , последующие за ней обратные ссылки используются для многократного использования текста группы. Поэтому после « » обязан присутствовать текст « ».
- Язык можно представить при помощи обратных ссылок:
- где « » – ссылка, осуществляющая рекурсивный вызов первой группы. Следущий за ссылкой знак вопроса обозначает использование группы или раз, то есть осуществление рекурсивного вызова или его окончание.
- Очевидно, что все слова из языка удовлетворяют данному регулярному выражению.
Теорема о КС-языках
Теорема: |
С помощью механизма обратных ссылок можно представить любой контекстно-свободный язык. |
Доказательство: |
Любую контекстно-свободную грамматику можно привести к нормальной форме Хомского, следовательно, достаточно доказать, что грамматику, заданную в нормальной форме, можно преобразовать в регулярное выражение с обратными ссылками. Рассмотрим правила, которые могут содержаться в такой грамматике:
Представим каждое из них в виде регулярного выражения с обратными ссылками. Используя ссылки на регулярные выражения, соответствующие нетерминалам и , можно представить первое правило:где и соответствуют нетерминалам и ; Второе и третье правила не требуют использования обратных ссылок:
Таким образом, регулярные выражения с обратными ссылками имеют бо́льшую мощность по сравнению с обычными. С их помощью реализуются как регулярные языки, так и контекстно-свободные грамматики, а также некоторые контекстно-зависимые. |
Примеры преобразования
Рассмотрим следующую КС-грамматику:
Очевидно, что эквивалентным будет выражение
, где группы соответствуют .
Другой пример:
Регулярное выражение для этой грамматики будет выглядеть так:
Применение
С помощью обратных ссылок можно составить регулярные выражения для языка тандемных повторов и других языков, где требуется «запоминать» части входящих в язык слов.
Регулярные выражения в языках программирования зачастую поддерживают обратные ссылки. На практике их можно использовать, например, для парсинга
-выражений (поиск подстрок, содержащихся в определённых тегах).