Регулярные выражения с обратными ссылками

Базовые определения

Определение:

Группа (англ. capture group) — часть регулярного выражения. Общепринятое условное обозначение группы — круглые скобки.

Пример: [math]aba(ca)ba.\,[/math] В данном регулярном выражении представлена одна группа — [math](ca).[/math]

Каждой группе соответствует порядковый номер. Нумерация идёт слева направо: номеру группы соответствует порядковый номер открывающей круглой скобки этой группы в тексте регулярного выражения (исключая случаи, когда скобки являются частью синтаксической конструкции).

Пример: [math](ab(cd))(ef).[/math] Группа [math]№1[/math] — [math](ab(cd)),\,[/math] группа [math]№2[/math] — [math](cd),\,[/math] группа [math]№3[/math] — [math](ef)[/math]

Определение:

Обратная ссылка (англ. backreference) — механизм повторного использования групп или слов группы.

Для повторного использования слова группы используется обозначение [math]\backslash n,\,[/math] где [math]n[/math] — номер группы.

Пример использования: Данное регулярное выражение будет задавать язык тандемных повторов. Несмотря на то, что он не является регулярным, его можно представить с помощью механизма обратных ссылок.

Для повторного использования регулярного выражения группы используется обозначение [math](?n),\,[/math] где [math]n[/math] — номер группы. Использование круглых скобок обусловленно тем, что [math]?,[/math] как управляющий символ, уже используется. В данном случае круглые скобки следует воспринимать как общепринятое условное обозначение обратной ссылки; запись [math](?n)[/math] не задаёт группу. Например, в выражении [math](aba)(?1)(caba)(?2)\;[/math] ссылке [math](?2)[/math] будет соответствовать [math](caba),\,[/math] а не [math](?1).[/math]

Обратите внимание, что символы круглых скобок и обратной косой черты являются управляющими. Чтобы использовать их непосредственно как часть слова, их нужно экранировать.

Пример экранирования (в данном случае в качестве символа экранирования используется символ обратной косой черты): [math]\backslash 1[/math] — обратная ссылка на первую группу, [math]\backslash\backslash 1[/math] — слово, состоящее из символа обратной косой черты и единицы.

Определение:

Регулярные выражения с обратными ссылками (англ. regex with backreferences) — регулярные выражения, использующие механизм обратных ссылок.

Примеры

Регулярное выражение [math](aba?)c(?1)\,[/math] породит язык Для сравнения, запишем эквивалентное регулярное выражение без использования механизма обратных ссылок: [math](aba?)c(aba?).[/math]
[math](a^*)\backslash 1.\,[/math] Данное регулярное выражение будет допускать только слова, в которых количество букв [math]a[/math] чётно.
Выведем регулярное выражение для языка, состоящего из палиндромов фиксированной длины [math]n=2\cdot m\,[/math] или [math]\,n=2\cdot m+1[/math] над алфавитом [math]\Sigma=\{0,1\}[/math]:
- для чётного [math]n[/math]:
- для нечётного [math]n[/math]:
Запишем выражение для языка [math]L=b^kab^kab^ka,\,k\gt 0.\,[/math] Данный язык не является ни регулярным, ни контекстно-свободным (по лемме о разрастании), то есть является контекстно-зависимым, но также легко представим с помощью обратных ссылок:
.
Язык [math]L=a^nb^n,\,n\gt 0\,[/math] можно представить при помощи обратных ссылок:
[math]L=(a(?1)?b).[/math]

Следущий за ссылкой [math](?1)[/math] знак вопроса обозначает использование группы [math]0[/math] или [math]1[/math] раз, то есть осуществление рекурсивного вызова или его окончание.

[math](?1)[/math] ссылается на первую группу — [math](a(?1)?b)[/math], что равносильно рекурсивной зависимости:
[math](a(?1)?b)=[/math]

[math]=(a(a(?1)?b)?b)=[/math]

[math]=(a(a(a(?1)?b)?b)?b)=[/math]

Очевидно, что все слова из языка [math]L[/math] удовлетворяют данному регулярному выражению.

Теорема о КС-языках

Теорема:

С помощью механизма обратных ссылок можно представить любой контекстно-свободный язык.

Доказательство:

Любую контекстно-свободную грамматику можно привести к нормальной форме Хомского, следовательно, достаточно доказать, что грамматику, заданную в такой форме, можно преобразовать в регулярное выражение с обратными ссылками. Рассмотрим правила, которые могут содержаться в такой грамматике:

Представим каждое из них в виде регулярного выражения с обратными ссылками.

Используя ссылки на регулярные выражения, соответствующие нетерминалам [math]B[/math] и [math]C[/math], можно представить первое правило:

где [math](?n_B)[/math] и [math](?n_C)[/math] соответствуют нетерминалам [math]B[/math] и [math]C[/math];

Второе и третье правила не требуют использования обратных ссылок:

Если какому-то нетерминалу [math]A[/math] соответствуют несколько регулярных выражений [math]r_1, r_2, \dotsc, r_n[/math], заменить их на одно: (очевидно, что оно также будет соответствовать этому нетерминалу).

Регулярное выражение для данной КС-грамматики соответствует нетерминалу [math]S,\,[/math] однако в нём могут встречаться ссылки на внешние — отличные от [math]S[/math] — группы. Будем обрабатывать такие ссылки, используя метод левостороннего вывода. При обработке очередной ссылки:

если эта ссылка встречается впервые, вместо неё подставим соответствующее регулярное выражение и запомним номер его группы в текущем регулярном выражении;
иначе вместо этой ссылки подставим ссылку на соответствующую группу в текущем регулярном выражении.

После соответствующих замен регулярное выражение для будет искомым.

Пример преобразования

Рассмотрим следующую КС-грамматику:

Приведём её к нормальной форме Хомского:
Каждому нетерминалу поставим в соответствие свой номер:
Каждое правило представим в виде регулярного выражения с обратными ссылками:
Объединим регулярные выражения, соответствующие одинаковым нетерминалам:
Избавимся от внешних ссылок в регулярном выражении для [math]S[/math]:

Пошаговый вывод
№	Текущее регулярное выражение
1.
2.
3.
4.
5.
6.
7.
8.
9.

№ группы в [math]S[/math]
[math]S[/math]	[math]A[/math]	[math]B[/math]	[math]C[/math]	[math]D[/math]	[math]E[/math]
1
1			3
1	4		3
1	4		3	6
1	4		3	6
1	4		3	6
1	4	8	3	6
1	4	8	3	6	10
1	4	8	3	6	10

Напоминание: круглые скобки в записи обратной ссылки являются синтаксической конструкцией и не задают группу.

Таким образом, регулярное выражение для данной грамматики будет выглядеть так:

Рассмотрим другой пример:

Приведём её к нормальной форме Хомского:
Каждому нетерминалу поставим в соответствие свой номер:
Каждое правило представим в виде регулярного выражения с обратными ссылками:
Объединим регулярные выражения, соответствующие одинаковым нетерминалам:
Избавимся от внешних ссылок в регулярном выражении для [math]S[/math]:

Пошаговый вывод
№	Текущее регулярное выражение
1.
2.
3.
4.
5.
6.

№ группы в [math]S[/math]
[math]S[/math]	[math]A[/math]	[math]B[/math]	[math]O[/math]	[math]C[/math]
1
1	4
1	4		5
1	4	6	5
1	4	6	5	7
1	4	6	5	7

Таким образом, регулярное выражение для данной грамматики будет выглядеть так:

Применение

Регулярные выражения с обратными ссылками имеют бо́льшую мощность по сравнению с обычными. С их помощью реализуются как регулярные языки, так и контекстно-свободные грамматики, а также некоторые контекстно-зависимые (например, язык тандемных повторов).

Регулярные выражения в языках программирования зачастую поддерживают обратные ссылки. На практике их можно использовать, например, для парсинга [math]html[/math]-выражений (поиск подстрок, содержащихся в определённых тегах).

См. также

Источники информации

Регулярные выражения с обратными ссылками

Базовые определения

Примеры

Теорема о КС-языках

Пример преобразования

Применение

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты