Изменения

Простой сопоставитель регулярных выражений

120 байт убрано, 09:22, 14 марта 2018

→‎Модификации

==Алгоритм==

~~Если требуется сопоставить простое регулярное выражение с текстом, то проще использовать текущий~~ Данный алгоритм~~, чем использовать~~ работает быстрее [[Недетерминированные конечные автоматы| ~~недетерминированный конечный автомат~~недетерминированного конечного автомата]], ~~построенный~~ построенного по [[Теорема Клини (совпадение классов автоматных и регулярных языков)| теореме Клини]], ~~так как он прост в написании~~но только для регулярных выражений, ~~требует меньше памяти и на простых регулярных выражениях работает не сильно хуже.~~ ~~Введем обозначения~~состоящих из символов:

:<tex>c</tex> {{---}} один любой буквенный символ,

:<tex>\ldotp</tex> {{---}} один любой символ,

:<tex>\wedge</tex> {{---}} символ начала текста,

:<tex>~~\mathdollar~~$</tex> {{---}} символ конца текста,

:<tex>*</tex> {{---}} предыдущий символ встречается ноль или более раз.

~~Данный алгоритм можно использовать~~ Например, для ~~регулярных выражений вида:~~ <tex>\~~wedge? (c |~~ mathtt{http://\ldotp ~~| c^~~* | wiki\ldotp^*~~)^* \mathdollar?~~com}</tex>, очевидно, проще написать простой сопоставитель, чем строить НКА.

=== Псевдокод ===

'''int''' i = 0

'''while''' i <tex>\leqslant</tex> text.length

'''if''' matchHere(regexp, text[1i:])

'''return''' ''true''

i++

Функция <tex>\mathrm{match(regexp, text)}</tex> проверяет есть ли вхождение регулярного выражения в любом месте в пределах текста. Если существует более одного вхождения, то найдется самое левое и самое короткое.

Логика функции <tex>\mathrm{match}</tex> проста. Если <tex>\wedge</tex> {{---}} первый символ регулярного выражения, то любое возможное вхождение должно начинаться в начале текста. ~~Т.е.~~ То есть если <tex>\wedge</tex><tex>abc</tex> {{---}} регулярное выражение, то <tex>abc</tex> должно входить в текст только с первой позиции текста, а не где-то в середине текста. Это проверяется путем сопоставления остатка регулярного выражения с текстом, начиная с первой позиции и нигде более.

В противном случае регулярное выражение может входить в текст в любой позиции. Это проверяется путем сопоставления регулярного выражения во всех позициях текста. Если регулярное выражение входит более одного раза в текст, то только самое левое вхождение будет распознано. ~~Т.е.~~ То есть если <tex>abc</tex> {{---}} регулярное выражение, то для него найдется самое левое вхождение в текст.

<font color=darkgreen>// поиск вхождения регулярного выражения в начале текста</font>

Рассмотрим возможные случаи:

# Если в ходе рекурсии регулярное выражение осталось пустым <tex>\mathrm{(regexp[0] == \backslash0)},\,</tex>, то текст допускается этим регулярным выражением.# Если регулярное выражение имеет вид <tex>c*</tex>, то вызывается функция <tex>\mathrm{mathchStar},\, </tex> которая пытается сопоставить повторение символа <tex>c</tex>, начиная с нуля повторений и увеличивая их количество, пока не найдет совпадение с оставшимся текстом. Если совпадение не будет найдено, то регулярное выражение не допускает текст. Текущая реализация ищет "кратчайшее совпадение", которое хорошо подходит для сопоставления с образцом, как в '''grep'''<ref>[http://ru.wikipedia.org/wiki/Grep ~~'''~~Wikipedia {{---}} grep~~'''~~]</ref>, где нужно как можно быстрее найти совпадение. "Наидлиннейшее совпадение" более интуитивно и больше подходит для текстовых редакторов, где найденное заменят на что-то. Большинство современных библиотек для работы с регулярными выражениями предоставляют оба варианта.# Если регулярное выражение это <tex>~~\mathdollar~~$</tex>, то оно допускает этот текст тогда и только тогда, когда текст закончился.

# Если первый символ текста совпал с первым символом регулярного выражения, то нужно проверить совпадают ли следующий символ регулярного выражения со следующим символом текста, сделав рекурсивный вызов <tex>\mathrm{matchHere}</tex>.

# Если все предыдущие попытки найти совпадения провалились, то никакая подстрока из текста не допускается регулярным выражением.

===Модификации===

Немного изменим функцию <tex>\mathrm{matchStar}</tex> для поиск самого левого и самого длинного вхождения <tex>c*</tex>:

# Найдем максимальную последовательность подряд идущих символов <tex>c</tex>. Назовем ее <tex>sS</tex>. # Сопоставим часть текста без <tex>sS</tex> с остатком регулярного выражения.# Если части совпали, то текст допускается этим регулярным выражением. Иначе, если <tex>sS</tex> пусто, то текст не допускается этим регулярным выражением, иначе убираем один символ из <tex>sS</tex> и повторяем шаг <tex>2</tex>.

=== Псевдокод ===

==См. также==

* [[Регулярные языки: два определения и их эквивалентность]]

==Примечания==

== Источники информации ==

[[Категория: Теория формальных языков]]

[[Категория: Автоматы и регулярные языки]]

[[Категория: Регулярные языки и ДКА]]

Анонимный участник

94.19.239.249

Изменения

Простой сопоставитель регулярных выражений

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты