Изменения

Простой сопоставитель регулярных выражений

114 байт добавлено, 21:23, 3 декабря 2016

Нет описания правки

=== Псевдокод ===

// поиск вхождения регулярного выражения в любом месте текста '''function''' match(regexp: '''~~char~~string'''*, text: '''~~char~~string'''*): '''boolean''' ~~/ поиск вхождения регулярного выражения в любом месте текста~~ '''if''' (regexp[0] == '^') '''return''' matchHere(regexp + .drop(1), text) // drop(n) возвращает строку без первых n элементов '''doint'''i = 0 '''while''' i <tex>\leqslant</tex> text.length '''if''' (matchHere(regexp, text.drop(i))

'''return''' ''true''

~~'''while''' (*text~~ i++ ~~!= '\0')~~

'''return''' ''false''

// поиск вхождения регулярного выражения в начале текста '''function''' matchHere(regexp: '''~~char~~string'''*, text: '''~~char~~string'''*): '''boolean''' ~~/ поиск вхождения регулярного выражения в начале текста~~ '''if''' (regexp[0] == '\0')

'''return''' ''true''

'''if''' (regexp[1] == '*') '''return''' matchStar(regexp[0], regexp + .drop(2), text) '''if''' (regexp[0] == '$' '''and''' regexp[1] == '\0') '''return''' *text == '\0'; '''if''' (*text[0] !='\0' '''and''' (regexp[0] == '.' '''or''' regexp[0] == *text)[0]) '''return''' matchHere(regexp + .drop(1), text + .drop(1))

'''return''' ''false''

// сопоставление с регулярным выражением вида: c* '''function''' matchStar(c : '''char''', regexp: '''~~char~~string'''*, text: '''~~char~~string'''*): '''boolean''' '''int''' i = 0 '''while''' i <~~font color=darkgreen~~tex>/ сопоставление с регулярным выражением вида: c*\leqslant</~~font~~tex> text.length '''and''' (text[i] == c '''or'do''c == '.') '''if''' (matchHere(regexp, text.drop(i))

'''return''' ''true''

~~'''while''' (*text != '\0' '''and''' (*text~~ i++ ~~== c '''or''' c == '.')) /Цикл '''do-while''' используется вместо '''while''', так как * допускает пустую строку~~

'''return''' ''false''

Рассмотрим возможные случаи:

# Если в ходе рекурсии регулярное выражение осталось пустым <tex>(regexp[0] == \backslash0)</tex>, то текст допускается этим регулярным выражением.

# Если регулярное выражение имеет вид <tex>c*</tex>, то вызывается функция mathchStar, которая пытается сопоставить повторение символа <tex>c</tex>, начиная с нуля повторений и увеличивая их количество, пока не найдет совпадение с оставшимся текстом. Если совпадение не будет найдено, то регулярное выражение не допускает текст. Текущая реализация ищет "кратчайшее совпадение", которое хорошо подходит для сопоставления с образцом, как в '''grep'''<ref>[https://ru.wikipedia.org/wiki/Grep ~~'''~~grep~~'''~~]</ref>, где нужно как можно быстрее найти совпадение. "Наидлиннейшее совпадение" более интуитивно и больше подходит для текстовых редакторов, где найденное заменят на что-то. Большинство современных библиотек для работы с регулярными выражениями предоставляют оба варианта.

# Если регулярное выражение это <tex>\mathdollar</tex>, то оно допускает этот текст тогда и только тогда, когда текст закончился.

# Если первый символ текста совпал с первым символом регулярного выражения, то нужно проверить совпадают ли следующий символ регулярного выражения со следующим символом текста, сделав рекурсивный вызов <tex>\mathrm{matchHere}</tex>.

Данный алгоритм прост и лаконичен, но у него есть недостаток. Для регулярного выражения содержащего несколько <tex>.*</tex> подряд этот алгоритм может работать очень медленно. Рассмотрим время работы '''grep'а''' (наш алгоритм схож со стандартным '''grep'ом'''). Например команда: "<tex>grep</tex> <tex>a.*a.*a.*a.a</tex>" потребует 20 секунд, чтобы обработать текстовой файл размером 4MB на обычной машине. В то же время алгоритм, который конвертирует [[Недетерминированные конечные автоматы|недетерминированный конечный автомат]] в [[Детерминированные конечные автоматы|детерминированный конечный автомат]] (например, '''egrep'''<ref>[https://ru.wikipedia.org/wiki/Grep ~~'''~~egrep~~'''~~]</ref>), потребует менее одной десятой доли секунды на обработку тех же данных.

===Модификации===

=== Псевдокод ===

'''function''' matchStar(c : '''char''', regexp: '''~~char~~string'''*, text: '''~~char~~string'''*): '''boolean''' '''~~char~~int''' *ti '''for''' (t i = 0; text~~; *t~~ [i] != '\0' '''and''' (*t text[i] == c '''or''' c == '.'); ti++) '''dowhile'''i <tex>\geqslant</tex> 0 '''if''' (matchHere(regexp, text.drop(i))

'''return''' ''true''

~~'''while''' (*text != '\0' '''and''' (*text++ == c '''or''' c == '.'))~~ i--

'''return''' ''false''

type: '''int''' / тип элемента: STAR, QUESTION, PLUS, SYMBOL, ...

c: '''char''' / сам символ

cs: '''char'''* [] / для случая [...]

ncs: '''bool''' / для случая отрицания cs: [^...]

== Источники информации ==

* [http://www.cs.princeton.edu/courses/archive/spr10/cos333/beautiful.html A Regular Expression Matcher]

== Примечания ==

[[Категория: Теория формальных языков]]

[[Категория: Автоматы и регулярные языки]]

Voidmaster

59

правок

Изменения

Простой сопоставитель регулярных выражений

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты