Простой сопоставитель регулярных выражений — различия между версиями

Текущая версия на 19:11, 4 сентября 2022

Задача:

Даны регулярное выражение и текст. Нужно проверить допускает ли регулярное выражение данный текст.

Содержание

1 Алгоритм
2 См. также
3 Примечания
4 Источники информации

Алгоритм

Данный алгоритм работает быстрее недетерминированного конечного автомата, построенного по теореме Клини, но только для регулярных выражений, состоящих из символов:

— один любой буквенный символ,

— один любой символ,

— символ начала текста,

— символ конца текста,

— предыдущий символ встречается ноль или более раз.

Например, для , очевидно, проще написать простой сопоставитель, чем строить НКА.

Псевдокод

// поиск вхождения регулярного выражения в любом месте текста
function match(regexp: String, text: String): boolean  
    if regexp[0] == '^'
        return matchHere(regexp[1:], text)  // regexp[n:] возвращает regexp без первых n элементов за O(1)
    int i = 0
    while i [math]\leqslant[/math] text.length
        if matchHere(regexp, text[i:])
            return true
        i++
    return false

Функция проверяет есть ли вхождение регулярного выражения в любом месте в пределах текста. Если существует более одного вхождения, то найдется самое левое и самое короткое.

Логика функции [math]\mathrm{match}[/math] проста. Если [math]\wedge[/math] — первый символ регулярного выражения, то любое возможное вхождение должно начинаться в начале текста. То есть если [math]\wedge[/math][math]abc[/math] — регулярное выражение, то [math]abc[/math] должно входить в текст только с первой позиции текста, а не где-то в середине текста. Это проверяется путем сопоставления остатка регулярного выражения с текстом, начиная с первой позиции и нигде более.

В противном случае регулярное выражение может входить в текст в любой позиции. Это проверяется путем сопоставления регулярного выражения во всех позициях текста. Если регулярное выражение входит более одного раза в текст, то только самое левое вхождение будет распознано. То есть если [math]abc[/math] — регулярное выражение, то для него найдется самое левое вхождение в текст.

// поиск вхождения регулярного выражения в начале текста
function matchHere(regexp: String, text: String): boolean 
    if regexp[0] == '\0'
        return true 
    if regexp[1] == '*'  // не будет выхода за пределы строки, так как в конце regexp и text всегда есть символ '\0'
        return matchStar(regexp[0], regexp[2:], text)
    if regexp[0] == '$' and regexp[1] == '\0'
        return text == '\0'
    if text[0] != '\0' and (regexp[0] == '.' or regexp[0] == text[0])
        return matchHere(regexp[1:], text[1:])
    return false

Основная часть работы сделана в , которая сопоставляет регулярное выражение с текстом в текущей позиции. Функция [math]\mathrm{matchHere}[/math] пытается сопоставить первый символ регулярного выражения с первым символом текста. В случае успеха мы можем сравнить следующий символ регулярного выражения со следующим символом текста, вызвав [math]\mathrm{matchHere}[/math] рекурсивно. Иначе нет совпадения с регулярным выражением в текущей позиции текста.

// сопоставление с регулярным выражением вида: c*
function matchStar(c: char, regexp: String, text: String): boolean
    int i = 0
    while i [math]\leqslant[/math] text.length and (text[i] == c or c == '.')
        if matchHere(regexp, text[i:])
            return true
        i++
    return false

Рассмотрим возможные случаи:

Если в ходе рекурсии регулярное выражение осталось пустым то текст допускается этим регулярным выражением.
Если регулярное выражение имеет вид [math]c*[/math], то вызывается функция [math]\mathrm{mathchStar},\,[/math] которая пытается сопоставить повторение символа [math]c[/math], начиная с нуля повторений и увеличивая их количество, пока не найдет совпадение с оставшимся текстом. Если совпадение не будет найдено, то регулярное выражение не допускает текст. Текущая реализация ищет "кратчайшее совпадение", которое хорошо подходит для сопоставления с образцом, как в grep^[1], где нужно как можно быстрее найти совпадение. "Наидлиннейшее совпадение" более интуитивно и больше подходит для текстовых редакторов, где найденное заменят на что-то. Большинство современных библиотек для работы с регулярными выражениями предоставляют оба варианта.
Если регулярное выражение это [math]$[/math], то оно допускает этот текст тогда и только тогда, когда текст закончился.
Если первый символ текста совпал с первым символом регулярного выражения, то нужно проверить совпадают ли следующий символ регулярного выражения со следующим символом текста, сделав рекурсивный вызов [math]\mathrm{matchHere}[/math].
Если все предыдущие попытки найти совпадения провалились, то никакая подстрока из текста не допускается регулярным выражением.

Модификации

Немного изменим функцию [math]\mathrm{matchStar}[/math] для поиск самого левого и самого длинного вхождения [math]c*[/math]:

Найдем максимальную последовательность подряд идущих символов [math]c[/math]. Назовем ее [math]S[/math].
Сопоставим часть текста без [math]S[/math] с остатком регулярного выражения.
Если части совпали, то текст допускается этим регулярным выражением. Иначе, если [math]S[/math] пусто, то текст не допускается этим регулярным выражением, иначе убираем один символ из [math]S[/math] и повторяем шаг [math]2[/math].

Псевдокод

function matchStar(c: char, regexp: String, text: String): boolean
    int i
    for (i = 0; text[i] != '\0' and (text[i] == c or c == '.'); i++)
    while i [math]\geqslant[/math] 0
        if matchHere(regexp, text[i:])
            return true
        i--
    return false

См. также

Регулярные языки: два определения и их эквивалентность

Примечания

↑ Wikipedia — grep

Источники информации

A Regular Expression Matcher

[1] Wikipedia — grep

[1]

@@ Строка 5: / Строка 5: @@
 ==Алгоритм==
-Введем обозначения:
+Данный алгоритм работает быстрее [[Недетерминированные конечные автоматы|недетерминированного конечного автомата]], построенного по [[Теорема Клини (совпадение классов автоматных и регулярных языков)| теореме Клини]], но только для регулярных выражений, состоящих из символов:
-:<tex>c</tex> {{---}} один любой буквенный символ
+:<tex>c</tex> {{---}} один любой буквенный символ,
-:<tex>\ldotp</tex> {{---}} один любой символ
+:<tex>\ldotp</tex> {{---}} один любой символ,
-:<tex>\wedge</tex> {{---}} символ начала текста
+:<tex>\wedge</tex> {{---}} символ начала текста,
-:<tex>\mathdollar</tex> {{---}} символ конца текста
+:<tex>$</tex> {{---}} символ конца текста,
-:<tex>*</tex> {{---}} предыдущий символ встречается ноль или более раз
+:<tex>*</tex> {{---}} предыдущий символ встречается ноль или более раз.
+Например, для <tex>\mathtt{http://\ldotp*wiki\ldotp*com}</tex>, очевидно, проще написать простой сопоставитель, чем строить НКА.
 === Псевдокод ===
- '''function''' match(regexp: '''char'''*, text: '''char'''*): '''boolean'''  <font color=darkgreen>/ поиск вхождения регулярного выражения в любом месте текста</font>
+  <font color=darkgreen>// поиск вхождения регулярного выражения в любом месте текста</font>
-     '''if''' (regexp[0] == '^')
+  '''function''' match(regexp: '''String''', text: '''String'''): '''boolean'''
-         '''return''' matchHere(regexp + 1, text)
+      '''if''' regexp[0] == '^'
-     '''do'''
+          '''return''' matchHere(regexp[1:], text)  <font color=darkgreen>// regexp[n:] возвращает regexp без первых n элементов за O(1)</font>
-         '''if''' (matchHere(regexp, text))
+      '''int''' i = 0
-             '''return''' ''true''
+      '''while''' i <tex>\leqslant</tex> text.length
-     '''while''' (*text++ != '\0')
+          '''if''' matchHere(regexp, text[i:])
-     '''return''' ''false''
-  '''function''' matchHere(regexp: '''char'''*, text: '''char'''*): '''boolean''' <font color=darkgreen>/ поиск вхождения регулярного выражения в начале текста</font>
-      '''if''' (regexp[0] == '\0')
-          '''return''' ''true''
-     '''if''' (regexp[1] == '*')
-         '''return''' matchStar(regexp[0], regexp + 2, text)
-     '''if''' (regexp[0] == '$' '''and''' regexp[1] == '\0')
-         '''return''' *text == '\0';
-      '''if''' (*text!='\0' '''and''' (regexp[0] == '.' '''or''' regexp[0] == *text))
-         '''return''' matchHere(regexp + 1, text + 1)
-      '''return''' ''false''
- '''function''' matchStar(c : '''char''', regexp: '''char'''*, text: '''char'''*): '''boolean''' <font color=darkgreen>/ сопоставление с регулярным выражением вида: c*</font>
-     '''do'''
-          '''if''' (matchHere(regexp, text))
               '''return''' ''true''
-     '''while''' (*text != '\0' '''and''' (*text++ == c '''or''' c == '.'))  <font color=darkgreen>/Цикл '''do-while''' используется вместо '''while''', так как * допускает пустую строку</font>
+         i++
       '''return''' ''false''
-Данный псевдокод использует указатели и арифметические операции над ними из языка C.
+Функция <tex>\mathrm{match(regexp, text)}</tex> проверяет есть ли вхождение регулярного выражения в любом месте в пределах текста. Если существует более одного вхождения, то найдется самое левое и самое короткое.
-Функция <tex>\mathrm{match(regexp, text)}</tex> проверяет есть ли вхождение регулярного выражения в любом месте в пределах текста. Если существует более одного вхождения, то найдется самое левое и самое короткое.
+Логика функции <tex>\mathrm{match}</tex> проста. Если <tex>\wedge</tex> {{---}} первый символ регулярного выражения, то любое возможное вхождение должно начинаться в начале текста. То есть если <tex>\wedge</tex><tex>abc</tex> {{---}} регулярное выражение, то <tex>abc</tex> должно входить в текст только с первой позиции текста, а не где-то в середине текста. Это проверяется путем сопоставления остатка регулярного выражения с текстом, начиная с первой позиции и нигде более.
-Логика функции <tex>\mathrm{match}</tex> проста. Если <tex>\wedge</tex> {{---}} первый символ регулярного выражения, то любое возможное вхождение должно начинаться в начале текста. Т.е. если <tex>\wedge</tex><tex>abc</tex> {{---}} регулярное выражение, то <tex>abc</tex> должно входить в текст только с первой позиции текста, а не где-то в середине текста. Это проверяется путем сопоставления остатка регулярного выражения с текстом, начиная с первой позиции и нигде более.
+В противном случае регулярное выражение может входить в текст в любой позиции. Это проверяется путем сопоставления регулярного выражения во всех позициях текста. Если регулярное выражение входит более одного раза в текст, то только самое левое вхождение будет распознано. То есть если <tex>abc</tex> {{---}} регулярное выражение, то для него найдется самое левое вхождение в текст.
-В противном случае регулярное выражение может входить в текст в любой позиции. Это проверяется путем сопоставления регулярного выражения во всех позициях текста. Если регулярное выражение входит более одного раза в текст, то только самое левое вхождение будет распознано. Т.е. если <tex>abc</tex> {{---}} регулярное выражение, то для него найдется самое левое вхождение в текст.
+ <font color=darkgreen>// поиск вхождения регулярного выражения в начале текста</font>
+ '''function''' matchHere(regexp: '''String''', text: '''String'''): '''boolean'''
+     '''if''' regexp[0] == '\0'
+         '''return''' ''true''
+     '''if''' regexp[1] == '*'  <font color=darkgreen>// не будет выхода за пределы строки, так как в конце regexp и text всегда есть символ '\0'</font>
+         '''return''' matchStar(regexp[0], regexp[2:], text)
+     '''if''' regexp[0] == '$' '''and''' regexp[1] == '\0'
+         '''return''' text == '\0'
+     '''if''' text[0] != '\0' '''and''' (regexp[0] == '.' '''or''' regexp[0] == text[0])
+         '''return''' matchHere(regexp[1:], text[1:])
+     '''return''' ''false''
 Основная часть работы сделана в <tex>\mathrm{matchHere(regexp, text)}</tex>, которая сопоставляет регулярное выражение с текстом в текущей позиции. Функция <tex>\mathrm{matchHere}</tex> пытается сопоставить первый символ регулярного выражения с первым символом текста. В случае успеха мы можем сравнить следующий символ регулярного выражения со следующим символом текста, вызвав <tex>\mathrm{matchHere}</tex> рекурсивно. Иначе нет совпадения с регулярным выражением в текущей позиции текста.
+ <font color=darkgreen>// сопоставление с регулярным выражением вида: c*</font>
+ '''function''' matchStar(c: '''char''', regexp: '''String''', text: '''String'''): '''boolean'''
+     '''int''' i = 0
+     '''while''' i <tex>\leqslant</tex> text.length '''and''' (text[i] == c '''or''' c == '.')
+         '''if''' matchHere(regexp, text[i:])
+             '''return''' ''true''
+         i++
+     '''return''' ''false''
 Рассмотрим возможные случаи:
-# Если в ходе рекурсии регулярное выражение осталось пустым <tex>(regexp[0] == \backslash0)</tex>, то текст допускается этим регулярным выражением.
+# Если в ходе рекурсии регулярное выражение осталось пустым <tex>\mathrm{(regexp[0] == \backslash0)},\,</tex> то текст допускается этим регулярным выражением.
-# Если регулярное выражение имеет вид <tex>c*</tex>, то вызывается функция mathchStar, которая пытается сопоставить повторение символа <tex>c</tex>, начиная с нуля повторений и увеличивая их количество, пока не найдет совпадение с оставшимся текстом. Если совпадение не будет найдено, то регулярное выражение не допускает текст. Текущая реализация ищет "кратчайшее совпадение", которое хорошо подходит для сопоставления с образцом, как в [https://ru.wikipedia.org/wiki/Grep '''grep'''], где нужно как можно быстрее найти совпадение. "Наидлиннейшее совпадение" более интуитивно и больше подходит для текстовых редакторов, где найденное заменят на что-то. Большинство современных библиотек для работы с регулярными выражениями предоставляют оба варианта.
+# Если регулярное выражение имеет вид <tex>c*</tex>, то вызывается функция <tex>\mathrm{mathchStar},\,</tex> которая пытается сопоставить повторение символа <tex>c</tex>, начиная с нуля повторений и увеличивая их количество, пока не найдет совпадение с оставшимся текстом. Если совпадение не будет найдено, то регулярное выражение не допускает текст. Текущая реализация ищет "кратчайшее совпадение", которое хорошо подходит для сопоставления с образцом, как в '''grep'''<ref>[http://ru.wikipedia.org/wiki/Grep Wikipedia {{---}} grep]</ref>, где нужно как можно быстрее найти совпадение. "Наидлиннейшее совпадение" более интуитивно и больше подходит для текстовых редакторов, где найденное заменят на что-то. Большинство современных библиотек для работы с регулярными выражениями предоставляют оба варианта.
-# Если регулярное выражение это <tex>\mathdollar</tex>, то оно допускает этот текст тогда и только тогда, когда текст закончился.
+# Если регулярное выражение это <tex>$</tex>, то оно допускает этот текст тогда и только тогда, когда текст закончился.
 # Если первый символ текста совпал с первым символом регулярного выражения, то нужно проверить совпадают ли следующий символ регулярного выражения со следующим символом текста, сделав рекурсивный вызов <tex>\mathrm{matchHere}</tex>.
 # Если все предыдущие попытки найти совпадения провалились, то никакая подстрока из текста не допускается регулярным выражением.
-Данный алгоритм прост и лаконичен, но у него есть недостаток. Для регулярного выражения содержащего несколько <tex>.*</tex> подряд этот алгоритм может работать очень медленно. Рассмотрим время работы '''grep'а''' (наш алгоритм схож со стандартным '''grep'ом'''). Например команда: "<tex>grep</tex> <tex>a.*a.*a.*a.a</tex>" потребует 20 секунд, чтобы обработать текстовой файл размером 4MB на обычной машине. В то же время алгоритм, который конвертирует [[Недетерминированные конечные автоматы|недетерминированный конечный автомат]] в [[Детерминированные конечные автоматы|детерминированный конечный автомат]] (например, [https://ru.wikipedia.org/wiki/Grep '''egrep''']), потребует менее одной десятой доли секунды на обработку тех же данных.
 ===Модификации===
 Немного изменим функцию <tex>\mathrm{matchStar}</tex> для поиск самого левого и самого длинного вхождения <tex>c*</tex>:
-# Найдем максимальную последовательность подряд идущих символов <tex>c</tex>. Назовем ее <tex>s</tex>.
+# Найдем максимальную последовательность подряд идущих символов <tex>c</tex>. Назовем ее <tex>S</tex>.
-# Сопоставим часть текста без <tex>s</tex> с остатком регулярного выражения.
+# Сопоставим часть текста без <tex>S</tex> с остатком регулярного выражения.
-# Если части совпали, то текст допускается этим регулярным выражением. Иначе, если <tex>s</tex> пусто, то текст не допускается этим регулярным выражением, иначе убираем один символ из <tex>s</tex> и повторяем шаг 2.
+# Если части совпали, то текст допускается этим регулярным выражением. Иначе, если <tex>S</tex> пусто, то текст не допускается этим регулярным выражением, иначе убираем один символ из <tex>S</tex> и повторяем шаг <tex>2</tex>.
 === Псевдокод ===
-  '''function''' matchStar(c : '''char''', regexp: '''char'''*, text: '''char'''*): '''boolean'''
+  '''function''' matchStar(c: '''char''', regexp: '''String''', text: '''String'''): '''boolean'''
-      '''char''' *t
+      '''int''' i
-      '''for''' (t = text; *t != '\0' '''and''' (*t == c '''or''' c == '.'); t++)
+      '''for''' (i = 0; text[i] != '\0' '''and''' (text[i] == c '''or''' c == '.'); i++)
-      '''do'''
+      '''while''' i <tex>\geqslant</tex> 0
-          '''if''' (matchHere(regexp, text))
+          '''if''' matchHere(regexp, text[i:])
               '''return''' ''true''
-     '''while''' (*text != '\0' '''and''' (*text++ == c '''or''' c == '.'))
+         i--
       '''return''' ''false''
-Увеличить количество символов из которых может состоять регулярное выражение можно, задавая регулярное выражение последовательностью структур, описывающих каждый ее элемент.
-=== Псевдокод ===
- '''struct''' Token
-     type: '''int'''  <font color=darkgreen>/ тип элемента: STAR, QUESTION, PLUS, SYMBOL, ...</font>
-     c: '''char'''    <font color=darkgreen>/ сам символ</font>
-     cs: '''char'''*  <font color=darkgreen>/ для случая [...]</font>
-     ncs: '''bool'''  <font color=darkgreen>/ для случая отрицания cs: [^...]</font>
 ==См. также==
 * [[Регулярные языки: два определения и их эквивалентность]]
+==Примечания==
+<references />
 == Источники информации ==
@@ Строка 93: / Строка 89: @@
 [[Категория: Теория формальных языков]]
 [[Категория: Автоматы и регулярные языки]]
+[[Категория: Регулярные языки и ДКА]]

Простой сопоставитель регулярных выражений — различия между версиями

Текущая версия на 19:11, 4 сентября 2022

Содержание

Алгоритм

Псевдокод

Модификации

Псевдокод

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты