Изменения

Преобразование Барроуза-Уилера

11 811 байт добавлено, 13:05, 31 октября 2018

м

Delete some wrong "$".

~~== Определение ==~~

'''Преобразование Барроуза {{---}} Уилера''' (англ. ''Burrows-Wheeler transform'') {{---}} алгоритм, используемый для предварительной обработки данных перед сжатием, разработанный для улучшения эффективности последующего кодирования. Преобразование Барроуза {{---}} Уилера меняет порядок символов во входной строке таким образом, что повторяющиеся подстроки образуют на выходе идущие подряд последовательности одинаковых символов.

== Описание алгоритма ==

Преобразование выполняется в три этапа. :* Cоставляется # Составляется таблица всех циклических сдвигов входной строки.* # Производится лексикографическая (в алфавитном порядке) ~~сортирова~~ сортировка строк таблицы.* # В качестве выходной строки ~~выбрается~~ выбирается последний столбец таблицы преобразования и номер строки, совпадающей с исходной.

== Пример работы алгоритма ==

Пусть нам дана исходная строка <tex>s = </tex>''"ABACABA"''.

{| ~~border~~class="1wikitable"

!colspan="4"|Трансформация

|-

! Вход || Все ~~Перестановки~~ циклические сдвиги || Сортировка ~~Строк~~ строк || Выход

|-

|

ABACABA|style="text-align:center;"|ABACABA BACABAA ACABAAB CABAABA ABAABAC BAABACA AABACAB |style="text-align:center;"|AABACAB ABAABAC ABACABA ACABAAB BAABACA BACABAA CABAABA

|

~~ABACABA~~ ~~BACABAA~~ ~~ACABAAB~~ ~~CABAABA~~ ~~ABAABAC~~ ~~BAABACA~~ ~~AABACAB~~| ~~AABACAB~~ ~~ABAABAC~~ ~~ABACABA~~ ~~ACABAAB~~ ~~BAABACA~~ ~~BACABAA~~ ~~CABAABA~~ | BCABAAA, 3

|}

Результат можно записать так: <tex>BWT(s)=(</tex>~~(''~~"BCABAAA"'', <tex>3)</tex>, где <tex>3 </tex> {{---}} ~~это~~ номер исходной строки в отсортированной матрице~~, так как он~~ . Он нужен для обратного преобразования.

Следует заметить, что иногда в исходной строке приводится, так называемый, символ конца строки ''<tex>\$''</tex>, который в преобразовании будет считаться последним (максимальным) символом, тогда сохранение номера исходной строки не требуется.

Пусть нам дана исходная строка <tex>s = </tex>''"ABACABA$"''.

{| ~~border~~class="1wikitable"

!colspan="4"|Трансформация

|-

! Вход || Все ~~Перестановки~~ циклические сдвиги || Сортировка ~~Строк~~ строк || Выход

|-

|

ABACABA$|style="text-align:center;"|ABACABA$ BACABA$A ACABA$AB CABA$ABA ABA$ABAC BA$ABACA A$ABACAB $ABACABA|style="text-align:center;"|ABACABA$ ABA$ABAC ACABA$AB A$ABACAB BACABA$A BA$ABACA CABA$ABA $ABACABA

|

~~ABACABA$~~ ~~BACABA$A~~ ~~ACABA$AB~~ ~~CABA$ABA~~ ~~ABA$ABAC~~ ~~BA$ABACA~~ ~~A$ABACAB~~ ~~$ABACABA~~ | ~~ABACABA$~~ ~~ABA$ABAC~~ ~~ACABA$AB~~ ~~A$ABACAB~~ ~~BACABA$A~~ ~~BA$ABACA~~ ~~CABA$ABA~~ ~~$ABACABA~~| $CBBAAAA

|}

При аналогичном вышеприведённом преобразовании та строчка в матрице, которая будет заканчиваться на символ конца строки , и будет исходной: (''"ABACABA$"''). Тогда результат можно записать так: <tex>BWT(s)=</tex>''"$CBBAAAA"''.

== Обратное преобразование ==

===Наивный алгоритм===

Пусть нам дано: <tex>BWT(s)=(</tex>~~(''~~"BCABAAA"'', <tex>3)</tex>. Тогда выпишем в столбик нашу преобразованную последовательность символов ''"BCABAAA"''. Запишем её как последний столбик предыдущей матрицы (при прямом преобразовании Барроуза {{---}} Уилера), при этом все предыдущие столбцы оставляем пустыми. Далее построчно [[Сортировки | отсортируем ]] матрицу, затем в предыдущий столбец запишем ''"BCABAAA"''. Опять построчно отсортируем матрицу. Продолжая таким образом, можно восстановить полный список всех циклических ~~перестановок~~ сдвигов строки, которую нам надо найти. Выстроив полный отсортированный список ~~перестановок~~сдвигов, выберем строку с номером, который нам был изначально дан. В итоге мы получим искомую строку.

Алгоритм обратного преобразования описан в таблице ниже:

{| ~~border~~class="1wikitable"

!colspan="8"| Обратное преобразование

|-

|align="center" colspan="8"|

BCABAAA

|-

! Добавление 1 || Сортировка 1 || Добавление 2 || Сортировка 2 || Добавление 3 || Сортировка 3 || Добавление 4

|-

|align="center" colspan="8"|

ABACABA

|}

Следует также заметить, что если нам было бы дано <tex>BWT(s)=</tex>''"$CBBAAAA"'', то мы также получили бы нашу исходную строку, только с символом конца строки <tex>\$</tex> на конце: ABACABA$. Временная сложность данного алгоритма <tex>O(N^3\log{N}) </tex>, пространственная <tex>O(N^2)</tex>. ====Доказательство корректности==== Пусть дана строка <tex>s</tex>, к которой было применено преобразование BWT. Докажем, что при использовании наивного алгоритма на каждом шаге получающийся набор строк соответствует суффиксам циклических сдвигов исходной строки, методом математической индукции.* ''$'База'''. Циклически сдвинем все строки исходной таблицы на <tex>1</tex> влево. Тогда в столбце <tex>n</tex> будут находиться символы, добавленные на первом шаге алгоритма, а в столбце <tex>n - 1</tex> символы, изначально стоявшие в таблице до первого шага алгоритма. Таким образом, полученные на первом шаге алгоритма строки являются суффиксами циклических сдвигов строки <tex>s</tex>.* '''Предположение''' . Пусть на ~~конце:~~ <tex>k</tex> шаге алгоритма все полученные строки являются суффиксами циклических сдвигов строки <tex>s</tex>.* '''Переход'~~ABACABA$~~''.Рассмотрим <tex>k+1</tex>-ый шаг алгоритма. Все строки отсортированы, поэтому самый левый столбец совпадет с <tex>1</tex> столбцом исходной таблицы. Циклически сдвинем все строки исходной таблицы на <tex>n - k</tex> символов вправо. Теперь по предположению первые <tex>k</tex> символов справа в каждой строке совпадают у исходной таблицы и у таблицы, полученной в результате работы алгоритма. <tex>k</tex>-ые справа столбцы также совпадают. Добавленный на <tex>k+1</tex>-ом шаге столбец также совпадает с <tex>k+1</tex>-ым справа столбцом сдвинутой исходной таблицы, так как совпадает с последним столбцом исходной таблицы, которая была сдвинута на <tex>n-k</tex>. {| class="wikitable"!colspan="3" | <tex>k+1</tex> шаг алгоритма при <tex>k=3</tex>|-! Исходная таблица || Сдвинутая таблица || Результат работы алгоритма|-|style="text-align:center;"|AABACAB ABAABAC ABACABA ACABAAB BAABACA BACABAA CABAABA|style="text-align:center;"|CABAABA BACABAA ABAABAC AABACAB ACABAAB BAABACA ABACABA|style="text-align:right;"|BAABA CABAA AABAC BACAB ABAAB ABACA ACABA |-|}

~~Как несложно посчитать сложность данного~~ Таким образом, поскольку на каждом шаге алгоритма получившиеся строки являлись суффиксами циклических сдвигов <tex>~~O(N^3logN)~~ s </tex>, ~~также он требует~~ после последнего шага получившиеся строки будут совпадать с циклическими сдвигами <tex>~~O(N^2)~~s </tex> ~~памяти~~.

===~~Оптимизация~~Оптимизированный наивный алгоритм===

~~Однако, данный~~ Наивный алгоритм можно оптимизировать. Заметим, что при каждом проявлении неизвестного столбца выполнялись одни и те же действия. ~~Мы приписывали~~ К предыдущему приписывался новый столбец и ~~сортировали~~ имеющиеся данныесортировались. На каждом ~~шагу мы~~ шаге к строке, которая находилась на <tex> i </tex>-ом месте ~~приписываем~~ , приписывался в начало <tex> i </tex> -ый элемент столбца входных данных. Пусть изначально ~~мы знаем~~ известно, каким по порядку является приписанный ~~нами~~ в начало символ (то есть каким по порядку в столбце). ~~И конечно же мы знаем исходя из~~ Из предыдущего шага известно, какое место занимала ~~наша~~ строка без этого первого символа (<tex> i </tex> -ое). Тогда несложно заметить, что при выполнении такой операции строка с номером <tex> i </tex> всегда будет перемещаться на позицию с номером <tex> j </tex>.

{| ~~border~~class="1wikitable"

|0||а||     ||р||9

|-

|}

Здесь слева ~~это~~ отсортированный данный столбец, чтобы мы знали , какое место в лексикографическом порядке занимает приписываемый нами символ среди всех элементов данного нам изначально столбца. Справа - изначально данный столбец и соответствующее ему число. Поскольку мы в нашем алгоритме новый столбец ~~приписываем~~ приписывается в начало, то мы из состояния <tex> i </tex> (левый столбец) переходим в состояние <tex> j </tex> (правый). Для того, чтобы восстановить строку, нам необходимо от последней такой цифры по пути из <tex> j </tex> в <tex> i </tex> восстановить строку.

{|

|

{| ~~border~~class="1wikitable"

|6

|→

|а

|}

====Сложность оптимизированного алгоритма====Данный алгоритм работает за <tex>O(~~NlogN~~N\log{N})</tex> ~~действий~~ времени и требует <tex>O(N)</tex> памяти. Однако, если размер алфавита не очень большой, то для выяснения первого столбца матрицы можно использовать сортировку подсчетом, в этом случае алгоритм работает за <tex>O(N+M)</tex> действий и требует <tex>O(N+M)</tex> памяти, где <tex>M</tex> — размер алфавита. ====Псевдокод оптимизированного алгоритма====Пусть <tex> N </tex> — количество символов во входной строке, <tex> M </tex> — количество символов в алфавите, <tex> k </tex> — номер исходной строки в матрице сдвигов, <tex> s </tex> — входящая строка, <tex> count </tex> — массив для сортировки подсчетом, <tex> t </tex> — вектор обратного преобразования, <tex> x </tex> — номер данной нам строки в таблице.

~~===Псевдокод оптимизированного алгоритма===~~ '''function''' reverseBWT(N : Int, M : Int, k : Int, s : String): Int[]~~Пусть~~ <~~tex~~font color="green"> ~~N <~~/~~tex> — количество~~ / Cчитаем частоты символов ~~во входной строке,~~ <~~tex~~/font> '''for''' i = 0 .. M count[i] = 0 '''for''' i = 0 .. N count[s[i]]++ /~~tex> — количество символов в алфавите~~/ Упорядочиваем символы, ~~<tex> k~~ чтобы получить первый столбец исходной матрицы</~~tex~~font> ~~— номер исходной строки в матрице перестановок,~~ <~~tex~~font color="green"> ~~s <~~/~~tex> — входящая строка, <tex>~~ / count [i] указывает на первую позицию символа i в первом столбце</~~tex~~font> ~~— массив для сортировки подсчетом,~~ sum = 0 '''for''' i = 0 .. M sum = sum + count[i] count[i] = sum - count[i] <~~tex~~font color="green"> ~~t <~~/~~tex> —~~ / Cоздаем вектор обратного преобразования, <~~tex~~/font> '''for''' i = 0 .. N t[count[s[i]]] = i count[s[i]]++ x // И восстанавливаем исходный текст</~~tex~~font> ~~— номер данной нам строки в таблице~~ j = t[x] '''for''' i = 0 ..N answer[i] = s[j] j = t[j] '''return''' answer

~~// Cчитаем частоты символов~~ ~~for i~~ = ~~0 .. M~~ ~~count[i]~~ = 0 ~~for i~~ = ~~0 .. N~~ ~~count[s[i]]++~~ ~~// Упорядочиваем символы, чтобы получить первый столбец исходной матрицы~~ ~~// count[i] указывает на первую позицию символа i в первом столбце~~ ~~sum~~ = 0 ~~for i~~ Доказательство корректности= ~~0 .. M~~ ~~sum~~ = ~~sum + count[i]~~ ~~count[i]~~ = ~~sum - count[i]~~ ~~// Cоздаем вектор обратного преобразования~~ ~~for i~~ = ~~0 .. N~~ ~~t[count[s[i]]] = i~~ ~~count[s[i]]++~~ ~~// И восстанавливаем исходный текст~~ ~~j = t[x]~~ ~~for i = 0 .. N~~ ~~print(s[j])~~ ~~j = t[j]~~

~~===Доказательство корректности===~~

Пусть текст <tex>T</tex> состоит из <tex>N + 1</tex> символов, занумерованных с нуля: <tex>T[0..N]</tex>. Буквы <tex>T[i]</tex> принадлежат некоторому алфавиту <tex>A</tex>. Лексикографический порядок (строгий) на строках из алфавита <tex>A</tex> будем обозначать <tex>\preceq (\prec)</tex>. Обозначим через <tex>S_{k}T</tex> циклический сдвиг текста <tex>T</tex> на <tex>k</tex> символов влево:

:{|

|}

Существует перестановка <tex>p</tex> чисел <tex>\{0, ..., N\}</tex>, которая удовлетворяет условию:

:{|

<tex> S_{p(i)}T \preceq S_{p(i + 1)}T,\ i = 0, ..., N - 1\ \ \textbf{(1)}</tex>

|}

Преобразование Барроуза-Уилера текста <tex>T</tex> есть текст <tex>B[0 .. N] = BW(T)</tex>, буквы которого заданы соотношением:

:{|

<tex>B[i] = S_{p(i)}T[N]~~, (~~</tex>~~или~~ , другими словами <tex>B[i] = S_{p(i) - 1}T[0] = T[(p(i) - 1) (~~mod~~\bmod\ N + 1)]) \ \ \textbf{(2)}</tex>

|}

Пусть <tex>\sigma</tex> {{---}} перестановка чисел <tex>\{0, ..., N\}</tex>, удовлетворяющая условию:

:{|

<tex>B_{\sigma(i)} \preceq B_{\sigma(i + 1)}</tex>, при <tex>i = 0, ..., N - 1\ \ \textbf{(3)}</tex>,

|}

и в случае равенства <tex>B_{\sigma(i)}</tex> и <tex>B_{\sigma(i + 1)}</tex> выполнено {{---}} <tex>\sigma(i) < \sigma(i + 1)</tex>. Перестановка однозначно определяется текстом <tex>B</tex> и ее можно посчитать за <tex>O(N)</tex>, используя сортировку подсчетом. Рассмотрим перестановку <tex>\sigma</tex> как отображение <tex>\sigma : \{0, ..., N\} \to \{0, ..., N\}</tex>. Пусть <tex>\sigma^{k}</tex> копмозиция <tex>k</tex> отображений <tex>\sigma^{k} = \sigma^{k - 1} \circ \sigma</tex>, где <tex>\sigma^{1} = \sigma, \sigma^{0} \equiv i</tex>.

|statement=

:''При всех <tex>m = 1, ..., N + 1</tex> верны утверждения,:<tex>B_{\sigma(i)}...B_{\sigma^{m}(i)} \preceq B_{\sigma(i + 1)}...B_{\sigma^{m}(i + 1)}</tex>, при <tex>i = 0, ..., N - 1\ \ \textbf{(4)}</tex>'':<tex>B_iB_{\sigma(i)}...B_{\sigma^{m - 1}(i)} = S_{p(i) - 1}T[0..m - 1]</tex>, при <tex>i = 0, ..., N\ \ \textbf{(5)}</tex>~~:''~~''

|proof=

Если лексикографически отсортировать буквы последнего столбца и поместить их в первый столбец, то получится таблица

| class="wikitable" style="text-align:center"

|-

!Таблица

|-

|a||b||c

|-

|a||b||c

|

}}

== ~~Дополнительно~~ =Алгоритм за линейное время=== Будем обозначать <tex>s^i</tex> <tex>i</tex>-ую циклический сдвиг <tex>s</tex>. Пусть <tex>s^0 = s_0 s_1 \ldots s_{n-1}</tex>, <tex>BWT(s) \;= L</tex> и <tex>L = L_0L_1\ldots L_{n-1}</tex>, <tex>I</tex> -- номер строки <tex>s^0</tex> в таблице. Предподсчитаем следующие величины:* Для каждого <tex>L_i</tex> количество символов на подстроке <tex>l_0, \ldots , l_{i-1}</tex>, равных <tex>L_i</tex>* Для каждого уникального <tex>L_i</tex> количество символов в <tex>L</tex>, лексикографически меньших, чем <tex>L_i</tex> Пример для <tex>BWT(s) =</tex> "BCABAAA": {| class="wikitable" !colspan="3" | Таблица первого предподсчёта|-! Позиция || Символ || Результат|-align="center"! 0 || B || 0|-! 1 || C || 0|-! 2 || A || 0|-! 3 || B || 1|-! 4 || A || 1|-! 5 || A || 2|-! 6 || A || 3|} {| class="wikitable"!colspan="2" | Таблица второго предподсчёта|-! Символ || Количество меньших|-align="center"! A || 0|-! B || 4|-! C || 6|} Для удобства пронумеруем известные нам данные:# <tex>L</tex>, последний столбец таблицы сдвигов# <tex>I</tex>, номер строки <tex>s</tex> в таблице сдвигов# Частота, с которой символ <tex>L_{i}</tex> встречается в подстроке <tex>l_0, \ldots , l_{i-1}</tex># Для каждого уникального символа количество лексикографически меньших символов в <tex>L</tex> Символ <tex>s_{n-1}</tex> находится в строке <tex>L</tex> под номером <tex>I</tex>, так как в таблице строка <tex>s^0</tex> имела номер <tex>I</tex>. Найдём символ <tex>s_{n-2}</tex>. Символ <tex>s_{n-2}</tex> имеет в строке <tex>L</tex> тот же номер, что строка <tex>s^{n-1}</tex> имела в таблице сдвигов: строка <tex>s^{n-1}</tex> начинается с символа <tex>s_{n-1}</tex>, <tex>s_{n-2}</tex> находится на 1 левее его и из-за циклического сдвига оказывается в последнем столбце. Нам известен символ <tex>s_{n-1}</tex>. Посчитаем, на каком месте в таблице будет стоять строка, начинающаяся с этого символа. Из 4 известно количество символов, меньших <tex>s_{n-1}</tex>. Все строки, начинающиеся с этих символов, стоят в таблице раньше <tex>s^{n-1}</tex>. Кроме того, в таблице есть строки, начинающиеся с того же символа, что и <tex>s^{n-1}</tex>. Из 3 известно, сколько их: если символ, равный <tex>s_{n-1}</tex>, встречался в <tex>L</tex> раньше, чем <tex>s_{n-1}</tex>, то в таблице строка, начинающаяся с этого символа, тоже стоит раньше строки, начинающейся с <tex>s_{n-1}</tex>, так как префикс строки, оканчивающейся на этот символ, меньше префикса строки, оканчивающейся на <tex>s_{n-1}</tex>. Тогда сумма этих двух величин является номером символа <tex>s_{n-2}</tex> в строке <tex>L</tex>. Зная <tex>s_{n-1}</tex> и <tex>s_{n-2}</tex>, аналогично найдём <tex>s_{n-3}\ldots s_0</tex>. Предподсчёт занимает <tex>O(n)</tex> времени, восстановление каждого из <tex>n</tex> символов занимает <tex>O(1)</tex> времени. Суммарное время работы алгоритма <tex>O(n)</tex>. Пример работы для <tex>BWT(s) = (</tex>"BCABAAA", 2<tex>)</tex> (нумерация с 0):* <tex>s^0 = .......</tex>* <tex>s_6=L_2 = A</tex>. Тогда <tex>s^0=......</tex>A* Суммируем значения из двух таблиц: <tex>0+0=0</tex>, <tex>s_5=L_0=B</tex>, <tex>s^0=.....</tex>BA* Суммируем: <tex>0+4=4</tex>, <tex>s_4=L_4=A</tex>, <tex>s^0=....</tex>ABA* Суммируем: <tex>1+0=1</tex>, <tex>s_3=L_1=C</tex>, <tex>s^0=...</tex>CABA* Суммируем: <tex>0+6=6</tex>, <tex>s_2=L_6=A</tex>, <tex>s^0=..</tex>ACABA* Суммируем: <tex>3+0=3</tex>, <tex>s_2=L_3=B</tex>, <tex>s^0=.</tex>BACABA* Суммируем: <tex>1+4=5</tex>, <tex>s_2=L_5=A</tex>, <tex>s^0=</tex> ABACABA == Замечания == * bzip2<ref>[https://ru.wikipedia.org/wiki/Bzip2 bzip2]</ref> использует преобразование Барроуза {{---}} Уилера для превращения последовательностей многократно чередующихся символов в строки одинаковых символов, затем применяет преобразование [[Преобразование_MTF | MTF]], и в конце кодирование Хаффмана. == См. также ==* [[Алгоритм_Хаффмана | Алгоритм Хаффмана]]* [[Алгоритмы_LZ77_и_LZ78 | Алгоритмы LZ77 и LZ78]]* [[Арифметическое_кодирование | Арифметическое кодирование]]

* bzip2 использует преобразование Барроуза {{---}} Уилера для превращения последовательностей многократно чередующихся символов в строки одинаковых символов, затем применяет преобразование MTF (англ. move-to-front), и в конце кодирование Хаффмана.== Примечания ==<references/>

== ~~Ссылки~~ Источники информации ==*[http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B5%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%91%D0%B0%D1%80%D1%80%D0%BE%D1%83%D0%B7%D0%B0_%E2%80%94_%D0%A3%D0%B8%D0%BB%D0%B5%D1%80%D0%B0 Википедия: Преобразование Барроуза {{---}} Уилера ~~(Википедия)~~]

*[http://www.cs.karelia.ru/~aborod/inf/2010/schedule.php.ru cs.karelia.ru: Преобразование Барроуза {{---}} Уилера ~~(cs.karelia.ru)~~]

[[Категория: Дискретная математика и алгоритмы]]

[[Категория: Алгоритмы сжатия ]]

Dmitriy

66

правок

Изменения

Преобразование Барроуза-Уилера

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты