Преобразование Барроуза-Уилера — различия между версиями
Evarand (обсуждение | вклад) м (Косметические исправления) |
Evarand (обсуждение | вклад) м (Таблицы) |
||
Строка 14: | Строка 14: | ||
Пусть нам дана исходная строка <tex>$s =$</tex> "ABACABA". | Пусть нам дана исходная строка <tex>$s =$</tex> "ABACABA". | ||
− | {| | + | {| class="wikitable" |
!colspan="4"|Трансформация | !colspan="4"|Трансформация | ||
|- | |- | ||
− | ! Вход || Все<br /> | + | ! Вход || Все<br />перестановки || Сортировка<br />строк || Выход |
|- | |- | ||
| | | | ||
− | + | <font color="red">ABACABA</font> | |
− | | | + | |style="text-align:center;"| |
− | + | <font color="red">ABACABA</font> <br/> | |
− | + | BACABAA<br/> | |
− | + | ACABAAB<br/> | |
− | + | CABAABA<br/> | |
− | + | ABAABAC<br/> | |
− | + | BAABACA<br/> | |
− | + | AABACAB<br/> | |
+ | |style="text-align:center;"| | ||
+ | AABACAB<br/> | ||
+ | ABAABAC<br/> | ||
+ | <font color="red">ABACABA</font><br/> | ||
+ | ACABAAB<br/> | ||
+ | BAABACA<br/> | ||
+ | BACABAA<br/> | ||
+ | CABAABA <br/> | ||
| | | | ||
− | + | BCABAAA, 3 | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
|} | |} | ||
Строка 49: | Строка 49: | ||
Пусть нам дана исходная строка <tex>$s =$</tex> "ABACABA$". | Пусть нам дана исходная строка <tex>$s =$</tex> "ABACABA$". | ||
− | {| | + | {| class="wikitable" |
!colspan="4"|Трансформация | !colspan="4"|Трансформация | ||
|- | |- | ||
Строка 55: | Строка 55: | ||
|- | |- | ||
| | | | ||
− | + | <font color="red">ABACABA$</font> | |
+ | |style="text-align:center;"| | ||
+ | <font color="red">ABACABA$</font><br/> | ||
+ | BACABA$A<br/> | ||
+ | ACABA$AB<br/> | ||
+ | CABA$ABA<br/> | ||
+ | ABA$ABAC<br/> | ||
+ | BA$ABACA<br/> | ||
+ | A$ABACAB<br/> | ||
+ | $ABACABA | ||
+ | |style="text-align:center;"| | ||
+ | <font color="red">ABACABA$</font><br/> | ||
+ | ABA$ABAC<br/> | ||
+ | ACABA$AB<br/> | ||
+ | A$ABACAB<br/> | ||
+ | BACABA$A<br/> | ||
+ | BA$ABACA<br/> | ||
+ | CABA$ABA <br/> | ||
+ | $ABACABA | ||
| | | | ||
− | + | $CBBAAAA | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
|} | |} | ||
Строка 90: | Строка 89: | ||
Алгоритм обратного преобразования описан в таблице ниже: | Алгоритм обратного преобразования описан в таблице ниже: | ||
− | {| | + | {| class="wikitable" |
!colspan="8"| Обратное преобразование | !colspan="8"| Обратное преобразование | ||
|- | |- | ||
Строка 96: | Строка 95: | ||
|- | |- | ||
|align="center" colspan="8"| | |align="center" colspan="8"| | ||
− | + | BCABAAA | |
|- | |- | ||
! Добавление 1 || Сортировка 1 || Добавление 2 || Сортировка 2 || Добавление 3 || Сортировка 3 || Добавление 4 | ! Добавление 1 || Сортировка 1 || Добавление 2 || Сортировка 2 || Добавление 3 || Сортировка 3 || Добавление 4 | ||
Строка 221: | Строка 220: | ||
|- | |- | ||
|align="center" colspan="8"| | |align="center" colspan="8"| | ||
− | + | <font color="red">ABACABA</font> | |
|} | |} | ||
Строка 235: | Строка 234: | ||
* Переход. Рассмотрим <tex>k+1</tex>-ый шаг алгоритма. Все строки отсортированы, поэтому самый левый столбец совпадет с <tex>1</tex> столбцом исходной таблицы. Циклически сдвинем все строки исходной таблицы на <tex>n - k</tex> символов вправо. Теперь по предположению первые <tex>k</tex> символов справа в каждой строке совпадают у исходной таблицы и у таблицы, полученной в результате работы алгоритма. <tex>k</tex>-ые справа столбцы также совпадают. Добавленный на <tex>k+1</tex>-ом шаге столбец также совпадает с <tex>k+1</tex>-ым справа столбцом сдвинутой исходной таблицы, так как совпадает с последним столбцом исходной таблицы, которая была сдвинута на <tex>n-k</tex>. | * Переход. Рассмотрим <tex>k+1</tex>-ый шаг алгоритма. Все строки отсортированы, поэтому самый левый столбец совпадет с <tex>1</tex> столбцом исходной таблицы. Циклически сдвинем все строки исходной таблицы на <tex>n - k</tex> символов вправо. Теперь по предположению первые <tex>k</tex> символов справа в каждой строке совпадают у исходной таблицы и у таблицы, полученной в результате работы алгоритма. <tex>k</tex>-ые справа столбцы также совпадают. Добавленный на <tex>k+1</tex>-ом шаге столбец также совпадает с <tex>k+1</tex>-ым справа столбцом сдвинутой исходной таблицы, так как совпадает с последним столбцом исходной таблицы, которая была сдвинута на <tex>n-k</tex>. | ||
− | {| | + | {| class="wikitable" |
!colspan="3" | <tex>$k+1$</tex> шаг алгоритма при <tex>$k=3$</tex> | !colspan="3" | <tex>$k+1$</tex> шаг алгоритма при <tex>$k=3$</tex> | ||
|- | |- | ||
! Исходная <br /> таблица || Сдвинутая <br /> таблица || Результат <br /> работы <br /> алгоритма | ! Исходная <br /> таблица || Сдвинутая <br /> таблица || Результат <br /> работы <br /> алгоритма | ||
− | |- | + | |- |
− | | | + | |style="text-align:center;"| |
− | + | <font color="red">A</font><font color="green">ABA</font>CA<font color="blue">B</font><br/> | |
− | + | <font color="red">A</font><font color="green">BAA</font>BA<font color="blue">C</font><br/> | |
− | + | <font color="red">A</font><font color="green">BAC</font>AB<font color="blue">A</font><br/> | |
− | + | <font color="red">A</font><font color="green">CAB</font>AA<font color="blue">B</font><br/> | |
− | + | <font color="red">B</font><font color="green">AAB</font>AC<font color="blue">A</font><br/> | |
− | + | <font color="red">B</font><font color="green">ACA</font>BA<font color="blue">A</font><br/> | |
− | + | <font color="red">C</font><font color="green">ABA</font>AB<font color="blue">A</font> | |
− | | | + | |style="text-align:center;"| |
− | + | CA<font color="blue">B</font><font color="red">A</font><font color="green">ABA</font><br/> | |
− | + | BA<font color="blue">C</font><font color="red">A</font><font color="green">BAA</font><br/> | |
− | + | AB<font color="blue">A</font><font color="red">A</font><font color="green">BAC</font><br/> | |
− | + | AA<font color="blue">B</font><font color="red">A</font><font color="green">CAB</font><br/> | |
− | + | AC<font color="blue">A</font><font color="red">B</font><font color="green">AAB</font><br/> | |
− | + | BA<font color="blue">A</font><font color="red">B</font><font color="green">ACA</font><br/> | |
− | + | AB<font color="blue">A</font><font color="red">C</font><font color="green">ABA</font> | |
− | | | + | |style="text-align:right;"| |
− | + | <font color="blue">B</font><font color="red">A</font><font color="green">ABA</font> <br/> | |
− | + | <font color="blue">C</font><font color="red">A</font><font color="green">BAA</font> <br/> | |
− | + | <font color="blue">A</font><font color="red">A</font><font color="green">BAC</font> <br/> | |
− | + | <font color="blue">B</font><font color="red">A</font><font color="green">CAB</font> <br/> | |
− | + | <font color="blue">A</font><font color="red">B</font><font color="green">AAB</font> <br/> | |
− | + | <font color="blue">A</font><font color="red">B</font><font color="green">ACA</font> <br/> | |
− | + | <font color="blue">A</font><font color="red">C</font><font color="green">ABA</font> <br/> | |
|- | |- | ||
|} | |} | ||
Строка 273: | Строка 272: | ||
Наивный алгоритм можно оптимизировать. Заметим, что при каждом проявлении неизвестного столбца выполнялись одни и те же действия. Мы приписывали новый столбец и сортировали имеющиеся данные. На каждом шагу мы к строке, которая находилась на <tex> i </tex>-ом месте приписываем в начало <tex> i </tex> -ый элемент столбца входных данных. Пусть изначально мы знаем каким по порядку является приписанный нами в начало символ (то есть каким по порядку в столбце). И конечно же мы знаем исходя из предыдущего шага какое место занимала наша строка без этого первого символа (<tex> i </tex> -ое). Тогда несложно заметить, что при выполнении такой операции строка с номером <tex> i </tex> всегда будет перемещаться на позицию с номером <tex> j </tex>. | Наивный алгоритм можно оптимизировать. Заметим, что при каждом проявлении неизвестного столбца выполнялись одни и те же действия. Мы приписывали новый столбец и сортировали имеющиеся данные. На каждом шагу мы к строке, которая находилась на <tex> i </tex>-ом месте приписываем в начало <tex> i </tex> -ый элемент столбца входных данных. Пусть изначально мы знаем каким по порядку является приписанный нами в начало символ (то есть каким по порядку в столбце). И конечно же мы знаем исходя из предыдущего шага какое место занимала наша строка без этого первого символа (<tex> i </tex> -ое). Тогда несложно заметить, что при выполнении такой операции строка с номером <tex> i </tex> всегда будет перемещаться на позицию с номером <tex> j </tex>. | ||
− | {| | + | {| class="wikitable" |
|0||а|| ||р||9 | |0||а|| ||р||9 | ||
|- | |- | ||
Строка 300: | Строка 299: | ||
{| | {| | ||
| | | | ||
− | {| | + | {| class="wikitable" |
|6 | |6 | ||
|→ | |→ | ||
Строка 434: | Строка 433: | ||
Пример для <tex>$BWT(s) =$</tex> "BCABAAA": | Пример для <tex>$BWT(s) =$</tex> "BCABAAA": | ||
− | {| | + | {| class="wikitable" |
!colspan="3" | Таблица первого предподсчёта | !colspan="3" | Таблица первого предподсчёта | ||
|- | |- | ||
Строка 454: | Строка 453: | ||
|} | |} | ||
− | + | {| class="wikitable" | |
− | {| | ||
!colspan="2" | Таблица второго предподсчёта | !colspan="2" | Таблица второго предподсчёта | ||
|- | |- |
Версия 22:37, 6 декабря 2015
Содержание
Определение
Преобразование Барроуза — Уилера (англ. Burrows-Wheeler transform) — алгоритм, используемый для предварительной обработки данных перед сжатием, разработанный для улучшения эффективности последующего кодирования. Преобразование Барроуза — Уилера меняет порядок символов во входной строке таким образом, что повторяющиеся подстроки образуют на выходе идущие подряд последовательности одинаковых символов.
Описание алгоритма
Преобразование выполняется в три этапа.
- Составляется таблица всех циклических сдвигов входной строки.
- Производится лексикографическая (в алфавитном порядке) сортировка строк таблицы.
- В качестве выходной строки выбирается последний столбец таблицы преобразования и номер строки, совпадающей с исходной.
Пример работы алгоритма
Пусть нам дана исходная строка
"ABACABA".Трансформация | |||
---|---|---|---|
Вход | Все перестановки |
Сортировка строк |
Выход |
ABACABA |
ABACABA |
AABACAB |
BCABAAA, 3 |
Результат можно записать так:
"BCABAAA", , где — номер исходной строки в отсортированной матрице. Он нужен для обратного преобразования.
Следует заметить, что иногда в исходной строке приводится так называемый символ конца строки , который в преобразовании будет считаться последним (максимальным) символом, тогда сохранение номера исходной строки не требуется.
Пусть нам дана исходная строка "ABACABA$".
Трансформация | |||
---|---|---|---|
Вход | Все Перестановки |
Сортировка Строк |
Выход |
ABACABA$ |
ABACABA$ |
ABACABA$ |
$CBBAAAA |
При аналогичном вышеприведённом преобразовании та строчка в матрице, которая будет заканчиваться на символ конца строки, и будет исходной: ("ABACABA$"). Тогда результат можно записать так:
"$CBBAAAA".Обратное преобразование
Наивный алгоритм
Пусть нам дано:
"BCABAAA", . Тогда выпишем в столбик нашу преобразованную последовательность символов "BCABAAA". Запишем её как последний столбик предыдущей матрицы (при прямом преобразовании Барроуза — Уилера), при этом все предыдущие столбцы оставляем пустыми. Далее построчно отсортируем матрицу, затем в предыдущий столбец запишем "BCABAAA". Опять построчно отсортируем матрицу. Продолжая таким образом, можно восстановить полный список всех циклических перестановок строки, которую нам надо найти. Выстроив полный отсортированный список перестановок, выберем строку с номером, который нам был изначально дан. В итоге мы получим искомую строку. Алгоритм обратного преобразования описан в таблице ниже:Обратное преобразование | |||||||
---|---|---|---|---|---|---|---|
Вход | |||||||
BCABAAA | |||||||
Добавление 1 | Сортировка 1 | Добавление 2 | Сортировка 2 | Добавление 3 | Сортировка 3 | Добавление 4 | |
B C A B A A A |
A A A A B B C |
BA CA AA BA AB AB AC |
AA AB AB AC BA BA CA |
BAA CAB AAB BAC ABA ABA ACA |
AAB ABA ABA ACA BAA BAC CAB |
BAAB CABA AABA BACA ABAA ABAC ACAB | |
Сортировка 4 | Добавление 5 | Сортировка 5 | Добавление 6 | Сортировка 6 | Добавление 7 | Сортировка 7 | |
AABA ABAA ABAC ACAB BAAB BACA CABA |
BAABA CABAA AABAC BACAB ABAAB ABACA ACABA |
AABAC ABAAB ABACA ACABA BAABA BACAB CABAA |
BAABAC CABAAB AABACA BACABA ABAABA ABACAB ACABAA |
AABACA ABAABA ABACAB ACABAA BAABAC BACABA CABAAB |
BAABACA CABAABA AABACAB BACABAA ABAABAC ABACABA ACABAAB |
AABACAB ABAABAC ABACABA ACABAAB BAABACA BACABAA CABAABA | |
Результат | |||||||
ABACABA |
Следует также заметить, что если нам было бы дано
"$CBBAAAA", то мы также получили бы нашу исходную строку, только с символом конца строки на конце: ABACABA$.Временная сложность данного алгоритма
, пространственная .Доказательство корректности
Пусть дана строка
, к которой было применено преобразование BWT. Докажем, что при использовании наивного алгоритма на каждом шаге получающийся набор строк соответствует суффиксам циклических перестановок исходной строки, методом математической индукции.- База. Циклически сдвинем все строки исходной таблицы на влево. Тогда в столбце будут находиться символы, добавленные на первом шаге алгоритма, а в столбце символы, изначально стоявшие в таблице до первого шага алгоритма. Таким образом, полученные на первом шаге алгоритма строки являются суффиксами циклических перестановок строки .
- Предположение. Пусть на шаге алгоритма все полученные строки являются суффиксами циклических перестановок строки .
- Переход. Рассмотрим -ый шаг алгоритма. Все строки отсортированы, поэтому самый левый столбец совпадет с столбцом исходной таблицы. Циклически сдвинем все строки исходной таблицы на символов вправо. Теперь по предположению первые символов справа в каждой строке совпадают у исходной таблицы и у таблицы, полученной в результате работы алгоритма. -ые справа столбцы также совпадают. Добавленный на -ом шаге столбец также совпадает с -ым справа столбцом сдвинутой исходной таблицы, так как совпадает с последним столбцом исходной таблицы, которая была сдвинута на .
шаг алгоритма при | ||
---|---|---|
Исходная таблица |
Сдвинутая таблица |
Результат работы алгоритма |
AABACAB |
CABAABA |
BAABA |
Таким образом, поскольку на каждом шаге алгоритма получившиеся строки являлись суффиксами циклических перестановок
, после последнего шага получившиеся строки будут совпадать с циклическими перестановками .Оптимизированный наивный алгоритм
Наивный алгоритм можно оптимизировать. Заметим, что при каждом проявлении неизвестного столбца выполнялись одни и те же действия. Мы приписывали новый столбец и сортировали имеющиеся данные. На каждом шагу мы к строке, которая находилась на
-ом месте приписываем в начало -ый элемент столбца входных данных. Пусть изначально мы знаем каким по порядку является приписанный нами в начало символ (то есть каким по порядку в столбце). И конечно же мы знаем исходя из предыдущего шага какое место занимала наша строка без этого первого символа ( -ое). Тогда несложно заметить, что при выполнении такой операции строка с номером всегда будет перемещаться на позицию с номером .0 | а | р | 9 | |
1 | а | д | 7 | |
2 | а | a | 0 | |
3 | а | к | 8 | |
4 | а | р | 10 | |
5 | б | a | 1 | |
6 | б | a | 2 | |
7 | д | a | 3 | |
8 | к | a | 4 | |
9 | р | б | 5 | |
10 | р | б | 6 |
Здесь слева отсортированный данный столбец, чтобы мы знали, какое место в лексикографическом порядке занимает приписываемый нами символ среди всех элементов данного нам изначально столбца. Справа - изначально данный столбец и соответствующее ему число. Поскольку в нашем алгоритме новый столбец приписывается в начало, то мы из состояния
(левый столбец) переходим в состояние (правый). Для того, чтобы восстановить строку, нам необходимо от последней такой цифры по пути из в восстановить строку.
Сложность оптимизированного алгоритмаДанный алгоритм работает за времени и требует памяти. Однако, если размер алфавита не очень большой, то для выяснения первого столбца матрицы можно использовать сортировку подсчетом, в этом случае алгоритм работает за действий и требует памяти, где — размер алфавита.Псевдокод оптимизированного алгоритмаПусть — количество символов во входной строке, — количество символов в алфавите, — номер исходной строки в матрице перестановок, — входящая строка, — массив для сортировки подсчетом, — вектор обратного преобразования, — номер данной нам строки в таблице.// Cчитаем частоты символов for i = 0 .. M count[i] = 0 for i = 0 .. N count[s[i]]++ // Упорядочиваем символы, чтобы получить первый столбец исходной матрицы // count[i] указывает на первую позицию символа i в первом столбце sum = 0 for i = 0 .. M sum = sum + count[i] count[i] = sum - count[i] // Cоздаем вектор обратного преобразования for i = 0 .. N t[count[s[i]]] = i count[s[i]]++ // И восстанавливаем исходный текст j = t[x] for i = 0 .. N print(s[j]) j = t[j] Доказательство корректностиПусть текст состоит из символов, занумерованных с нуля: . Буквы принадлежат некоторому алфавиту . Лексикографический порядок (строгий) на строках из алфавита будем обозначать . Обозначим через циклический сдвиг текста на символов влево:Существует перестановка чисел , которая удовлетворяет условию:Преобразование Барроуза-Уилера текста есть текст , буквы которого заданы соотношением:Пусть — перестановка чисел , удовлетворяющая условию:и в случае равенства и выполнено — . Перестановка однозначно определяется текстом и ее можно посчитать за , используя сортировку подсчетом. Рассмотрим перестановку как отображение . Пусть копмозиция отображений , где .
Алгоритм за линейное времяБудем обозначать -ую циклическую перестановку . Пусть , и , - номер строки в таблице. Предподсчитаем следующие величины:
Пример для "BCABAAA":
Для удобства пронумеруем известные нам данные:
Символ находится в строке под номером , так как в таблице строка имела номер . Найдём символ .Символ имеет в строке тот же номер, что строка имела в таблице перестановок: строка начинается с символа , находится на 1 левее его и из-за циклического сдвига оказывается в последнем столбце. Нам известен символ . Посчитаем, на каком месте в таблице будет стоять строка, начинающаяся с этого символа.Из 4 известно количество символов, меньших . Все строки, начинающиеся с этих символов, стоят в таблице раньше . Кроме того, в таблице есть строки, начинающиеся с того же символа, что и . Из 3 известно, сколько их: если символ, равный , встречался в раньше, чем , то в таблице строка, начинающаяся с этого символа, тоже стоит раньше строки, начинающейся с , так как префикс строки, оканчивающейся на этот символ, меньше префикса строки, оканчивающейся на .Тогда сумма этих двух величин является номером символа в строке . Зная и , аналогично найдём .Предподсчёт занимает времени, восстановление каждого из символов занимает времени. Суммарное время работы алгоритма .Пример работы для "BCABAAA", 2 (нумерация с 0):
Дополнительно
Источники информации |