Изменения

Преобразование MTF

508 байт убрано, 17:49, 6 марта 2020

→‎Применение

== Описание алгоритма ==

Изначально каждое возможное значение байта записывается в список (алфавит), в ячейку с номером, равным значению байта, т.е. <tex>(0, 1, 2, 3, …\dots, 255)</tex>. В процессе обработки данных этот список изменяется. По мере поступления очередного символа на выход подается номер элемента, содержащего его значение. После чего этот символ перемещается в начало списка, смещая остальные элементы вправо.

Современные алгоритмы (например, bzip2<ref>[http://ru.wikipedia.org/wiki/Bzip2 {{---}} bzip2]</ref>) перед алгоритмом MTF используют [[преобразование Барроуза-Уиллера|алгоритм BWT]], поэтому в качестве примера рассмотрим строку <tex>~~\mathtt{~~S} = BCABAAA</tex>~~''"BCABAAA"''~~, полученную из строки ''"ABACABA"'' в результате [[Преобразование Барроуза-Уиллера|преобразования Барроуза-Уиллера]]. Первый символ строки <tex>~~\mathtt{~~S}</tex> 'B' является вторым элементом алфавита ''"ABC"'', поэтому на вывод подаётся <tex>1</tex>. После перемещения 'B' в начало алфавита тот принимает вид ''"BAC"''. Дальнейшая работа алгоритма показана в таблице:

{| class="wikitable"

|}

Таким образом, результат работы алгоритма: <tex>MTF(~~\mathtt{~~S}) = 1222100</tex> ~~''"1222100"''~~.

Вот примерная реализация этого алгоритма. Здесь массив <tex>\mathtt{alphabet}</tex> хранит количество символов перед символом <tex>~~\mathtt{~~S}[~~\mathtt{~~i}]</tex>, <tex>~~\mathtt{~~N}</tex> {{---}} длина строки <tex>~~\mathtt{~~S}</tex>.

~~<code>~~

'''list<int>''' mtf(N):

'''list<int>''' result(N)

помещаем символ S[i] в начало алфавита

'''return''' result

~~</code>~~

Данный алгоритм работает за <tex>O(~~\mathtt{~~N} \cdot ~~\mathtt{~~M})</tex>, где <tex>~~\mathtt{N}~~M</tex> {{---}} размер алфавита, <tex>~~\mathtt{M}~~N</tex> {{---}} длина строки, что не очень быстро. Этот алгоритм можно реализовать за <tex>O(~~\mathtt{~~N}\log~~(\mathtt{N+~~M}))</tex>.

== Описание алгоритма за O(N log~~(N+~~M)) ==

~~Пусть дан алфавит размером <tex>\mathtt{M}</tex> и строка <tex>\mathtt{S}</tex> длиной <tex>\mathtt{N}</tex>. Заведем массив <tex>\mathtt{used}~~Для решения будем использовать [1..\mathtt{N+M}]</tex> и последние <tex>\mathtt{M}</tex> ячеек заполним единицами. Запомним для каждого символа алфавита позицию в нашем массиве. Например, <tex>\mathtt{alphabet}['a'] = \mathtt{N}+1</tex>, <tex>\mathtt{alphabet}[~~'b'~~Декартово_дерево | декартово дерево] ~~= \mathtt{N}+2</tex>, ... , <tex>\mathtt{alphabet}['z'~~] ~~= \mathtt{N+M}</tex>~~.

~~При обработке~~ Пусть дан алфавит размером <tex>~~\mathtt{i}~~M</tex>~~-го символа посчитаем~~ и ~~выпишем сумму на отрезке~~ строка <tex>~~[1, \mathtt{alphabet}[\mathtt{~~S~~}[\mathtt{i}]] - 1]~~</tex>~~, поменяем значения ячеек~~ длиной <tex>N</tex>. Запомним для каждого символа алфавита свой ключ. Изначально <tex>\mathtt{~~used~~keys}[~~\mathtt{N-i}+1~~'a']= 0</tex> и , <tex>\mathtt{~~used}[\mathtt{alphabet}[\mathtt{S~~keys}[~~\mathtt{i}]]~~'b']= 1</tex> ~~местами~~, ~~также стоит поменять значение в ячейке~~ <tex>\~~mathtt{alphabet}[\mathtt{S}[\mathtt{i}]]~~dots</tex> на , <tex>\mathtt{Nkeys}['z'] = M-~~i}+~~1</tex>. Соединим все вершины в дерево по ключу.

~~<code>~~

'''list<int>''' mtf(N):

'''list<int>''' result(N)

~~'''list<int>''' used(N+M)~~minkey = 0 '''for''' i = 1 0 '''to''' M N result.append(findanswer(S[i])) //~~Заполняем последние M ячеек единицами~~Считаем ответ ~~used[i+N] = 1~~ ~~'''for''' i~~ cur = ~~1 '''to''' N~~ ~~result.append(sum~~find(~~1, alphabet~~keys[S[i]] ~~- 1)~~) //~~Запоминаем ответ~~Находим вершину в дереве ~~swap~~split(~~used[N-i+1], used[alphabet[S[i]]]~~cur.key) //~~Меняем значения~~Вырезаем вершину из дерева ~~alphabet[S[i]]~~ min_key-- //Уменьшаем минимально-~~i+1~~ возможный ключ cur.key = minkey //~~Изменяем позицию символа~~ Ставим ключ в ~~массиве~~найденной вершине на минимальный merge(cur, tree) //Объединяем нашу вершину и дерево по ключу

'''return''' result

~~</code>~~

~~Функцию~~ Функция <tex>~~sum~~\mathtt{findanswer}</tex> ~~можно реализовывать по-разному~~считает ответ так: если при спуске из вершины дерева мы должны идти вправо, то прибавляем к ответу количество вершин левого поддерева + 1, иначе ничего не добавляем к ответу.

Функции <~~code~~tex> ~~'''int''' sum(left, right)~~ ~~result = 0~~ ~~'''for''' i = left '''to''' right~~ ~~result = result + used[i]~~ ~~'''return''' result~~\mathtt{split}</tex> и <tex>\mathtt{merge}</~~code~~tex>{{---}} стандартные функции для [[Декартово_дерево|декартова дерева]].

~~Такая реализация работает за~~ <tex>~~O(right-left)</tex>, общая сложность алгоритма равна <tex>O(~~\mathtt{Nminkey} ~~\cdot \mathtt{M})~~</tex> Но можно находить сумму на отрезке при помощи [[Дерево_отрезков._Построение | дерева отрезков]], что сократит время работы до <tex>O(\log(\mathtt{~~right~~{---~~left~~}~~))</tex>~~} число, которое меньше любого ключа дерева. ~~Итого, общая сложность будет равна <tex>O(\mathtt{N}\log(\mathtt{N+M}))</tex>~~

== Обратное преобразование ==

Пусть даны строка <tex>~~\mathtt{~~S} = 1222100</tex>~~''"1222100"''~~ и исходный алфавит ''"ABC"''. Символ с номером <tex>1</tex> в алфавите {{---}} это 'B'. На вывод подаётся 'B', и этот символ перемещается в начало алфавита. Символ с номером <tex>2</tex> в алфавите {{---}} это 'AC', поэтому 'AC' подается на вывод и перемещается в начало алфавита. Дальнейшее преобразование происходит аналогично.

{| class ="wikitable"

|}

Значит, исходная строка <tex>MTF^{-1}(~~\mathtt{~~S}) = BCABAAA</tex>~~''"BCABAAA"''~~.

== Применение ==

| 0 || 16 || 4/5 || 0

|-

| 1 || 2 1 || 1/10 20 || 10110

|-

| 2 || 1 || 1/20 || ~~110~~111

|-

| 3 || 1 2 || 1/20 10 || ~~111~~10

|}

В результате сжатия получаем последовательность длиной <tex>16\cdot1 + 2\cdot2 + 3\cdot2 = 26</tex> бит. Стоит заметить, что выигрыш от применения [[Арифметическое кодирование|арифметического кодирования]] для данного примера будет еще значительней.

== См. также ==

* [[Преобразование Барроуза-Уиллера]]

* [[Алгоритм LZW]]

== Примечания ==

== Источники информации ==

~~== Ссылки ==~~ * # [http://compression.ru/arctest/descript/bwt-faq.htm Burrows Wheeler Transform FAQ] * # [http://ru.wikipedia.org/wiki/Move-To-Front Move-To-Front (Википедия)] ~~== Литература ==~~

# Ryabko, B. Ya. ''Data compression by means of a «book stack»'', Problems of Information Transmission, 1980, v. 16: (4), pp. 265–269.

# Ryabko, B. Ya.; Horspool, R. Nigel; Cormack, Gordon V. Comments to: ''«A locally adaptive data compression scheme»'' by J. L. Bentley, D. D. Sleator, R. E. Tarjan and V. K. Wei. Comm. ACM 30 (1987), no. 9, 792—794.

Анонимный участник

5.8.16.168

Изменения

Преобразование MTF

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты