Алгоритм LZW

Определение:

Алгори́тм Ле́мпеля — Зи́ва — Ве́лча (Lempel-Ziv-Welch, LZW) — это универсальный алгоритм сжатия данных без потерь

Он был создан Абрахамом Лемпелем(Abraham Lempel), Якобом Зивом (Jacob Ziv) и Терри Велчем (Terry Welch). Он был опубликован Велчем в 1984 году, в качестве улучшенной реализации алгоритма LZ78, опубликованного Лемпелем и Зивом в 1978 году. Алгоритм не проводит анализ входных данных поэтому не оптимален, но быстро реализуем.

Содержание

1 Применение
2 Описание
3 Алгоритм
4 Пример
- 4.1 Кодирование
- 4.2 Декодирование
5 Патенты
- 5.1 Unisys, GIF и PNG
6 Источники

Применение

LZW - это способ сжатия данных, который извлекает преимущества при повторяющихся цепочках данных. Поскольку растровые данные обычно содержат довольно много таких повторений, LZW является хорошим методом для их сжатия и раскрытия.

В 1987 году алгоритм стал частью стандарта на формат изображений GIF. Он также может (опционально) использоваться в формате TIFF.

В настоящее время алгоритм содержится в стандарте PDF.

Описание

Процесс сжатия выглядит достаточно просто. Мы считываем последовательно символы входного потока и проверяем, есть ли в созданной нами таблице строк такая строка. Если строка есть, то мы считываем следующий символ, а если строки нет, то мы заносим в поток код для предыдущей найденной строки, заносим строку в таблицу и начинаем поиск снова.

Алгоритму декодирования на входе требуется только закодированный текст, поскольку он может воссоздать соответствующую таблицу преобразования непосредственно по закодированному тексту.

Алгоритм

Инициализация словаря всеми возможными односимвольными фразами. Инициализация входной фразы ω первым символом сообщения.
Считать очередной символ K из кодируемого сообщения.
Если КОНЕЦ_СООБЩЕНИЯ, то выдать код для ω, иначе
Если фраза ωK уже есть в словаре, присвоить входной фразе значение ωK и перейти к Шагу 2, иначе выдать код ω, добавить ωK в словарь, присвоить входной фразе значение K и перейти к Шагу 2.

Конец

Пример

Данный пример показывает алгоритм LZW в действии, показывая состояние выходных данных и словаря на каждой стадии, как при кодировании, так и при раскодировании сообщения. С тем чтобы сделать изложение проще, мы ограничимся алфавитом из трех букв. Сообщение, которое нужно сжать, выглядит следующим образом:

ABCABCABCABCABCABC#

Маркер # используется для обозначения конца сообщения. Тем самым, в нашем алфавите 4 символа. Компьютер представляет это в виде групп бит, для представления каждого символа алфавита нам достаточно группы из 2 бит на символ. По мере роста словаря, размер групп должен расти, с тем чтобы учесть новые элементы. 2-битные группы дают 2² = 4 возможные комбинации бит, поэтому, когда в словаре появится 5-е слово, алгоритм должен перейти к 3-битным группам. Заметим, что, поскольку используется группа из всех нолей 00, то 5-я группа имеет код 4. Начальный словарь будет содержать:

Символ	Битовый код	Номер
#	00	0
A	01	1
B	10	2
C	11	3

Кодирование

Без использования алгоритма LZW, при передаче сообщения как оно есть — 18 символов по 2 бит на каждый — оно займёт 36 бит. Сравним это с тем, что получается при использовании LZW:

Текущий символ	Следующий символ	Вывод		Расширенный словарь		Комментарии
Текущий символ	Следующий символ	Код	Биты	Расширенный словарь		Комментарии
NULL	A
A	B	1	01	4:	AB
B	C	2	10	5:	BC
C	A	3	11	6:	CA
AB	C	4	100	7:	ABC
CA	B	6	110	8:	CAB
BC	A	5	101	9:	BCA
ABC	A	7	111	10:	ABCA
ABCA	B	10	1010	11:	ABCAB
BC	#	5	101			выводим текущую последовательность
		0	000000			и останавливаем кодирование

Длина закодированного текста = 25 битов.

Таким образом, используя LZW мы сократили сообщение на 11 бит из 36 — это почти 30 %. Если сообщение будет длиннее, то элементы словаря будут представлять всё более и более длинные части текста, благодаря чему повторяющиеся слова будут представлены очень компактно.

Декодирование

Теперь представим что мы получили закодированное сообщение, приведённое выше, и нам нужно его декодировать. Прежде всего, нам нужно знать начальный словарь, а последующие записи словаря мы можем реконструировать уже на ходу, поскольку они являются просто конкатенацией предыдущих записей.

Данные		На выходе	Новая запись				Комментарии
Биты	Код	На выходе	Полная		Частичная		Комментарии
01	1	A			4:	A?
10	2	B	4:	AB	5:	B?
11	3	C	5:	BC	6:	C?
100	4	AB	6:	CA	7:	AB?
110	6	CA	7:	ABC	8:	CA?
101	5	BC	8:	CAB	9:	BC?
111	7	ABC	9:	BCA	10:	ABC?
1010	10	ABCA	10:	ABCA	11:	ABCA?	Решение проблемы см. ниже
101	5	BC	11:	ABCAB	12:	BC?
000000	0	#

Единственная небольшая трудность может возникнуть, если новое слово словаря пересылается немедленно. В приведённом выше примере декодирования, когда декодер встречает первый символ, ABC?, он знает, что слово 10 начинается с ABC, но чем оно заканчивается? Проиллюстрируем проблему следующим примером. Мы декодируем сообщение ABABA:

Данные:     На выходе:     Новая запись:
                        Полная:      Частичная:
.
.
.
011101 = 29     AB      46: (word)   47: AB?
101111 = 47     AB?  <--- что нам с этим делать?

На первый взгляд, для декодера это неразрешимая ситуация. Мы знаем наперёд, что словом 47 должно быть ABA, но как декодер узнает об этом? Заметим, что слово 47 состоит из слова 29 плюс символ идущий следующим. Таким образом, слово 47 заканчивается на «символ идущий следующим». Но, поскольку это слово посылается немедленно, то оно должно начинаться с «символа идущего следующим», и поэтому оно заканчивается тем же символом что и начинается, в данном случае — A. Этот трюк позволяет декодеру определить, что слово 47 это ABA.

В общем случае, такая ситуация появляется, когда кодируется последовательность вида cScSc, где c — это один символ, а S — строка, причём слово cS уже есть в словаре.

Патенты

На алгоритм LZW и его вариации был выдан ряд патентов, как в США, так и в других странах. К настоящему времени, сроки всех патентов истекли.

Unisys, GIF и PNG

Компания Unisys приобрела патент на этот алгоритм. Поэтому использование формата GIF, в котором он используется, было раскритиковано из-за лицензионных отчислений. Был предложен альтернативный формат PNG (PNG not GIF).

К настоящему сроку патенты истекли, поэтому спор утих.

Источники

Wikipedia | LZW (рус)

Wikipedia | LZW (англ)

Семенюк В.В. - Экономное кодирование дискретной информации

Алгоритм LZW

Содержание

Применение

Описание

Алгоритм

Пример

Кодирование

Декодирование

Патенты

Unisys, GIF и PNG

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты