Изменения

Перейти к: навигация, поиск

Алгоритм Хаффмана

3403 байта добавлено, 19:41, 4 сентября 2022
м
rollbackEdits.php mass rollback
'''Алгоритм Хаффмана''' (англ. ''Huffman's algorithm'') — алгоритм [[Задача_об_оптимальном_префиксном_коде_с_сохранением_порядка._Монотонность_точки_разреза | оптимального префиксного кодирования]] алфавита. Был разработан в 1952 году аспирантом Массачусетского технологического института Дэвидом Хаффманом при написании им курсовой работы. Используется во многих программах сжатия данных, например, PKZIP 2, LZH и др.
 
== Определение ==
 
{{Определение
|definition=
Пусть <tex>A=\{a_{1},a_{2}, \ldots ,a_{n}\}</tex> — алфавит из <tex>n</tex> различных символов, <tex>W=\{w_{1},w_{2}, \ldots ,w_{n}\}</tex> — соответствующий ему набор положительных целых весов. Тогда набор бинарных кодов <tex>C=\{c_{1},c_{2}, \ldots ,c_{n}\}</tex>, где <tex>c_{i}</tex> является кодом для символа <tex>a_{i}</tex>, такой, что: :* <tex>c_{i}</tex> не является префиксом для <tex>c_{j}</tex>, при <tex>i \ne j</tex>, :* cумма <tex>\sum\limits_{i \in [1, n]} w_{i}\cdot |c_{i}|</tex> минимальна (<tex>|c_{i}|</tex> — длина кода <tex>c_{i}</tex>), называется '''Коды''' или кодом Хаффмана'''.}} == Алгоритм построения бинарного кода Хаффмана == Построение кода Хаффмана''' ('''Huffman codes''') — широко распространенный и очень эффективный метод сжатия данныхсводится к построению соответствующего [[ Двоичная_куча | бинарного дерева]] по следующему алгоритму: # Составим [[Список | список]] кодируемых символов, при этом будем рассматривать один символ как дерево, состоящее из одного элемента c весом, равным частоте появления символа в строке.# Из списка выберем два узла с наименьшим весом.# Сформируем новый узел с весом, которыйравным сумме весов выбранных узлов, и присоединим к нему два выбранных узла в зависимости от характеристик этих данныхкачестве детей.# Добавим к списку только что сформированный узел вместо двух объединенных узлов.# Если в списке больше одного узла, то повторим пункты со второго по пятый. === Время работы ===Если сортировать элементы после каждого суммирования или использовать [[Приоритетные_очереди | приоритетную очередь]], обычно позволяет сэкономить от 20% то алгоритм будет работать за время <tex>O(N \log N)</tex>.Такую асимптотику можно [[Алгоритм_Хаффмана_за_O(n) |улучшить до 90% объема<tex>O(N)</tex>]], используя обычные массивы.}}Рассматриваются данные, представляющие собой последовательность символов=== Пример === [[Файл:Huffman_abracadabra. В жадном алгоритме jpg|400px|thumb|right|Дерево Хаффмана используется таблицадля слова <tex>abracadabra</tex>]] Закодируем слово <tex>abracadabra</tex>. Тогда алфавит будет <tex>A= \{a, b, r, c, d\} </tex>, содержащая частоты а набор весов (частота появления тех или иных символов. С помощью этой таблицы определяется оптимальное представление каждого символа алфавита в виде бинарной строки. кодируемом слове) <tex>W=\{5, 2, 2, 1, 1\}</tex>: В дереве Хаффмана будет <tex>5</tex> узлов:
== Построение кода Хаффмана ==
[[Файл:Huffman1.png|100px|right|thumb|Обрабатываем b и c]]
[[Файл:Huffman2.png|100px|right|thumb|Получившееся дерево]]
В основу алгоритма Хаффмана положена идея: кодировать более коротко те символы, которые встречаются чаще, а те, которые встречаются реже кодировать длиннее. Для построения кода Хаффмана нам необходима таблица частот символов. Рассмотрим пример построения кода на простой строке '''''abacaba'''''<br>
{| class="wikitable"
! Узел || a || b || r || c с || d
|-
| 4 Вес || 5 || 2 || 2 || 1 ||1
|}
Следующим шагом будет построение дерева, где вершины - "символы", а пути до них соответствуют их префиксным кодам.
Для этого на каждом шаге будем брать два символа с минимальной частотой вхождения, и объединять их в новые так называемые символы с частотой равной сумме частот тех, которые мы объединяли, а также соединять их рёбрами, образуя таким образом дерево(см. рисунок). Выбирать минимальные два символа будем из всех символов, исключая те, которые мы уже выбирали.
В примере мы объединим символы b и с в символ bc с частотой 3. Далее объединим a и bc в символ abc, получив тем самым дерево. Теперь пути от корня (abc) до листьев и есть Коды Хаффмана(каждому ребру соответствует либо 1 либо 0)
По алгоритму возьмем два символа с наименьшей частотой {{---}} это <tex>c</tex> и <tex>d</tex>. Сформируем из них новый узел <tex>cd</tex> весом <tex>2</tex> и добавим его к списку узлов:
{| class="wikitable"
! Узел || a || b || c r ||cd
|-
| 0 Вес || 11 5 || 10 2 ||2 || 2
|}
Затем опять объединим в один узел два минимальных по весу узла {{---}} <tex>r</tex> и <tex>cd</tex>:
 
{| class="wikitable"
! Узел || a || rcd || b
|-
| Вес || 5 || 4 || 2
|}
 
Еще раз повторим эту же операцию, но для узлов <tex>rcd</tex> и <tex>b</tex>:
 
{| class="wikitable"
! Узел || brcd || a
|-
| Вес || 6 || 5
|}
 
На последнем шаге объединим два узла {{---}} <tex>brcd</tex> и <tex>a</tex>:
 
{| class="wikitable"
! Узел || abrcd
|-
| Вес || 11
|}
 
Остался один узел, значит, мы пришли к корню дерева Хаффмана (смотри рисунок). Теперь для каждого символа выберем кодовое слово (бинарная последовательность, обозначающая путь по дереву к этому символу от корня):
 
{| class="wikitable"
! Символ || a || b || r || с || d
|-
| Код || 0 || 11 || 101 || 1000 || 1001
|}
 
Таким образом, закодированное слово <tex>abracadabra</tex> будет выглядеть как <tex>01110101000010010111010</tex>. Длина закодированного слова {{---}} <tex>23</tex> бита. Стоит заметить, что если бы мы использовали алгоритм кодирования с одинаковой длиной всех кодовых слов, то закодированное слово заняло бы <tex>33</tex> бита, что существенно больше.
== Корректность алгоритма Хаффмана ==
Чтобы доказать корректность жадного алгоритма HuffmanХаффмана, покажем, что в задаче о построении оптимального префиксного кода проявляются свойства жадного выбора и оптимальной подструктуры. В сформулированной ниже лемме показано соблюдение свойства жадного выбора.
{{Лемма
|id=lemma1
|about=1
|statement=Пусть <tex>C</tex> — алфавит, каждый символ <tex>c \in C</tex> которого встречается с частотой <tex>f[c]</tex>. Пусть <tex>x</tex> и <tex>y</tex> — два символа алфавита <tex>C</tex> с самыми низкими частотами.  Тогда для алфавита <tex>C</tex> существует оптимальный префиксный код, кодовые слова символов <tex>x</tex> и <tex>y</tex> в котором имеют одинаковую максимальную длину и отличаются лишь последним битом. |proof=Идея доказательства состоит в том, чтобы взять Возьмем дерево <tex>T</tex>, представляющее произвольный оптимальный префиксный код, и преобразовать для алфавита <tex>C</tex>. Преобразуем его в дерево, представляющее другой оптимальный префиксный код, в котором символы <tex>x</tex> и <tex>y</tex> являются листьями — листья с общим родительским узлом, причем в новом дереве эти листья находятся находящиеся на максимальной глубине.  Пусть символы <tex>a</tex> и <tex>b</tex> — два символа, представленные листьями с общим родительским узлом, которые имеют общий родительский узел и находятся на максимальной глубине дерева <tex>T</tex>. Предположим без потери общности, что <tex>f[a] \le leqslant f[b]</tex> и <tex>f[x] \le leqslant f[y]</tex>. Поскольку Так как <tex>f[x]</tex> и <tex>f[y]</tex> — две самые маленькие наименьшие частоты (в указанном порядке), а <tex>f[a]</tex> и <tex>f[b]</tex> — две произвольные частоты, то выполняются соотношения отношения <tex>f[x] \le leqslant f[a]</tex> и <tex>f[y] \le leqslant f[b]</tex>. В результате перестановки в дереве Пусть дерево <tex>T'</tex> — дерево, полученное из <tex>T</tex> путем перестановки листьев <tex>a</tex> и <tex>x</tex> получается , а дерево <tex>T''</tex> — дерево полученное из <tex>T'</tex>, а при последующей перестановке в дереве V перестановкой листьев <tex>b</tex> и <tex>y</tex> получается дерево . Разность стоимостей деревьев <tex>T''</tex>. Разность стоимостей деревьев Т и Т" равна <brtex>T'</tex>равна: <tex>B(T) - B(T') = \sum_sum\limits_{c \in C} f(c)d_T(Cc) - \sum_sum\limits_{c \in C} f(c)d_{T'}(Cc) =</tex><br><tex> = (f[a] - f[x])(d_T(a) - d_T(x)) \ge ,</tex> что больше либо равно <tex>0</tex>,<br> поскольку так как величины <tex>f[a] - f[x]</tex> и <tex>d_T(a) - d_T(x)</tex> неотрицательны. Величина <tex>f[a] - f[x]</tex> неотрицательна, потому что х <tex>x</tex> — лист с минимальной частотой, а величина <tex>d_T(a) - d_T(x)</tex> неотрицательнаявляется неотрицательной, потому что так как лист <tex>a</tex> — лист находится на максимальной глубине в дереве <tex>T</tex>. Аналогично, Точно так же перестановка листьев <tex>y</tex> и <tex>b</tex> не приведет будет приводить к увеличению стоимости. Таким образом, поэтому величина разность <tex>B(T') - B(T'')</tex> неотрицательнатоже будет неотрицательной.  Таким образом, выполняется неравенство <tex>B(T'') \le leqslant B(T'')</tex>. С другой стороны, и поскольку <tex>T</tex> — оптимальное дерево, то поэтому должно также выполняться неравенство <tex>B(T'') \le leqslant B(T'')</tex>, откуда . Отсюда следует, что <tex>B(T') = B(T'')</tex>. Таким образомЗначит, <tex>T''</tex> — оптимальное дерево, представляющее оптимальный префиксный код, в котором символы <tex>x</tex> и <tex>y</tex> — находящиеся на максимальной глубине дочерние листья одного и того же узлаимеют одинаковую максимальную длину, что и доказывает лемму.
}}
{{Лемма
|id=lemma2.
|about=2
|statement=Пусть дан алфавит <tex>C</tex>, в котором для каждого символа <tex>c \in C</tex> определены частоты <tex>f[c]</tex>. Пусть <tex>x</tex> и <tex>y</tex> — два символа из алфавита <tex>C</tex> с минимальными частотами. Пусть <tex>C'</tex> — алфавит, полученный из алфавита <tex>C</tex> путем удаления символов <tex>x</tex> и <tex>y</tex> и добавления нового символа <tex>z</tex>, так что <tex>C' = C \backslash \{ x, y \} \cup {z}</tex>. По определению частоты <tex>f</tex> в алфавите <tex>C'</tex> совпадают с частотами в алфавите <tex>C</tex>, за исключением частоты <tex>f[z] = f[x] + f[y]</tex>. Пусть <tex>T'</tex> — произвольное дерево, представляющее оптимальный префиксный код для алфавита <tex>C'</tex> Тогда дерево <tex>T</tex>, полученное из дерева <tex>T'</tex> путем замены листа <tex>z</tex> внутренним узлом с дочерними элементами <tex>x</tex> и <tex>y</tex>, представляет оптимальный префиксный код для алфавита <tex>C</tex>.
|proof=Сначала покажем, что стоимость <tex>B(T)</tex> дерева <tex>T</tex> можно выразить может быть выражена через стоимость <tex>B(T')</tex> дерева <tex>T'</tex>. Для каждого символа <tex>c \le in C - \backslash \{x,y\}</tex> выполняется соотношение верно <tex>d_T(C) = d_{T'}(c)</tex>, следовательнозначит, <tex>f[c]d_T(Cc) = f[c]d_{T'}(c)</tex>. Поскольку Так как <tex>d_T(x) = d_{T}d_T(y) = d_{tT'}(z) + 1</tex>, получаем соотношение<br>то <tex>f[x]d_T(x) + f[y]d_{T}d_T(y) = (f[x] + f[y])(d_{T'}(z) + 1) = f[z]d_{T'}(z) + (f[x] + f[y])</tex><br>из которого чего следует равенство <br>, что <tex> B(T) = B(T') + f[x] + f[y] </tex> <br>ИЛИ <br>или <tex> B(T') = B(T) - f[x] - f[y] </tex>. <br> Докажем лемму методом от противного. Предположим, что дерево <tex> T </tex> не представляет оптимальный префиксный код для алфавита <tex> C </tex>. Тогда существует дерево <tex> T'' </tex>такое, для которого справедливо неравенство что <tex> B(T'') < B(T) </tex>. Согласно лемме (1), элементы <tex>x</tex> и <tex>y</tex> без потери общности можно считать дочерними элементами одного и того же узла. Пусть дерево <tex>T'''</tex> получено из дерева <tex>T''</tex> путем замены заменой элементов <tex>x</tex> и <tex>y</tex> листом <tex>z</tex> с частотой <tex>f[z] = f[x] + f[y] </tex>. Тогда можно записать:<br>  <tex>B(T''') = B(T'') - f[x] - f[y] < B(T) - f[x] -f[y] = B(T')</tex>,<br>  что противоречит предположению о том, что дерево <tex>T'</tex> представляет оптимальный префиксный код для алфавита <tex>C'</tex>. Таким образомЗначит, наше предположение о том, что дерево <tex>T</tex> должно представлять не представляет оптимальный префиксный код для алфавита <tex>C</tex>, неверно, что и доказывает лемму.
}}
 
{{Теорема
|id=th1
|statement=
Процедура Huffman Алгоритм Хаффмана дает оптимальный префиксный код.
|proof=
Справедливость теоремы непосредственно следует из лемм (1) и (2)
}}
== Литература См. также ==*[[Оптимальное_хранение_словаря_в_алгоритме_Хаффмана | Оптимальное хранение словаря в алгоритме Хаффмана]] == Источники информации == * Томас Х. Кормен, Чарльз И. Лейзерсон, Рональд Л. Ривест, Клиффорд Штайн . Алгоритмы: построение и анализ — 2-е изд. — М.: «Вильямс», 2007. — Сс. 1296459. — ISBN 5-8489-0857-4*[http://en.wikipedia.org/wiki/Huffman_coding Wikipedia — Huffman coding]*[http://ru.wikipedia.org/wiki/%C4%E2%EE%E8%F7%ED%EE%E5_%E4%E5%F0%E5%E2%EE Википедия — Бинарное дерево]*[http://ru.wikipedia.org/wiki/Префиксный_код Википедия — Префиксный код] [[Категория: Дискретная математика и алгоритмы]] [[Категория:Алгоритмы сжатия]]
1632
правки

Навигация