Алгоритм Хаффмана — различия между версиями
Rybak (обсуждение | вклад) (→Корректность алгоритма Хаффмана) |
Rybak (обсуждение | вклад) (→Корректность алгоритма Хаффмана) |
||
Строка 40: | Строка 40: | ||
Идея доказательства состоит в том, чтобы взять дерево <tex>T</tex>, представляющее произвольный оптимальный префиксный код, и преобразовать его в дерево, представляющее другой оптимальный префиксный код, в котором символы <tex>x</tex> и <tex>y</tex> являются листьями с общим родительским узлом, причем в новом дереве эти листья находятся на максимальной глубине. | Идея доказательства состоит в том, чтобы взять дерево <tex>T</tex>, представляющее произвольный оптимальный префиксный код, и преобразовать его в дерево, представляющее другой оптимальный префиксный код, в котором символы <tex>x</tex> и <tex>y</tex> являются листьями с общим родительским узлом, причем в новом дереве эти листья находятся на максимальной глубине. | ||
− | Пусть <tex>a</tex> и <tex>b</tex> — два символа, представленные листьями с общим родительским узлом, которые находятся на максимальной глубине дерева <tex>T</tex>. | + | Пусть <tex>a</tex> и <tex>b</tex> — два символа, представленные листьями с общим родительским узлом, которые находятся на максимальной глубине дерева <tex>T</tex>. |
− | <tex>B(T) - B(T') = \ | + | Предположим без потери общности, что <tex>f[a] \le f[b]</tex> и <tex>f[x] \le f[y]</tex>. |
+ | |||
+ | Поскольку <tex>f[x]</tex> и <tex>f[y]</tex> — две самые маленькие частоты (в указанном порядке), <tex>f[a]</tex> и <tex>f[b]</tex> — две произвольные частоты, то выполняются соотношения <tex>f[x] \le f[a]</tex> и <tex>f[y] \le f[b]</tex>. В результате перестановки в дереве <tex>T</tex> листьев <tex>a</tex> и <tex>x</tex> получается дерево <tex>T'</tex>, а при последующей перестановке в дереве V листьев <tex>b</tex> и <tex>y</tex> получается дерево <tex>T''</tex>. Разность стоимостей деревьев Т и Т" равна | ||
+ | |||
+ | <tex>B(T) - B(T') = \sum\limits_{c \in C} f(c)d_T(C) - \sum\limits_{c \in C} f(c)d_{T'}(C)= \\ \\ | ||
=(f[a] - f[x])(d_T(a) - d_T(x)) \ge 0 ,</tex> | =(f[a] - f[x])(d_T(a) - d_T(x)) \ge 0 ,</tex> | ||
Версия 21:45, 25 сентября 2011
Определение
Определение: |
Коды или Алгоритм Хаффмана (Huffman codes) — широко распространенный и очень эффективный метод сжатия данных, который, в зависимости от характеристик этих данных, обычно позволяет сэкономить от 20% до 90% объема. |
Рассматриваются данные, представляющие собой последовательность символов. В жадном алгоритме Хаффмана используется таблица, содержащая частоты появления тех или иных символов. С помощью этой таблицы определяется оптимальное представление каждого символа в виде бинарной строки.
Построение кода Хаффмана
В основу алгоритма Хаффмана положена идея: кодировать более коротко те символы, которые встречаются чаще, а те, которые встречаются реже кодировать длиннее. Для построения кода Хаффмана нам необходима таблица частот символов. Рассмотрим пример построения кода на простой строке abacaba
a | b | c | |
---|---|---|---|
4 | 2 | 1 |
Следующим шагом будет построение дерева, где вершины - "символы", а пути до них соответствуют их префиксным кодам. Для этого на каждом шаге будем брать два символа с минимальной частотой вхождения, и объединять их в новые так называемые символы с частотой равной сумме частот тех, которые мы объединяли, а также соединять их рёбрами, образуя таким образом дерево(см. рисунок). Выбирать минимальные два символа будем из всех символов, исключая те, которые мы уже выбирали. В примере мы объединим символы b и с в символ bc с частотой 3. Далее объединим a и bc в символ abc, получив тем самым дерево. Теперь пути от корня (abc) до листьев и есть Коды Хаффмана(каждому ребру соответствует либо 1 либо 0)
a | b | c | |
---|---|---|---|
0 | 11 | 10 |
Корректность алгоритма Хаффмана
Чтобы доказать корректность жадного алгоритма Huffman, покажем, что в задаче о построении оптимального префиксного кода проявляются свойства жадного выбора и оптимальной подструктуры. В сформулированной ниже лемме показано соблюдение свойства жадного выбора.
Лемма (1): |
Пусть — алфавит, каждый символ которого встречается с частотой . Пусть и — два символа алфавита с самыми низкими частотами.
Тогда для алфавита существует оптимальный префиксный код, кодовые слова символов и в котором имеют одинаковую длину и отличаются лишь последним битом. |
Доказательство: |
Идея доказательства состоит в том, чтобы взять дерево , представляющее произвольный оптимальный префиксный код, и преобразовать его в дерево, представляющее другой оптимальный префиксный код, в котором символы и являются листьями с общим родительским узлом, причем в новом дереве эти листья находятся на максимальной глубине.Пусть и — два символа, представленные листьями с общим родительским узлом, которые находятся на максимальной глубине дерева .Предположим без потери общности, что и .Поскольку и — две самые маленькие частоты (в указанном порядке), и — две произвольные частоты, то выполняются соотношения и . В результате перестановки в дереве листьев и получается дерево , а при последующей перестановке в дереве V листьев и получается дерево . Разность стоимостей деревьев Т и Т" равна
поскольку величины Таким образом, выполняется неравенство и неотрицательны. Величина неотрицательна, потому что х — лист с минимальной частотой, величина неотрицательна, потому что — лист на максимальной глубине в дереве . Аналогично, перестановка листьев и не приведет к увеличению стоимости, поэтому величина неотрицательна. , и поскольку — оптимальное дерево, то должно также выполняться неравенство , откуда следует, что . Таким образом, — оптимальное дерево, в котором и — находящиеся на максимальной глубине дочерние листья одного и того же узла, что и доказывает лемму. |
Лемма (2): |
Пусть дан алфавит , в котором для каждого символа определены частоты . Пусть и — два символа из алфавита с минимальными частотами. Пусть — алфавит, полученный из алфавита путем удаления символов и и добавления нового символа , так что . По определению частоты в алфавите совпадают с частотами в алфавите , за исключением частоты . Пусть — произвольное дерево, представляющее оптимальный префиксный код для алфавита Тогда дерево , полученное из дерева путем замены листа внутренним узлом с дочерними элементами и , представляет оптимальный префиксный код для алфавита . |
Доказательство: |
Сначала покажем, что стоимость ИЛИ . Докажем лемму методом от противного. Предположим, дерево |
Теорема: |
Алгоритм Хаффмана дает оптимальный префиксный код. |
Доказательство: |
Справедливость теоремы непосредственно следует из лемм (1) и (2) |
Литература
- Томас Х. Кормен, Чарльз И. Лейзерсон, Рональд Л. Ривест, Клиффорд Штайн Алгоритмы: построение и анализ — 2-е изд. — М.: «Вильямс», 2007. — С. 1296. — ISBN 5-8489-0857-4