Изменения

Перейти к: навигация, поиск

Код Хаффмана с длиной кодового слова не более L бит

2107 байт добавлено, 18:27, 23 октября 2019
м
Было: пусть дан алфавит из 5 символов <tex>A=\{A,B,C,C,D\}</tex> ; Стало: пусть дан алфавит из 5 символов <tex>A=\{A,B,C,D,E\}</tex>,
'''Код Хаффмана Оптимальный префиксный код с длиной кодового слова не более L бит''' - это вариация классического кода Хоффмана с дополнительным ограничением: код, в котором длина каждого кодового слова не должна превышать заданной константы. Здесь будет приведен алгоритм, решающий эту задачу за время <tex> O(nL) </tex>, где <tex>L</tex> - максимальная длина кодового слова, <tex>n</tex> - размер алфавита, c помощью сведения задачи к одной из вариаций '''задачи [[Задача_о_рюкзаке | задаче о банкомате'''рюкзаке]].
== Задача о банкоматеДанный алгоритм бывает полезен, когда нам нужно ограничить максимальную длину кодового слова, а при использовании алгоритма Хаффмана самому редко встречающемуся символу соответствует слишком длинное кодовое слово. ==В вариации задаче о банкоматеНапример, которую мы рассмотрим, у вас имеется пусть дан алфавит из 5 символов <tex>NA=\{A,B,C,D,E\}</tex> монет. Каждая монета характеризуется двумя параметрами: номиналом и весом. При этом все номиналы , а частоты символов являются степенями двойки и не превышают : <tex>P=\{1,2^0</tex>. Необходимо выбрать из имеющихся монет некоторый набор так, чтобы их суммарный номинал был равен <tex>S4, 8, 16\}</tex> (натуральное число), а суммарный вес минимален.Тогда классический код Хоффмана будет выглядеть следующим образом:
== Алгоритм решения задачи о банкомате. ==Рассмотрим алгоритм решения приведенной выше вариации задачи о банкомате, считая, что решение существует.# Разделим имеющиеся у нас монеты на списки по номиналу (свой список для каждого номинала) и упорядочим монеты по возрастанию весов внутри списков, а списки в порядке возрастания номиналов.# Рассмотрим первый список (с монетами самого низкого номинала). Разобьем в нем все монеты на пары (1 и 2, 3 и 4 и т. д.) Заменим каждую пару монет одной новой монетой, номинал и вес которой равен сумме номиналов и весов старых. Если число монет было нечетно, то последнюю монету, которая не имеет пары, исключим из рассмотрения.# Объединим первый список со вторым так, чтобы монеты в получившемся списке остались упорядочены по весу.# Будем повторять шаги 2-3 до тех пор, пока у нас не останется один список. В нем будут содержаться монеты номиналом 1 (<tex>2^0</tex>), упорядоченные по весу. Возьмем первые <tex>SA = 1111 </tex> монет из списка. Это и будет ответ к задаче.
<tex> B = 1110 </tex> <tex> C = 110 </tex> <tex> D = 10 </tex> <tex> E = 0 </tex> Самое длинное кодовое слово здесь имеет длину 4. Пусть мы хотим, чтобы слова в нашем коде были не длиннее трех бит. Тогда алгоритм, который будет описан ниже, генерирует такой код: <tex> A = 000 </tex> <tex> B = 001 </tex> <tex> C = 010 </tex> <tex> D = 011 </tex> <tex> E = 100 </tex> Важно заметить следующий факт. В худшем случае все кодовые слова будут иметь длину L бит. Тогда мы можем закодировать <tex> 2^L </tex> символов. Таким образом, нельзя получить описанный выше код, если <tex> n > 2^L </tex>. == Сведение задачи о рюкзаке к генерации оптимального префиксного кода Хоффмана с длиной кодового слова не более L бит. ==Пусть <tex>L</tex> - ограничение на длину кодового слова, а <tex>P=\{p_{1},p_{2},...,p_{n}\}</tex> - частоты символов алфавита.Алгоритм генерации кода будет следующим:
# Отсортируем символы алфавита в порядке возрастания их частот.
# Для каждого символа создадим <tex>L</tex> монет номиналами предметов ценностью <tex>2^{-1}..2^{-L}</tex>, каждая каждый из которых имеет вес <tex>p_{i}</tex>.# С помощью описанного выше алгоритма задачи о рюкзаке выберем набор монет суммарным номиналом предметов суммарной ценностью <tex>n - 1</tex> (<tex>n</tex> - размер алфавита) с минимальным суммарным весом. # Посчитаем массив <tex>H=\{h_{1},h_{2},...,h_{n}\}</tex>, где <tex>h_{i}</tex> - количество монет номинала предметов ценностью <tex>p_{i}</tex>, которые попали в наш набор.
При этом <tex>h_{i}</tex> - это длина кодового слова для <tex>i</tex>-го символа.Зная длины кодовых слов, легко восстановить и сам код.
== Восстановление ответа. ==
# Отсортируем все символы по возрастанию длины кодового слова, которое им соответствует, а при равенстве длин - в алфавитном порядке.
# Первому символу сопоставим код, состоящий из нулей, соответствующей длины.
# Каждому следующему символу сопоставим следующее двоичное число. При этом если его длина меньше необходимой, то допишем нули справа.
Заметим, что при генерации каждого следующего кодового слова, в качестве его префикса выступает последовательность, лексикографически большая, чем предыдущее кодовое слово (т.к. мы берем следующее двоичное число), а значит ни для каких двух кодовых слов одно не может быть префиксом другого. Т.е. код, сгенерированный таким образом является префиксным. == Пример работы алгоритма генерации оптимального префиксного кода Хоффмана с длиной кодового слова не более L бит ==Пусть <tex>A=\{a_A,B,C\}</tex> — алфавит из трех различных символов, <tex>P=\{1,2,3\}</tex> — соответствующий ему набор частот. Пусть <tex>L = 2</tex> — ограничение на длину кодового слова.  Сначала создадим необходимый набор предметов;{| class="wikitable"! Символ || Частота || Предметы|- align = "center"| A || 1 || <tex> (2^{-1}; 1), (2^{-2}; 1) </tex>|- align = "center"| B || 2 || <tex>(2^{-1}; 2), (2^{-2}; 2)</tex>|- align = "center"| C || 3 || <tex> (2^{-1}; 3), (2^{-2}; 3)</tex>|} Решим задачу о рюкзаке для заданного набора и выберем предметы суммарной ценностью <tex> n - 1 = 2 </tex> с минимальным суммарным весом. В нашем случае в оптимальный набор попадут следующие предметы:  <tex>(2^{-1}; 1), (2^{-1}; 2), (2^{-1}; 3), (2^{-2}; 1),a_(2^{-2}; 2) </tex> Посчитаем массив <tex> H </tex>: <tex>H=\{2,2,1\}</tex> Итак,мы получили длины кодовых слов для символов.Осталось восстановить ответ== Пример восстановления ответа.== Итак,a_у нас есть <tex>A=\{n}A,B,C\}</tex> — алфавит из n различных символов, а также <tex>PH=\{p_{1}2,p_{2,1\}</tex> — соответсвующие длины кодовых слов. Отсортируем символы в соответсвии с этими длинами. Сопоставим первому символу код,состоящий из 1 нуля: <tex> C = 0 </tex> Сопоставим следующему символу следующее двоичное число.Т.к.длина кода увеличилась на один,p_{n}\}то припишем справа ноль: <tex> B = 10 </tex> — соответствующий ему набор положительных целых весов Сопоставим следующему символу следующее двоичное число. Пусть  <tex>L A = 211 </tex>  ==См. также==*[[Алгоритм_Хаффмана | Алгоритм Хаффмана]]*[[Задача_о_рюкзаке | Задача о рюкзаке]] ==Источники информации==*[http://en.wikipedia.org/wiki/Package- ограничение на длину кодового словаmerge_algorithm Package-merge algorithm]*[http://en.wikipedia. org/wiki/Canonical_Huffman_code Canonical Huffman code] [[Категория: Дискретная математика и алгоритмы]]
Сначала создадим необходимый набор монет; <tex>(2^{-1}; 1), (2^{-2}; 1), (2^{-1}; 2), (2^{-2}; 2), (2^{-1}; 3), (2^{-2}; 3) </tex>[[Категория: Алгоритмы сжатия ]]
1
правка

Навигация