Код Шеннона

Код Шеннона — алгоритм префиксного кодирования алфавита, предложенный Клодом Шенноном, в котором используется избыточность сообщения, заключённая в неоднородном распределении частот символов первичного алфавита, то есть заменяет коды более частых символов короткими последовательностями, а коды более редких символов — более длинными последовательностями.

Вход: — алфавит из [math]n[/math] различных символов с вероятностями .

Выход: — набор кодовых слов, соответствующий входным данным.

Определение

Определение:

Пусть — алфавит из различных символов с вероятностями , . Тогда набор бинарных кодов , такой, что:

1. [math]c_{i}[/math] не является префиксом для [math]c_{j}[/math], при [math]i \ne j[/math]

2. [math]c_{i}[/math] представляет собой [math]\lceil -\log p_{i}\rceil[/math] коэффициентов двоичного разложения числа [math]{b_{i}}[/math]

называется кодом Шеннона.

Алгоритм построения бинарного кода Шеннона

Пусть нам даны наборы [math]A[/math] и [math]P[/math], тогда для нахождения кодовых слов необходимо:

Отсортировать элементы алфавита по не возрастанию вероятности встречи символа.
Элементу [math]a_{x}[/math] поставить в соответствие число , при этом [math]b_{1}=0[/math].
Представить каждое число [math]{b_{x}}[/math] в виде двоичной дроби.
В качестве кодового слова для [math]a_{x}[/math] использовать первые коэффициентов представления [math]{b_{x}}[/math]. ([math]\lceil z \rceil[/math] — наименьшее целое число, не меньшее [math] z [/math])

Пример

Для примера возьмём алфавит [math]A=\{a,b,c,d,e,f\}[/math] и набор [math]P[/math]:

Символ	a	b	c	d	e	f
[math]p_{x}[/math]	0,10	0,20	0,10	0,10	0,35	0,15

По алгоритму сортируем элементы алфавита по не возрастанию [math]p_{x}[/math]:

Символ	e	b	f	a	c	d
[math]p_{x}[/math]	0,35	0,20	0,15	0,10	0,10	0,10

Каждому символу [math]a_{x}[/math] сопоставляем [math]b_{x}[/math]:

Символ	e	b	f	a	c	d
[math]b_{x}[/math]	0,00	0,35	0,55	0,70	0,80	0,90

Переведём [math]b_{x}[/math] в двоичную систему счисления:

Символ	e	b	f	a	c	d
[math]b_{x}[/math]	0,00000	0,01010	0,10001	0,10110	0,11001	0,11100

Посчитаем [math]L_{x}[/math] и запишем коды:

Символ	e	b	f	a	c	d
[math]L_{x}[/math]	2	3	3	4	4	4
Код	00	010	100	1011	1100	1110

Утверждение:

Код Шеннона является префиксным

Для доказательства выбираем два произвольных кодовых слова с номерами [math]i[/math] и [math]j[/math], [math]i[/math][math]\lt [/math][math]j[/math]. Кодовое слово [math]c_{i}[/math] заведомо короче, чем [math]c_{j}[/math], поэтому достаточно доказать, что эти слова отличаются в одном из первых [math]L_{i}[/math] символов. Рассмотрим разность: [math]b_{j} - b_{i}[/math] = .

Длина слова и его вероятность связаны соотношением . Поэтому [math]p_{i} \geqslant 2^{-L_{i}}[/math]. С учётом этого неравенства получаем, что .

В двоичной записи числа в правой части мы имеем после запятой нулей и единицу в позиции с номером . Поэтому по меньшей мере в одном из разрядов слова и отличаются и, следовательно, не является префиксов для . Это верно для любой пары слов, так как и были выбраны произвольно. Значит, код является префиксным.

См.также

Источники информации

Ю. М. Штарьков, “Обобщенные коды Шеннона”, Пробл. передачи информ., 20:3 (1984), 3—16 — с. 4.
Б. Д. Кудряшов Теория информации. С.—Пб.: Питер, 2009 — с. 36.

Код Шеннона

Определение

Алгоритм построения бинарного кода Шеннона

Пример

См.также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты