Код Шеннона — различия между версиями

Версия 15:06, 9 января 2015

Код Шеннона — алгоритм префиксного кодирования алфавита, предложенный Клодом Шенноном, в котором используется избыточность сообщения, заключённая в неоднородном распределении частот символов первичного алфавита, то есть заменяет коды более частых символов короткими последовательностями, а коды более редких символов — более длинными последовательностями.

Вход: — алфавит из [math]n[/math] различных символов с вероятностями .

Выход: — набор кодовых слов, соответствующий входным данным.

Содержание

1 Определение
2 Алгоритм построения бинарного кода Шеннона
- 2.1 Пример
- 2.2 Примечание
3 См.также
4 Источники информации

Определение

Определение:

Пусть — алфавит из различных символов, которому соответствует набор вероятностей такой, что , .

. Тогда набор бинарных кодов , такой, что:

1. [math]c_{i}[/math] не является префиксом для [math]c_{j}[/math], при [math]i \ne j[/math]

2. [math]c_{i}[/math] представляет собой [math]\lceil -\log p_{i}\rceil[/math] коэффициентов двоичного разложения числа [math]{b_{i}}[/math]

называется кодом Шеннона.

Алгоритм построения бинарного кода Шеннона

Пусть нам даны наборы [math]A[/math] и [math]P[/math], тогда для нахождения кодовых слов необходимо:

Отсортировать элементы алфавита по не возрастанию вероятности встречи символа.
Элементу [math]a_{x}[/math] поставить в соответствие число , при этом [math]b_{1}=0[/math].
Представить каждое число [math]{b_{x}}[/math] в виде двоичной дроби.
В качестве кодового слова для [math]a_{x}[/math] использовать первые коэффициентов представления [math]{b_{x}}[/math]. ([math]\lceil z \rceil[/math] — наименьшее целое число, не меньшее [math] z [/math])

Пример

Для примера возьмём алфавит [math]A=\{a,b,c,d,e,f\}[/math] и набор [math]P[/math]:

Символ	a	b	c	d	e	f
[math]p_{x}[/math]	0.10	0.20	0.10	0.10	0.35	0.15

По алгоритму сортируем элементы алфавита по не возрастанию [math]p_{x}[/math]:

Символ	e	b	f	a	c	d
[math]p_{x}[/math]	0.35	0.20	0.15	0.10	0.10	0.10

Каждому символу [math]a_{x}[/math] сопоставляем [math]b_{x}[/math]:

Символ	e	b	f	a	c	d
[math]b_{x}[/math]	0.00	0.35	0.55	0.70	0.80	0.90

Переведём [math]b_{x}[/math] в двоичную систему счисления:

Символ	e	b	f	a	c	d
[math]b_{x}[/math]	0.00000	0.01010	0.10001	0.10110	0.11001	0.11100

Посчитаем [math]L_{x}[/math] и запишем коды:

Символ	e	b	f	a	c	d
[math]L_{x}[/math]	2	3	3	4	4	4
Код	00	010	100	1011	1100	1110

Утверждение:

Код Шеннона является префиксным

Для доказательства выбираем два произвольных кодовых слова с номерами [math]i[/math] и [math]j[/math], [math]i[/math][math]\lt [/math][math]j[/math]. Кодовое слово [math]c_{i}[/math] заведомо короче, чем [math]c_{j}[/math], поэтому достаточно доказать, что эти слова отличаются в одном из первых [math]L_{i}[/math] символов. Рассмотрим разность: [math]b_{j} - b_{i}[/math] = .

Длина слова и его вероятность связаны соотношением . Поэтому [math]p_{i} \geqslant 2^{-L_{i}}[/math]. С учётом этого неравенства получаем, что .

В двоичной записи числа в правой части мы имеем после запятой нулей и единицу в позиции с номером . Поэтому по меньшей мере в одном из разрядов слова и отличаются и, следовательно, не является префиксов для . Это верно для любой пары слов, так как и были выбраны произвольно. Значит, код является префиксным.

Примечание

Кодовое дерево для метода Шеннона

Код Шеннона является достаточно старым методом сжатия, который не представляет практического применения на сегодняшний день. Это связано с тем, что в общем случае длина последовательности полученная кодированием Шеннона равна длине последовательности, полученной алгоритмом Хаффмана. Но можно привести примеры, на которых метод Шеннона формирует неоптимальные коды. Например, если [math]A=\{a,b,c,d\}[/math] и набор [math]P[/math]:

Символ	a	b	c	d
[math]p_{x}[/math]	0.65	0.15	0.15	0.5
[math]b_{x}[/math]	0	0.65	0.80	0.95
[math]L_{x}[/math]	1	3	3	5
Код	0	101	110	1111

Изобразим полученный результат в виде кодового дерева. Из этого рисунка видно, что полученные кодовые слова для букв [math]d[/math] и [math]b[/math] не являются оптимальными, так как их можно сократить на один бит без потери свойства однозначной декодируемости. Поэтому более эффективным считается сжатие метод Хаффмана.

См.также

Источники информации

Ю. М. Штарьков, “Обобщенные коды Шеннона”, Пробл. передачи информ., 20:3 (1984), 3—16 — с. 4.
Б. Д. Кудряшов Теория информации. С.—Пб.: Питер, 2009 — с. 36.

@@ Строка 9: / Строка 9: @@
 {{Определение
 |definition=
-Пусть <tex>A=\{a_{1},a_{2},\dots,a_{n}\}</tex> — алфавит из <tex>n</tex> различных символов с вероятностями <tex>P=\{p_{1},p_{2},\dots,p_{n}\}</tex>, <tex>b_{x}=\sum\limits_{i \in [1, x - 1]}p_{i}</tex>.  Тогда набор бинарных кодов <tex>C=\{c_{1},c_{2},\dots,c_{n}\}</tex>, такой, что:
+Пусть <tex>A=\{a_{1},a_{2},\dots,a_{n}\}</tex> — алфавит из <tex>n</tex> различных символов, которому соответствует набор вероятностей <tex>P=\{p_{1},p_{2},\dots,p_{n}\}</tex> такой, что <tex>p_{x} \geq p_{y}</tex>, <tex>x > y</tex>.
+<tex>b_{x}=\sum\limits_{i \in [1, x - 1]}p_{i}</tex>.  Тогда набор бинарных кодов <tex>C=\{c_{1},c_{2},\dots,c_{n}\}</tex>, такой, что:
 . <tex>c_{i}</tex> не является префиксом для <tex>c_{j}</tex>, при <tex>i \ne j</tex>
@@ Строка 33: / Строка 34: @@
 ! Символ || a || b || c || d || e || f
 |-
-| <tex>p_{x}</tex> || 0,10 || 0,20 || 0,10 || 0,10 || 0,35 || 0,15
+| <tex>p_{x}</tex> || 0.10 || 0.20 || 0.10 || 0.10 || 0.35 || 0.15
 |}
@@ Строка 41: / Строка 42: @@
 ! Символ || e || b || f || a || c || d
 |-
-| <tex>p_{x}</tex> || 0,35 || 0,20 || 0,15 || 0,10 || 0,10 || 0,10
+| <tex>p_{x}</tex> || 0.35 || 0.20 || 0.15 || 0.10 || 0.10 || 0.10
 |}
@@ Строка 49: / Строка 50: @@
 ! Символ || e || b || f || a || c || d
 |-
-| <tex>b_{x}</tex> || 0,00 || 0,35 || 0,55 || 0,70 || 0,80 || 0,90
+| <tex>b_{x}</tex> || 0.00 || 0.35 || 0.55 || 0.70 || 0.80 || 0.90
 |}
@@ Строка 57: / Строка 58: @@
 ! Символ || e || b || f || a || c || d
 |-
-| <tex>b_{x}</tex> || 0,00000 || 0,01010 || 0,10001 || 0,10110 || 0,11001 || 0,11100
+| <tex>b_{x}</tex> || 0.00000 || 0.01010 || 0.10001 || 0.10110 || 0.11001 || 0.11100
 |}
@@ Строка 82: / Строка 83: @@
 В двоичной записи числа в правой части мы имеем после запятой <tex>L_{i} - 1</tex> нулей и единицу в позиции с номером <tex>L_{i}</tex>. Поэтому по меньшей мере в одном из <tex>L_{i}</tex> разрядов слова <tex>c_{i}</tex> и <tex>c_{j}</tex> отличаются и, следовательно, <tex>c_{i}</tex> не является префиксов для <tex>c_{j}</tex>. Это верно для любой пары слов, так как <tex>i</tex> и <tex>j</tex> были выбраны произвольно. Значит, код является префиксным.
 }}
+=== Примечание ===
+[[Файл:789893856ir842.png|280px|thumb|right|Кодовое дерево для метода Шеннона]]
+Код Шеннона является достаточно старым методом сжатия, который не представляет практического применения на сегодняшний день. Это связано с тем, что в общем случае длина последовательности полученная кодированием Шеннона равна длине последовательности, полученной
+[[Алгоритм Хаффмана | алгоритмом Хаффмана]]. Но можно привести примеры, на которых метод Шеннона формирует неоптимальные коды. Например, если <tex>A=\{a,b,c,d\}</tex> и набор <tex>P</tex>:
+{| class="wikitable"
+! Символ || a || b || c || d
+|-
+| <tex>p_{x}</tex> || 0.65 || 0.15 || 0.15 || 0.5
+|-
+| <tex>b_{x}</tex> || 0 || 0.65 || 0.80 || 0.95
+|-
+| <tex>L_{x}</tex> || 1 || 3 || 3 || 5
+|-
+| Код || 0 || 101 || 110 || 1111
+|}
+Изобразим полученный результат в виде кодового дерева. Из этого рисунка видно, что полученные кодовые слова для букв <tex>d</tex> и <tex>b</tex> не являются оптимальными, так как их можно сократить на один бит без потери свойства однозначной декодируемости. Поэтому более эффективным считается сжатие метод Хаффмана.
 == См.также ==
-* [[Алгоритм Хаффмана]]
+* [[Алгоритм LZW]]
 * [[Арифметическое кодирование]]

Код Шеннона — различия между версиями

Версия 15:06, 9 января 2015

Содержание

Определение

Алгоритм построения бинарного кода Шеннона

Пример

Примечание

См.также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты