Изменения

Энтропия случайного источника

6222 байта добавлено, 16:28, 25 июня 2021

→‎См. также

{{Определение

|definition =~~Энтропией случайной схемы называется мера содержащейся в этой схеме неопределенности~~'''Энтропия случайного источника''' (англ.''Shannon entropy'') {{---}} функция от вероятностей исходов: <brtex>H: \bigcup\limits_{i=1}^{\infty} \mathbb{R}^i \rightarrow \mathbb{R} </tex>, характеризующая количество информации, приходящейся на одно сообщение источника.}}

Энтропия — это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения.}}~~Пусть задан случайный источник.~~Пусть мы имеем вероятностную схему <tex>\mathcal{P}</tex> от этого источника с <tex>n</tex> исходами, и вероятности этих исходов равны <tex>p_1, p_2, ..., p_n</tex>.== Свойства ==

~~Тогда энтропия задается как вполне конкретная функция от вероятностей исходов.~~'''Энтропия должна удовлетворять следующим требованиям:'''

: * Функция <tex>H: (p_1, p_2, \dots, p_n)</tex> определена и непрерывна для всех таких наборов <tex>p_i\in[0,\;1]</tex>, что <tex> \~~bigcup~~sum\limits_{i=1}^{~~\infty~~n} ~~\mathbb{R}^i \rightarrow \mathbb{R} </tex>: <tex>H(p_1, p_2, ..., p_n)~~p_i = 1</tex>

* <tex dpi =~~= Свойства ==~~"130">H \underbrace{ \left( \dfrac{1}{n}, \dfrac{1}{n}, \dots, \dfrac{1}{n} \right)}_\text{n} < H \underbrace{ \left( \dfrac{1}{n+1}, \dfrac{1}{n+1}, \dots, \dfrac{1}{n+1} \right) }_\text{n+1}</tex>

* Функция <tex>H(p_1, p_2, ..., p_n)</tex> непрерывна.* <tex>H(\underbrace{\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}}_\text{n}) < H(\underbrace{\frac{1}{n+1}, \frac{1}{n+1}, ..., \frac{1}{n+1}}_\text{n+1})</tex>* <texdpi ="130">H(p_{1}q_{11}, p_{1}q_{12}, ~~...~~\dots, p_{n}q_{nk_n}) = H(p_1, p_2, ~~...~~\dots, p_n) + \sum\limits_{i=1}^{n} p_iH(q_{i1}, ~~...~~\dots, q_{ik_i})</tex>:<tex>\rhd</tex>::Рассмотрим схему <tex>\mathcal{P}_m</tex> c <tex>m</tex> исходами и вероятностями <tex>\{p_1, p_2, ..., p_m\}</tex> и схему <tex>\mathcal{R}_k</tex> с <tex>k</tex> исходами и вероятностями <tex>\{q_1, q_2, ..., q_k\}</tex>.~~::Образуем комбинированную схему c <tex>m + k - 1</tex> исходами следующим образом:~~::выбирается случайным образом один из исходов схемы <tex>\mathcal{P}_m</tex>, и если произошел <tex>m</tex>-й исход, выбирается случайно один из исходов схемы <tex>\mathcal{R}_k</tex>, а остальные <tex>m - 1</tex> исходов схемы <tex>\mathcal{P}_m</tex> считаются окончательными.~~::В этой комбинированной схеме <tex>\mathcal{PR}</tex> мы получаем исходы~~

::Рассмотрим схему <tex>\mathcal{P}_m</tex> c <tex>~~1, 2, ...,~~ m ~~- 1~~</tex> исходами и вероятностями <tex>\{p_1, (mp_2, 1)\dots, ~~(m, 2)~~p_m\}</tex> и схему <tex>\mathcal{R}_k</tex> с <tex>k</tex> исходами и вероятностями <tex>\{q_1, ~~...~~q_2, (m\dots, k)q_k\}</tex>.

Образуем комбинированную схему c <tex>m + k - 1</tex> исходами следующим образом:~~:с вероятностями~~

::Выбирается случайным образом один из исходов схемы <tex>~~p_1~~\mathcal{P}_m</tex>, ~~p_2~~и если произошел <tex>m</tex>-й исход, ~~...~~выбирается случайно один из исходов схемы <tex>\mathcal{R}_k</tex>, ~~p_{~~а остальные <tex>m-1</tex> исходов схемы <tex>\mathcal{P}~~, p_mq_1, p_mq_2, ..., p_mq_k~~_m</tex>считаются окончательными.

~~::Легко видеть, что~~ В этой комбинированной схеме <tex>H(\mathcal{PR}</tex> мы получаем исходы <tex>1, 2, \dots, m - 1, (m, 1) ~~= H~~, (m, 2), \~~mathcal{P}_m~~dots, (m, k) ~~+ p_mH(~~</tex> с вероятностями <tex>p_1, p_2, \~~mathcal~~dots, p_{Rm-1}~~_k)~~, p_mq_1, p_mq_2, \dots, p_mq_k</tex>.

::Легко видеть, что <tex>H(\mathcal{PR}) = H(\mathcal{P}_m) + p_mH(\mathcal{R}_k)</tex>. Потребуем выполнения этого свойства для любой меры неопределенности.:<tex>\lhd~~</tex>~~ * <tex>H(\{\frac{1}{2}, \frac{1}{2}\}) = 1 </tex>

==Вычисление энтропии==

~~{{Теорема|statement= <tex>H(p_1, p_2, ..., p_n) = -k \sum\limits_{i=1}^{n} p_i\log_2p_i </tex>|proof =~~ Для доказательства ~~теоремы~~ формулы вычисления энтропии сначала докажем лемму.

{{Лемма

|statement = <texdpi="140">g(n) = H(\~~frac~~dfrac{1}{n}, \~~frac~~dfrac{1}{n}, ~~...~~\dots, \~~frac~~dfrac{1}{n}) = -k \log_2 \~~frac~~dfrac{1}{n}= k \log_2n</tex>

|proof =

Будем рассматривать для <tex>k=1</tex> (бит).

Рассмотрим функцию <tex>g(mn)</tex>:

: <tex>g(mn)=g(m)+ \sum\limits_{i=1}^{m} \~~frac~~dfrac{1}{m} g(n) = g(m)+g(n)</tex>

~~Заметим, что:~~Пусть: <tex>g(2)=1 \quad </tex>, тогда <tex>g(2^t)=t</tex> и <tex> \quad g(n^t)=t \cdot g(n)</tex>

~~Аналогично:~~: Рассмотрим такое <tex>~~g(n) = \log_2(n) \quad~~ i </tex>, что <tex>2^i \~~quad g(~~leqslant n^t~~)=t \cdot g(n)~~< 2^{i+1}</tex>

Можно заметить, что если <tex> i=[ \log_2 n^t ] </tex>, то неравенство останется верным.

По предыдущим рассуждениям получаем, что:: <tex>g(2^i ) \~~leq~~ leqslant g(n^t ) < g(2^{i+1})</tex>

: <tex> i \leqslant t \cdot g(n) <i+1 \quad \quad </tex>

~~По предыдущим рассуждениям~~Делим неравенство на <tex>t</tex>::<texdpi="140">\dfrac{i}{t} \leqslant g(2n) < \dfrac{i+1}{t}</tex>, то есть <tex dpi="140">\dfrac{[ \log_2 n^i) t ]}{t} \~~leq~~ leqslant g(n^t) < ~~g(2~~\dfrac{[ \log_2 n^{it ]+1}){t}</tex>

Отсюда ясно, что если <tex> t\rightarrow \infty</tex>, то получаем <tex>g(n) = \log_2n</tex>

}}

: {{Теорема|statement= <texdpi="140"> i H(p_1, p_2, \dots, p_n) = -k \~~leq t~~ sum\~~cdot g(n) <~~limits_{i+=1 }^{n} p_i\log_2p_i = k \~~quad~~ sum\~~quad~~ limits_{i=~~\lfloor~~ 1}^{n} p_i\log_2 ~~n^t~~\~~rfloor~~ dfrac{1}{p_i}</tex>|proof =

~~Разделив на <tex>t</tex> получаем~~: Теперь рассмотрим функцию <texdpi="140">H(\dfrac{a_1}{b_1}, \~~frac~~dfrac{ia_2}{tb_2} , \~~leq g(n) <~~ dots, \~~frac~~dfrac{~~i+1~~a_n}{tb_n})</tex>

Приведем дроби внутри функции к одному знаменателю, получаем: <tex dpi="140"> H(\dfrac{a_1}{b_1}, \dfrac{a_2}{b_2}, \dots, \dfrac{a_n}{b_n}) = H(\dfrac{x_1}{b}, \dfrac{x_2}{b}, \dots, \dfrac{x_n}{b})</tex>

~~Отсюда ясно, что если~~Далее по свойству энтропии и доказанной лемме:: <texdpi="140"> tg(b)= H(\dfrac{x_1}{b}, \dfrac{x_2}{b}, \dots, \dfrac{x_n}{b}) + \sum\~~rightarrow~~ limits_{i=1}^{n} \~~infty~~dfrac{x_i}{b} g(x_i)</tex>

~~то получаем~~:<texdpi="140">gH(\dfrac{x_1}{b}, \dfrac{x_2}{b}, \dots, \dfrac{x_n}{b}) = \log_2b - \sum\limits_{i=1}^{n} \dfrac{x_i}{b} \log_2x_i = -\sum\limits_{i=1}^{n} \dfrac{x_i}{b} \log_2 \dfrac{x_i}{b}</tex>При <tex dpi="140"> p_i = \dfrac{x_i}{b} </tex> получаем, что <tex dpi="140">H(p_1, p_2, \dots, p_n) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = \sum\~~log_2n~~limits_{i=1}^{n} p_i \log_2 \dfrac{1}{p_i}</tex>}}

== Примеры ==

=== Энтропия честной монеты ===

Рассмотрим [[Вероятностное пространство, элементарный исход, событие|вероятностное пространство]] {{---}} честная монета.

Найдем для нее энтропию:

:<tex dpi="140">H(X) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = -\sum\limits_{i=1}^{2} {\dfrac{1}{2} \cdot \log_2 \dfrac{1}{2}} = -\sum\limits_{i=1}^{2} {\dfrac{1}{2} \cdot (-1)} = 1</tex>

Это означает что после броска честной монеты мы получим информацию в размере <tex>1</tex> бит, уменьшив степень неопределенности вдвое.

=== Энтропия нечестной монеты ===

Найдем энтропию для [[Вероятностное пространство, элементарный исход, событие|вероятностного пространства]] нечестная монета с [[Схема Бернулли| распределением Бернулли]] <tex>\{0,2; 0,8\}</tex>:

:<tex dpi="140">H(X) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = -0.2\log_2(0.2)-0.8\log_2(0.8) \approx 0.722 < 1 </tex>

== Ограниченность энтропии ==

{{Теорема

|statement= <tex>0 \leqslant H(p_1, p_2, \dots, p_n) \leqslant \log_2n </tex>

|proof =

1) Докажем первую часть неравенства:

Так как <tex> p_i\in[0,\;1]</tex>, тогда <tex dpi="140">\log_2\dfrac{1}{p_i} \geqslant 0 </tex>. Таким образом <tex dpi="140"> H(p_1, p_2, \dots, p_n) = \sum\limits_{i=1}^{n} p_i\log_2 \dfrac{1}{p_i} \geqslant 0 </tex>

2) Докажем вторую часть неравенства:

<tex dpi="140"> f(x)=\log_2x </tex> {{---}} выпуклая вверх функция, <tex> p_1,p_2,\ldots,p_n>0</tex> и <tex> \sum \limits_{i=1}^{n} p_i = 1 </tex>, тогда для нее выполняется неравенство Йенсена:

<tex dpi="140"> \sum\limits_{i=1}^{n} p_i f(\dfrac{1}{p_i}) \leqslant f(\sum\limits_{i=1}^{n} (p_i \cdot\dfrac{1}{p_i})) </tex>

Таким образом получаем, что <tex> H(p_1, p_2, \dots, p_n) \leqslant \log_2n </tex>

}}

Тогда из теоремы и доказанной выше леммы следует, что для n исходов энтропия максимальна, если они все равновероятны.

== Условная и взаимная энтропия ==

{{Определение

|definition = '''Условная энтропия''' (англ. ''conditional entropy'') {{---}} определяет количество остающейся энтропии (то есть, остающейся неопределенности) события <tex>A</tex> после того, как становится известным результат события <tex>B</tex>. Она называется ''энтропия <tex>A</tex> при условии <tex>B</tex>'', и обозначается <tex>H(A|B)</tex>

}}

<tex>H(A|B)= - \sum\limits_{i=1}^{m}p(b_i)\sum\limits_{j=1}^{n} p(a_j|b_i)\log_2p(a_j|b_i) </tex>

{{Определение

|definition = '''Взаимная энтропия''' (англ. ''joint entropy'') {{---}} энтропия объединения двух событий <tex>A</tex> и <tex>B</tex>.

}}

<tex> H(A \cap B) = -\sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} p(a_j \cap b_i)\log_2p(a_j \cap b_i) </tex>

{{Утверждение

|statement= <tex> H(A \cap B) = H(A|B)+H(B)=H(B|A)+H(A) </tex>

|proof= По формуле условной вероятности <tex dpi="130"> p(a_j|b_i)=\dfrac{p(a_j \cap b_i)}{p(b_i)} </tex>

<tex dpi="140"> H(A|B)=-\sum\limits_{i=1}^{m}p(b_i)\sum\limits_{j=1}^{n} p(a_j|b_i)\log_2p(a_j|b_i) </tex> <tex dpi="140">= - \sum\limits_{i=1}^{m}p(b_i) \sum\limits_{j=1}^{n} \dfrac{p(a_j \cap b_i)}{p(b_i)}\log_2 \dfrac {p(a_j \cap b_i)}{p(b_i)} = -\sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} p(a_j \cap b_i)\log_2 \dfrac {p(a_j \cap b_i)}{p(b_i)} = </tex>

<tex dpi="140"> = -\sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} p(a_j \cap b_i)\log_2p(a_j \cap b_i) + \sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} p(a_j \cap b_i)\log_2p(b_i) </tex><tex dpi="140">= H(A \cap B) +\sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} p(a_j \cap b_i)\log_2p(b_i) = </tex>

~~Теперь рассмотрим функцию~~ <texdpi="140">= H(A \~~frac~~cap B) +\sum\limits_{~~a_1~~i=1}^{~~b_1~~m}, \~~frac~~log_2p(b_i)\sum\limits_{~~a_2~~j=1}^{~~b_2~~n}~~, ...,~~ p(a_j \~~frac~~cap b_i) = H(A \cap B) +\sum\limits_{~~a_n~~i=1}^{~~b_n~~m}\log_2p(b_i)p(b_i) = </tex><tex dpi="140">H(A \cap B) - H(B)</tex>

~~Приведем дроби внутри функции к одному знаменателю~~Таким образом получаем, ~~получаем~~что: <tex>H(A \~~frac{a'_1}{b}, \frac{a'_2}{b}, ..., \frac{a'_n}{b}~~cap B)= H(A|B)+H(B)</tex>

~~Далее по свойству 3:~~Аналогично: <tex>gH(bB \cap A)= H(~~\frac{a'_1}{b}, \frac{a'_2}{b}, ..., \frac{a'_n}{b}~~B|A) + ~~\sum\limits_{i=1}^{n} \frac{a'_i}{b} g~~H(~~a'_i~~A)</tex>

Из двух полученных равенств следует, что <tex> H(A|B)+H(B)=H(B|A)+H(A) </tex>

}}

~~: <tex>H(\frac{a_1}{b_1}~~== См. также ==*[[Вероятностное пространство, элементарный исход, событие|Вероятностное пространство, ~~\frac{a_2}{b_2}~~элементарный исход, событие]]*[[Условная вероятность|Условная вероятность]]*[[Арифметическое кодирование|Арифметическое кодирование]] == Источники информации ==* И.В.Романовский "Дискретный анализ"* [http://ru.~~, \frac~~wikipedia.org/wiki/Информационная_энтропия Википедия {~~a_n}~~{~~b_n}) = \log_2b~~ - ~~\sum\limits_{i=1~~--}~~^{n~~} ~~\frac~~Информационная энтропия]* [https://en.wikipedia.org/wiki/Entropy_(information_theory) Wkipedia {~~a_i}~~{~~b_i} \log_2a'_i =~~ -~~\sum\limits_{i=1}^{n~~--} ~~\frac{a_i~~}~~{b_i} \log_2 \frac{a_i}{b_i}</tex>~~Entropy(information_theory)] }}[[Категория:Дискретная математика и алгоритмы]]

~~== Литература ==~~* И.В. Романовкий "Дискретный анализ"[[Категория: Теория вероятности ]]

Капелюшок Георгий Александрович

7

правок

Изменения

Энтропия случайного источника

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты