Энтропия случайного источника — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 5: Строка 5:
 
|definition = '''Энтропия случайного источника''' — функция от вероятностей исходов: <tex>H: \bigcup\limits_{i=1}^{\infty} \mathbb{R}^i \rightarrow \mathbb{R} </tex>, характеризующая количество информации, приходящейся на одно сообщение источника.
 
|definition = '''Энтропия случайного источника''' — функция от вероятностей исходов: <tex>H: \bigcup\limits_{i=1}^{\infty} \mathbb{R}^i \rightarrow \mathbb{R} </tex>, характеризующая количество информации, приходящейся на одно сообщение источника.
 
}}
 
}}
 +
== Свойства ==
 +
 +
'''Энтропия должна удовлетворять следующим требованиям:'''
 +
 +
* Функция <tex>H(p_1, p_2, ..., p_n)</tex> определена и непрерывна для всех <tex>p_i\in[0,\;1]</tex>
  
== Свойства ==
+
* <tex dpi ="130">H(\underbrace{\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}}_\text{n}) < H(\underbrace{\frac{1}{n+1}, \frac{1}{n+1}, ..., \frac{1}{n+1}}_\text{n+1})</tex>
Энтропия должна удовлетворять следующим требованиям:
 
  
* Функция <tex>H(p_1, p_2, ..., p_n)</tex> непрерывна.
+
* <tex dpi ="130"> H(p_{1}q_{11}, p_{1}q_{12}, ..., p_{n}q_{nk_n}) = H(p_1, p_2, ..., p_n) + \sum\limits_{i=1}^{n} p_iH(q_{i1}, ..., q_{ik_i})</tex>
* <tex>H(\underbrace{\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}}_\text{n}) < H(\underbrace{\frac{1}{n+1}, \frac{1}{n+1}, ..., \frac{1}{n+1}}_\text{n+1})</tex>
+
<tex>\rhd</tex>
* <tex>H(p_{1}q_{11}, p_{1}q_{12}, ..., p_{n}q_{nk_n}) = H(p_1, p_2, ..., p_n) + \sum\limits_{i=1}^{n} p_iH(q_{i1}, ..., q_{ik_i})</tex>
 
:<tex>\rhd</tex>
 
::Рассмотрим схему <tex>\mathcal{P}_m</tex> c <tex>m</tex> исходами и вероятностями <tex>\{p_1, p_2, ..., p_m\}</tex> и схему <tex>\mathcal{R}_k</tex> с <tex>k</tex> исходами и вероятностями <tex>\{q_1, q_2, ..., q_k\}</tex>.
 
::Образуем комбинированную схему c <tex>m + k - 1</tex> исходами следующим образом:
 
::выбирается случайным образом один из исходов схемы <tex>\mathcal{P}_m</tex>, и если произошел <tex>m</tex>-й исход, выбирается случайно один из исходов схемы <tex>\mathcal{R}_k</tex>, а остальные <tex>m - 1</tex> исходов схемы <tex>\mathcal{P}_m</tex> считаются окончательными.
 
::В этой комбинированной схеме <tex>\mathcal{PR}</tex> мы получаем исходы
 
  
::<tex>1, 2, ..., m - 1, (m, 1), (m, 2), ..., (m, k)</tex>
+
Рассмотрим схему <tex>\mathcal{P}_m</tex> c <tex>m</tex> исходами и вероятностями <tex>\{p_1, p_2, ..., p_m\}</tex> и схему <tex>\mathcal{R}_k</tex> с <tex>k</tex> исходами и вероятностями <tex>\{q_1, q_2, ..., q_k\}</tex>.
  
::с вероятностями
+
Образуем комбинированную схему c <tex>m + k - 1</tex> исходами следующим образом:
  
::<tex>p_1, p_2, ..., p_{m-1}, p_mq_1, p_mq_2, ..., p_mq_k</tex>
+
Выбирается случайным образом один из исходов схемы <tex>\mathcal{P}_m</tex>, и если произошел <tex>m</tex>-й исход, выбирается случайно один из исходов схемы <tex>\mathcal{R}_k</tex>, а остальные <tex>m - 1</tex> исходов схемы <tex>\mathcal{P}_m</tex> считаются окончательными.
  
::Легко видеть, что <tex>H(\mathcal{PR}) = H(\mathcal{P}_m) + p_mH(\mathcal{R}_k)</tex>.
+
В этой комбинированной схеме <tex>\mathcal{PR}</tex> мы получаем исходы <tex>1, 2, ..., m - 1, (m, 1), (m, 2), ..., (m, k)</tex> с вероятностями <tex>p_1, p_2, ..., p_{m-1}, p_mq_1, p_mq_2, ..., p_mq_k</tex>
  
::Потребуем выполнения этого свойства для любой меры неопределенности.
+
Легко видеть, что <tex>H(\mathcal{PR}) = H(\mathcal{P}_m) + p_mH(\mathcal{R}_k)</tex>.
:<tex>\lhd</tex>   
+
* <tex>H(\{\frac{1}{2}, \frac{1}{2}\}) = 1 </tex>
+
Потребуем выполнения этого свойства для любой меры неопределенности.
 +
<tex>\lhd</tex>   
  
 
==Вычисление энтропии==
 
==Вычисление энтропии==
  
{{Теорема
+
Для доказательства формулы вычисления энтропии сначала докажем лемму.
|statement= <tex>H(p_1, p_2, ..., p_n) = -k \sum\limits_{i=1}^{n} p_i\log_2p_i </tex>
 
|proof =
 
Для доказательства теоремы сначала докажем лемму.
 
 
{{Лемма
 
{{Лемма
|statement = <tex>g(n) = H(\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}) = -k \log_2 \frac{1}{n}</tex>
+
|statement = <tex dpi="140">g(n) = H(\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}) = -k \log_2 \frac{1}{n} = k \log_2n</tex>
 
|proof =
 
|proof =
 
Будем рассматривать для <tex>k=1</tex> (бит).
 
Будем рассматривать для <tex>k=1</tex> (бит).
Строка 44: Строка 40:
 
: <tex>g(mn)=g(m)+ \sum\limits_{i=1}^{m} \frac{1}{m} g(n) = g(m)+g(n)</tex>
 
: <tex>g(mn)=g(m)+ \sum\limits_{i=1}^{m} \frac{1}{m} g(n) = g(m)+g(n)</tex>
  
Заметим, что:
+
Пусть: <tex>g(2)=1 \quad</tex>, тогда <tex>g(2^t)=t</tex> и <tex> \quad g(n^t)=t \cdot g(n)</tex>
: <tex>g(2)=1 \quad g(2^t)=t</tex>
 
  
Аналогично:
+
Рассмотрим такое <tex> i </tex>, что <tex>2^i \leqslant n^t < 2^{i+1}</tex>
: <tex>g(n) = \log_2(n) \quad \quad g(n^t)=t \cdot g(n)</tex>
 
  
 +
Можно заметить, что если <tex> i=[ \log_2 n^t ] </tex>, то неравенство останется верным.
  
: <tex>2^i \leq n^t < 2^{i+1}</tex>
+
По предыдущим рассуждениям получаем, что:
 
+
:<tex>g(2^i) \leq g(n^t) < g(2^{i+1})</tex>
  
По предыдущим рассуждениям
+
: <tex> i \leq t \cdot g(n) <i+1 \quad \quad </tex>
:<tex>g(2^i) \leq g(n^t) < g(2^{i+1})</tex>
 
  
 +
Делим неравенство на <tex>t</tex>:
 +
: <tex dpi="140">\frac{i}{t} \leq g(n) < \frac{i+1}{t}</tex> или <tex dpi="140">\frac{[ \log_2 n^t ]}{t} \leq g(n) < \frac{[ \log_2 n^t ]+1}{t}</tex>
  
: <tex> i \leq t \cdot g(n) <i+1 \quad \quad i=\lfloor \log_2 n^t\rfloor </tex>
+
Отсюда ясно, что если <tex> t\rightarrow \infty</tex>, то получаем <tex>g(n) = \log_2n</tex>
 +
}}
  
 +
{{Теорема
 +
|statement= <tex dpi="140">H(p_1, p_2, ..., p_n) = -k \sum\limits_{i=1}^{n} p_i\log_2p_i = k \sum\limits_{i=1}^{n} p_i\log_2\frac{1}{p_i}</tex>
 +
|proof =
  
Разделив на <tex>t</tex> получаем
 
: <tex>\frac{i}{t} \leq g(n) < \frac{i+1}{t}</tex>
 
  
 +
Теперь рассмотрим функцию <tex dpi="140">H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n})</tex>
  
Отсюда ясно, что если
+
Приведем дроби внутри функции к одному знаменателю, получаем: <tex dpi="140"> H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n}) = H(\frac{x_1}{b}, \frac{x_2}{b}, ..., \frac{x_n}{b})</tex>
: <tex> t\rightarrow \infty</tex>
 
  
то получаем
+
Далее по свойству энтропии и доказанной лемме:
:<tex>g(n) = \log_2n</tex>
+
: <tex dpi="140">g(b)= H(\frac{x_1}{b}, \frac{x_2}{b}, ..., \frac{x_n}{b}) + \sum\limits_{i=1}^{n} \frac{x_i}{b} g(x_i)</tex>
  
 +
: <tex dpi="140">H(\frac{x_1}{b}, \frac{x_2}{b}, ..., \frac{x_n}{b}) = \log_2b - \sum\limits_{i=1}^{n} \frac{x_i}{b} \log_2x_i = -\sum\limits_{i=1}^{n} \frac{x_i}{b} \log_2 \frac{x_i}{b}</tex>
 +
При <tex dpi="140"> p_i = \frac{x_i}{b} </tex> получаем, что <tex dpi="140">H(p_1, p_2, ..., p_n) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = \sum\limits_{i=1}^{n} p_i \log_2 \frac{1}{p_i}</tex>
 
}}
 
}}
  
 +
== Ограниченность энтропии ==
 +
{{Теорема
 +
|statement= <tex>0 \leqslant H(p_1, p_2, ..., p_n) \leqslant \log_2n </tex>
 +
|proof =
 +
1) Докажем первую часть неравенства:
  
Теперь рассмотрим функцию <tex>H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n})</tex>
+
Так как <tex> p_i\in[0,\;1]</tex>, тогда <tex dpi="140">\log_2\frac{1}{p_i} \geqslant 0 </tex>. Таким образом <tex dpi="140"> H(p_1, p_2, ..., p_n) = \sum\limits_{i=1}^{n} p_i\log_2 \frac{1}{p_i} \geqslant 0 </tex>
 
 
Приведем дроби внутри функции к одному знаменателю, получаем: <tex>H(\frac{a'_1}{b}, \frac{a'_2}{b}, ..., \frac{a'_n}{b})</tex>
 
 
 
Далее по свойству 3:
 
: <tex>g(b)= H(\frac{a'_1}{b}, \frac{a'_2}{b}, ..., \frac{a'_n}{b}) + \sum\limits_{i=1}^{n} \frac{a'_i}{b} g(a'_i)</tex>
 
  
 +
2) Докажем вторую часть неравенства:
  
: <tex>H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n}) = \log_2b - \sum\limits_{i=1}^{n} \frac{a_i}{b_i} \log_2a'_i = -\sum\limits_{i=1}^{n} \frac{a_i}{b_i} \log_2 \frac{a_i}{b_i}</tex>
+
<tex dpi="140"> f(x)=\log_2x </tex> — выпуклая вверх функция, <tex> p_1,p_2,\ldots,p_n>0</tex> и <tex> \sum \limits_{i=1}^{n} p_i = 1 </tex>, тогда для нее выполняется [http://ru.wikipedia.org/wiki/Неравенство_Йенсена: неравенство Йенсена]:
 +
<tex dpi="140"> \sum\limits_{i=1}^{n} p_i\log_2\frac{1}{p_i} \leqslant f(\sum\limits_{i=1}^{n} (p_i \cdot\frac{1}{p_i})) </tex>
 +
Таким образом получаем, что <tex> H(p_1, p_2, ..., p_n) \leqslant \log_2n </tex>
 
}}
 
}}
 +
Тогда из теоремы и доказанной выше леммы следует, что для n исходов энтропия максимальна, если они все равновероятны.
 +
== Условная и взаимная энтропия ==
  
 
== Литература ==
 
== Литература ==

Версия 02:25, 14 января 2013

Определение

Определение:
Энтропия случайного источника — функция от вероятностей исходов: [math]H: \bigcup\limits_{i=1}^{\infty} \mathbb{R}^i \rightarrow \mathbb{R} [/math], характеризующая количество информации, приходящейся на одно сообщение источника.

Свойства

Энтропия должна удовлетворять следующим требованиям:

  • Функция [math]H(p_1, p_2, ..., p_n)[/math] определена и непрерывна для всех [math]p_i\in[0,\;1][/math]
  • [math]H(\underbrace{\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}}_\text{n}) \lt H(\underbrace{\frac{1}{n+1}, \frac{1}{n+1}, ..., \frac{1}{n+1}}_\text{n+1})[/math]
  • [math] H(p_{1}q_{11}, p_{1}q_{12}, ..., p_{n}q_{nk_n}) = H(p_1, p_2, ..., p_n) + \sum\limits_{i=1}^{n} p_iH(q_{i1}, ..., q_{ik_i})[/math]

[math]\rhd[/math]

Рассмотрим схему [math]\mathcal{P}_m[/math] c [math]m[/math] исходами и вероятностями [math]\{p_1, p_2, ..., p_m\}[/math] и схему [math]\mathcal{R}_k[/math] с [math]k[/math] исходами и вероятностями [math]\{q_1, q_2, ..., q_k\}[/math].

Образуем комбинированную схему c [math]m + k - 1[/math] исходами следующим образом:

Выбирается случайным образом один из исходов схемы [math]\mathcal{P}_m[/math], и если произошел [math]m[/math]-й исход, выбирается случайно один из исходов схемы [math]\mathcal{R}_k[/math], а остальные [math]m - 1[/math] исходов схемы [math]\mathcal{P}_m[/math] считаются окончательными.

В этой комбинированной схеме [math]\mathcal{PR}[/math] мы получаем исходы [math]1, 2, ..., m - 1, (m, 1), (m, 2), ..., (m, k)[/math] с вероятностями [math]p_1, p_2, ..., p_{m-1}, p_mq_1, p_mq_2, ..., p_mq_k[/math]

Легко видеть, что [math]H(\mathcal{PR}) = H(\mathcal{P}_m) + p_mH(\mathcal{R}_k)[/math].

Потребуем выполнения этого свойства для любой меры неопределенности. [math]\lhd[/math]

Вычисление энтропии

Для доказательства формулы вычисления энтропии сначала докажем лемму.

Лемма:
[math]g(n) = H(\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}) = -k \log_2 \frac{1}{n} = k \log_2n[/math]
Доказательство:
[math]\triangleright[/math]

Будем рассматривать для [math]k=1[/math] (бит).

Рассмотрим функцию [math]g(mn)[/math]:

[math]g(mn)=g(m)+ \sum\limits_{i=1}^{m} \frac{1}{m} g(n) = g(m)+g(n)[/math]

Пусть: [math]g(2)=1 \quad[/math], тогда [math]g(2^t)=t[/math] и [math] \quad g(n^t)=t \cdot g(n)[/math]

Рассмотрим такое [math] i [/math], что [math]2^i \leqslant n^t \lt 2^{i+1}[/math]

Можно заметить, что если [math] i=[ \log_2 n^t ] [/math], то неравенство останется верным.

По предыдущим рассуждениям получаем, что:

[math]g(2^i) \leq g(n^t) \lt g(2^{i+1})[/math]
[math] i \leq t \cdot g(n) \lt i+1 \quad \quad [/math]

Делим неравенство на [math]t[/math]:

[math]\frac{i}{t} \leq g(n) \lt \frac{i+1}{t}[/math] или [math]\frac{[ \log_2 n^t ]}{t} \leq g(n) \lt \frac{[ \log_2 n^t ]+1}{t}[/math]
Отсюда ясно, что если [math] t\rightarrow \infty[/math], то получаем [math]g(n) = \log_2n[/math]
[math]\triangleleft[/math]
Теорема:
[math]H(p_1, p_2, ..., p_n) = -k \sum\limits_{i=1}^{n} p_i\log_2p_i = k \sum\limits_{i=1}^{n} p_i\log_2\frac{1}{p_i}[/math]
Доказательство:
[math]\triangleright[/math]

Теперь рассмотрим функцию [math]H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n})[/math]

Приведем дроби внутри функции к одному знаменателю, получаем: [math] H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n}) = H(\frac{x_1}{b}, \frac{x_2}{b}, ..., \frac{x_n}{b})[/math]

Далее по свойству энтропии и доказанной лемме:

[math]g(b)= H(\frac{x_1}{b}, \frac{x_2}{b}, ..., \frac{x_n}{b}) + \sum\limits_{i=1}^{n} \frac{x_i}{b} g(x_i)[/math]
[math]H(\frac{x_1}{b}, \frac{x_2}{b}, ..., \frac{x_n}{b}) = \log_2b - \sum\limits_{i=1}^{n} \frac{x_i}{b} \log_2x_i = -\sum\limits_{i=1}^{n} \frac{x_i}{b} \log_2 \frac{x_i}{b}[/math]
При [math] p_i = \frac{x_i}{b} [/math] получаем, что [math]H(p_1, p_2, ..., p_n) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = \sum\limits_{i=1}^{n} p_i \log_2 \frac{1}{p_i}[/math]
[math]\triangleleft[/math]

Ограниченность энтропии

Теорема:
[math]0 \leqslant H(p_1, p_2, ..., p_n) \leqslant \log_2n [/math]
Доказательство:
[math]\triangleright[/math]

1) Докажем первую часть неравенства:

Так как [math] p_i\in[0,\;1][/math], тогда [math]\log_2\frac{1}{p_i} \geqslant 0 [/math]. Таким образом [math] H(p_1, p_2, ..., p_n) = \sum\limits_{i=1}^{n} p_i\log_2 \frac{1}{p_i} \geqslant 0 [/math]

2) Докажем вторую часть неравенства:

[math] f(x)=\log_2x [/math] — выпуклая вверх функция, [math] p_1,p_2,\ldots,p_n\gt 0[/math] и [math] \sum \limits_{i=1}^{n} p_i = 1 [/math], тогда для нее выполняется неравенство Йенсена: [math] \sum\limits_{i=1}^{n} p_i\log_2\frac{1}{p_i} \leqslant f(\sum\limits_{i=1}^{n} (p_i \cdot\frac{1}{p_i})) [/math]

Таким образом получаем, что [math] H(p_1, p_2, ..., p_n) \leqslant \log_2n [/math]
[math]\triangleleft[/math]

Тогда из теоремы и доказанной выше леммы следует, что для n исходов энтропия максимальна, если они все равновероятны.

Условная и взаимная энтропия

Литература

  • И.В. Романовский "Дискретный анализ"