Энтропия случайного источника

Материал из Викиконспекты
Перейти к: навигация, поиск

Определение

Определение:
Энтропия случайного источника — функция от вероятностей исходов: [math]H: \bigcup\limits_{i=1}^{\infty} \mathbb{R}^i \rightarrow \mathbb{R} [/math], характеризующая количество информации, приходящейся на одно сообщение источника.


Свойства

Энтропия должна удовлетворять следующим требованиям:

  • Функция [math]H(p_1, p_2, ..., p_n)[/math] непрерывна.
  • [math]H(\underbrace{\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}}_\text{n}) \lt H(\underbrace{\frac{1}{n+1}, \frac{1}{n+1}, ..., \frac{1}{n+1}}_\text{n+1})[/math]
  • [math]H(p_{1}q_{11}, p_{1}q_{12}, ..., p_{n}q_{nk_n}) = H(p_1, p_2, ..., p_n) + \sum\limits_{i=1}^{n} p_iH(q_{i1}, ..., q_{ik_i})[/math]
[math]\rhd[/math]
Рассмотрим схему [math]\mathcal{P}_m[/math] c [math]m[/math] исходами и вероятностями [math]\{p_1, p_2, ..., p_m\}[/math] и схему [math]\mathcal{R}_k[/math] с [math]k[/math] исходами и вероятностями [math]\{q_1, q_2, ..., q_k\}[/math].
Образуем комбинированную схему c [math]m + k - 1[/math] исходами следующим образом:
выбирается случайным образом один из исходов схемы [math]\mathcal{P}_m[/math], и если произошел [math]m[/math]-й исход, выбирается случайно один из исходов схемы [math]\mathcal{R}_k[/math], а остальные [math]m - 1[/math] исходов схемы [math]\mathcal{P}_m[/math] считаются окончательными.
В этой комбинированной схеме [math]\mathcal{PR}[/math] мы получаем исходы
[math]1, 2, ..., m - 1, (m, 1), (m, 2), ..., (m, k)[/math]
с вероятностями
[math]p_1, p_2, ..., p_{m-1}, p_mq_1, p_mq_2, ..., p_mq_k[/math]
Легко видеть, что [math]H(\mathcal{PR}) = H(\mathcal{P}_m) + p_mH(\mathcal{R}_k)[/math].
Потребуем выполнения этого свойства для любой меры неопределенности.
[math]\lhd[/math]
  • [math]H(\{\frac{1}{2}, \frac{1}{2}\}) = 1 [/math]

Вычисление энтропии

Теорема:
[math]H(p_1, p_2, ..., p_n) = -k \sum\limits_{i=1}^{n} p_i\log_2p_i [/math]
Доказательство:
[math]\triangleright[/math]

Для доказательства теоремы сначала докажем лемму.

Лемма:
[math]g(n) = H(\frac{1}{n}, \frac{1}{n}, ..., \frac{1}{n}) = -k \log_2 \frac{1}{n}[/math]
Доказательство:
[math]\triangleright[/math]

Будем рассматривать для [math]k=1[/math] (бит).

Рассмотрим функцию [math]g(mn)[/math]:

[math]g(mn)=g(m)+ \sum\limits_{i=1}^{m} \frac{1}{m} g(n) = g(m)+g(n)[/math]

Заметим, что:

[math]g(2)=1 \quad g(2^t)=t[/math]

Аналогично:

[math]g(n) = \log_2(n) \quad \quad g(n^t)=t \cdot g(n)[/math]


[math]2^i \leq n^t \lt 2^{i+1}[/math]


По предыдущим рассуждениям

[math]g(2^i) \leq g(n^t) \lt g(2^{i+1})[/math]


[math] i \leq t \cdot g(n) \lt i+1 \quad \quad i=\lfloor \log_2 n^t\rfloor [/math]


Разделив на [math]t[/math] получаем

[math]\frac{i}{t} \leq g(n) \lt \frac{i+1}{t}[/math]


Отсюда ясно, что если

[math] t\rightarrow \infty[/math]

то получаем

[math]g(n) = \log_2n[/math]
[math]\triangleleft[/math]


Теперь рассмотрим функцию [math]H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n})[/math]

Приведем дроби внутри функции к одному знаменателю, получаем: [math]H(\frac{a'_1}{b}, \frac{a'_2}{b}, ..., \frac{a'_n}{b})[/math]

Далее по свойству 3:

[math]g(b)= H(\frac{a'_1}{b}, \frac{a'_2}{b}, ..., \frac{a'_n}{b}) + \sum\limits_{i=1}^{n} \frac{a'_i}{b} g(a'_i)[/math]


[math]H(\frac{a_1}{b_1}, \frac{a_2}{b_2}, ..., \frac{a_n}{b_n}) = \log_2b - \sum\limits_{i=1}^{n} \frac{a_i}{b_i} \log_2a'_i = -\sum\limits_{i=1}^{n} \frac{a_i}{b_i} \log_2 \frac{a_i}{b_i}[/math]
[math]\triangleleft[/math]

Литература

  • И.В. Романовский "Дискретный анализ"