Энтропия случайного источника — различия между версиями
Kowalski (обсуждение | вклад) м |
м (rollbackEdits.php mass rollback) |
||
(не показано 12 промежуточных версий 5 участников) | |||
Строка 10: | Строка 10: | ||
'''Энтропия должна удовлетворять следующим требованиям:''' | '''Энтропия должна удовлетворять следующим требованиям:''' | ||
− | * Функция <tex>H(p_1, p_2, | + | * Функция <tex>H(p_1, p_2, \dots, p_n)</tex> определена и непрерывна для всех таких наборов <tex>p_i\in[0,\;1]</tex>, что <tex> \sum\limits_{i = 1}^{n} p_i = 1</tex> |
− | * <tex dpi ="130">H | + | * <tex dpi ="130">H \underbrace{ \left( \dfrac{1}{n}, \dfrac{1}{n}, \dots, \dfrac{1}{n} \right)}_\text{n} < H \underbrace{ \left( \dfrac{1}{n+1}, \dfrac{1}{n+1}, \dots, \dfrac{1}{n+1} \right) }_\text{n+1}</tex> |
− | * <tex dpi ="130"> H(p_{1}q_{11}, p_{1}q_{12}, | + | * <tex dpi ="130"> H(p_{1}q_{11}, p_{1}q_{12}, \dots, p_{n}q_{nk_n}) = H(p_1, p_2, \dots, p_n) + \sum\limits_{i=1}^{n} p_iH(q_{i1}, \dots, q_{ik_i})</tex> |
<tex>\rhd</tex> | <tex>\rhd</tex> | ||
− | Рассмотрим схему <tex>\mathcal{P}_m</tex> c <tex>m</tex> исходами и вероятностями <tex>\{p_1, p_2, | + | Рассмотрим схему <tex>\mathcal{P}_m</tex> c <tex>m</tex> исходами и вероятностями <tex>\{p_1, p_2, \dots, p_m\}</tex> и схему <tex>\mathcal{R}_k</tex> с <tex>k</tex> исходами и вероятностями <tex>\{q_1, q_2, \dots, q_k\}</tex>. |
Образуем комбинированную схему c <tex>m + k - 1</tex> исходами следующим образом: | Образуем комбинированную схему c <tex>m + k - 1</tex> исходами следующим образом: | ||
Строка 23: | Строка 23: | ||
Выбирается случайным образом один из исходов схемы <tex>\mathcal{P}_m</tex>, и если произошел <tex>m</tex>-й исход, выбирается случайно один из исходов схемы <tex>\mathcal{R}_k</tex>, а остальные <tex>m - 1</tex> исходов схемы <tex>\mathcal{P}_m</tex> считаются окончательными. | Выбирается случайным образом один из исходов схемы <tex>\mathcal{P}_m</tex>, и если произошел <tex>m</tex>-й исход, выбирается случайно один из исходов схемы <tex>\mathcal{R}_k</tex>, а остальные <tex>m - 1</tex> исходов схемы <tex>\mathcal{P}_m</tex> считаются окончательными. | ||
− | В этой комбинированной схеме <tex>\mathcal{PR}</tex> мы получаем исходы <tex>1, 2, | + | В этой комбинированной схеме <tex>\mathcal{PR}</tex> мы получаем исходы <tex>1, 2, \dots, m - 1, (m, 1), (m, 2), \dots, (m, k)</tex> с вероятностями <tex>p_1, p_2, \dots, p_{m-1}, p_mq_1, p_mq_2, \dots, p_mq_k</tex> |
Легко видеть, что <tex>H(\mathcal{PR}) = H(\mathcal{P}_m) + p_mH(\mathcal{R}_k)</tex>. | Легко видеть, что <tex>H(\mathcal{PR}) = H(\mathcal{P}_m) + p_mH(\mathcal{R}_k)</tex>. | ||
Строка 34: | Строка 34: | ||
Для доказательства формулы вычисления энтропии сначала докажем лемму. | Для доказательства формулы вычисления энтропии сначала докажем лемму. | ||
{{Лемма | {{Лемма | ||
− | |statement = <tex dpi="140">g(n) = H(\dfrac{1}{n}, \dfrac{1}{n}, | + | |statement = <tex dpi="140">g(n) = H(\dfrac{1}{n}, \dfrac{1}{n}, \dots, \dfrac{1}{n}) = -k \log_2 \dfrac{1}{n} = k \log_2n</tex> |
|proof = | |proof = | ||
Будем рассматривать для <tex>k=1</tex> (бит). | Будем рассматривать для <tex>k=1</tex> (бит). | ||
Строка 59: | Строка 59: | ||
{{Теорема | {{Теорема | ||
− | |statement= <tex dpi="140">H(p_1, p_2, | + | |statement= <tex dpi="140">H(p_1, p_2, \dots, p_n) = -k \sum\limits_{i=1}^{n} p_i\log_2p_i = k \sum\limits_{i=1}^{n} p_i\log_2\dfrac{1}{p_i}</tex> |
|proof = | |proof = | ||
− | Теперь рассмотрим функцию <tex dpi="140">H(\dfrac{a_1}{b_1}, \dfrac{a_2}{b_2}, | + | Теперь рассмотрим функцию <tex dpi="140">H(\dfrac{a_1}{b_1}, \dfrac{a_2}{b_2}, \dots, \dfrac{a_n}{b_n})</tex> |
− | Приведем дроби внутри функции к одному знаменателю, получаем: <tex dpi="140"> H(\dfrac{a_1}{b_1}, \dfrac{a_2}{b_2}, | + | Приведем дроби внутри функции к одному знаменателю, получаем: <tex dpi="140"> H(\dfrac{a_1}{b_1}, \dfrac{a_2}{b_2}, \dots, \dfrac{a_n}{b_n}) = H(\dfrac{x_1}{b}, \dfrac{x_2}{b}, \dots, \dfrac{x_n}{b})</tex> |
Далее по свойству энтропии и доказанной лемме: | Далее по свойству энтропии и доказанной лемме: | ||
− | : <tex dpi="140">g(b)= H(\dfrac{x_1}{b}, \dfrac{x_2}{b}, | + | : <tex dpi="140">g(b)= H(\dfrac{x_1}{b}, \dfrac{x_2}{b}, \dots, \dfrac{x_n}{b}) + \sum\limits_{i=1}^{n} \dfrac{x_i}{b} g(x_i)</tex> |
− | : <tex dpi="140">H(\dfrac{x_1}{b}, \dfrac{x_2}{b}, | + | : <tex dpi="140">H(\dfrac{x_1}{b}, \dfrac{x_2}{b}, \dots, \dfrac{x_n}{b}) = \log_2b - \sum\limits_{i=1}^{n} \dfrac{x_i}{b} \log_2x_i = -\sum\limits_{i=1}^{n} \dfrac{x_i}{b} \log_2 \dfrac{x_i}{b}</tex> |
− | При <tex dpi="140"> p_i = \dfrac{x_i}{b} </tex> получаем, что <tex dpi="140">H(p_1, p_2, | + | При <tex dpi="140"> p_i = \dfrac{x_i}{b} </tex> получаем, что <tex dpi="140">H(p_1, p_2, \dots, p_n) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = \sum\limits_{i=1}^{n} p_i \log_2 \dfrac{1}{p_i}</tex> |
}} | }} | ||
== Примеры == | == Примеры == | ||
− | + | === Энтропия честной монеты === | |
Рассмотрим [[Вероятностное пространство, элементарный исход, событие|вероятностное пространство]] {{---}} честная монета. | Рассмотрим [[Вероятностное пространство, элементарный исход, событие|вероятностное пространство]] {{---}} честная монета. | ||
Найдем для нее энтропию: | Найдем для нее энтропию: | ||
− | :<tex dpi="140">H(X) = -\sum\limits_{i=1}^{n} | + | :<tex dpi="140">H(X) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = -\sum\limits_{i=1}^{2} {\dfrac{1}{2} \cdot \log_2 \dfrac{1}{2}} = -\sum\limits_{i=1}^{2} {\dfrac{1}{2} \cdot (-1)} = 1</tex> |
− | Это означает что после броска честной монеты мы получим информацию в размере 1 бит, уменьшив степень неопределенности вдвое | + | Это означает что после броска честной монеты мы получим информацию в размере <tex>1</tex> бит, уменьшив степень неопределенности вдвое. |
− | + | ||
− | :<tex dpi="140">H(X) = -\sum\limits_{i=1}^{n} | + | === Энтропия нечестной монеты === |
+ | Найдем энтропию для [[Вероятностное пространство, элементарный исход, событие|вероятностного пространства]] нечестная монета с [[Схема Бернулли| распределением Бернулли]] <tex>\{0,2; 0,8\}</tex>: | ||
+ | :<tex dpi="140">H(X) = -\sum\limits_{i=1}^{n} p_i \log_2p_i = -0.2\log_2(0.2)-0.8\log_2(0.8) \approx 0.722 < 1 </tex> | ||
== Ограниченность энтропии == | == Ограниченность энтропии == | ||
{{Теорема | {{Теорема | ||
− | |statement= <tex>0 \leqslant H(p_1, p_2, | + | |statement= <tex>0 \leqslant H(p_1, p_2, \dots, p_n) \leqslant \log_2n </tex> |
|proof = | |proof = | ||
1) Докажем первую часть неравенства: | 1) Докажем первую часть неравенства: | ||
− | Так как <tex> p_i\in[0,\;1]</tex>, тогда <tex dpi="140">\log_2\dfrac{1}{p_i} \geqslant 0 </tex>. Таким образом <tex dpi="140"> H(p_1, p_2, | + | Так как <tex> p_i\in[0,\;1]</tex>, тогда <tex dpi="140">\log_2\dfrac{1}{p_i} \geqslant 0 </tex>. Таким образом <tex dpi="140"> H(p_1, p_2, \dots, p_n) = \sum\limits_{i=1}^{n} p_i\log_2 \dfrac{1}{p_i} \geqslant 0 </tex> |
2) Докажем вторую часть неравенства: | 2) Докажем вторую часть неравенства: | ||
Строка 95: | Строка 97: | ||
<tex dpi="140"> f(x)=\log_2x </tex> {{---}} выпуклая вверх функция, <tex> p_1,p_2,\ldots,p_n>0</tex> и <tex> \sum \limits_{i=1}^{n} p_i = 1 </tex>, тогда для нее выполняется неравенство Йенсена: | <tex dpi="140"> f(x)=\log_2x </tex> {{---}} выпуклая вверх функция, <tex> p_1,p_2,\ldots,p_n>0</tex> и <tex> \sum \limits_{i=1}^{n} p_i = 1 </tex>, тогда для нее выполняется неравенство Йенсена: | ||
<tex dpi="140"> \sum\limits_{i=1}^{n} p_i f(\dfrac{1}{p_i}) \leqslant f(\sum\limits_{i=1}^{n} (p_i \cdot\dfrac{1}{p_i})) </tex> | <tex dpi="140"> \sum\limits_{i=1}^{n} p_i f(\dfrac{1}{p_i}) \leqslant f(\sum\limits_{i=1}^{n} (p_i \cdot\dfrac{1}{p_i})) </tex> | ||
− | Таким образом получаем, что <tex> H(p_1, p_2, | + | Таким образом получаем, что <tex> H(p_1, p_2, \dots, p_n) \leqslant \log_2n </tex> |
}} | }} | ||
Тогда из теоремы и доказанной выше леммы следует, что для n исходов энтропия максимальна, если они все равновероятны. | Тогда из теоремы и доказанной выше леммы следует, что для n исходов энтропия максимальна, если они все равновероятны. | ||
Строка 104: | Строка 106: | ||
<tex>H(A|B)= - \sum\limits_{i=1}^{m}p(b_i)\sum\limits_{j=1}^{n} p(a_j|b_i)\log_2p(a_j|b_i) </tex> | <tex>H(A|B)= - \sum\limits_{i=1}^{m}p(b_i)\sum\limits_{j=1}^{n} p(a_j|b_i)\log_2p(a_j|b_i) </tex> | ||
{{Определение | {{Определение | ||
− | |definition = '''Взаимная энтропия''' (англ. ''joint entropy'') {{---}} энтропия объединения двух событий A и B. | + | |definition = '''Взаимная энтропия''' (англ. ''joint entropy'') {{---}} энтропия объединения двух событий <tex>A</tex> и <tex>B</tex>. |
}} | }} | ||
<tex> H(A \cap B) = -\sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} p(a_j \cap b_i)\log_2p(a_j \cap b_i) </tex> | <tex> H(A \cap B) = -\sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} p(a_j \cap b_i)\log_2p(a_j \cap b_i) </tex> | ||
Строка 126: | Строка 128: | ||
*[[Вероятностное пространство, элементарный исход, событие|Вероятностное пространство, элементарный исход, событие]] | *[[Вероятностное пространство, элементарный исход, событие|Вероятностное пространство, элементарный исход, событие]] | ||
*[[Условная вероятность|Условная вероятность]] | *[[Условная вероятность|Условная вероятность]] | ||
+ | *[[Арифметическое кодирование|Арифметическое кодирование]] | ||
== Источники информации == | == Источники информации == |
Текущая версия на 19:28, 4 сентября 2022
Определение
Определение: |
Энтропия случайного источника (англ. Shannon entropy) — функция от вероятностей исходов: | , характеризующая количество информации, приходящейся на одно сообщение источника.
Свойства
Энтропия должна удовлетворять следующим требованиям:
- Функция определена и непрерывна для всех таких наборов , что
Рассмотрим схему
c исходами и вероятностями и схему с исходами и вероятностями .Образуем комбинированную схему c
исходами следующим образом:Выбирается случайным образом один из исходов схемы
, и если произошел -й исход, выбирается случайно один из исходов схемы , а остальные исходов схемы считаются окончательными.В этой комбинированной схеме
мы получаем исходы с вероятностямиЛегко видеть, что
.Потребуем выполнения этого свойства для любой меры неопределенности.
Вычисление энтропии
Для доказательства формулы вычисления энтропии сначала докажем лемму.
Лемма: |
Доказательство: |
Будем рассматривать для (бит).Рассмотрим функцию :Пусть: , тогда иРассмотрим такое , чтоМожно заметить, что если , то неравенство останется верным.По предыдущим рассуждениям получаем, что: Делим неравенство на :
|
Теорема: |
Доказательство: |
Теперь рассмотрим функцию Приведем дроби внутри функции к одному знаменателю, получаем: Далее по свойству энтропии и доказанной лемме: |
Примеры
Энтропия честной монеты
Рассмотрим вероятностное пространство — честная монета. Найдем для нее энтропию:
Это означает что после броска честной монеты мы получим информацию в размере
бит, уменьшив степень неопределенности вдвое.Энтропия нечестной монеты
Найдем энтропию для вероятностного пространства нечестная монета с распределением Бернулли :
Ограниченность энтропии
Теорема: |
Доказательство: |
1) Докажем первую часть неравенства: Так как , тогда . Таким образом2) Докажем вторую часть неравенства: Таким образом получаем, что — выпуклая вверх функция, и , тогда для нее выполняется неравенство Йенсена: |
Тогда из теоремы и доказанной выше леммы следует, что для n исходов энтропия максимальна, если они все равновероятны.
Условная и взаимная энтропия
Определение: |
Условная энтропия (англ. conditional entropy) — определяет количество остающейся энтропии (то есть, остающейся неопределенности) события | после того, как становится известным результат события . Она называется энтропия при условии , и обозначается
Определение: |
Взаимная энтропия (англ. joint entropy) — энтропия объединения двух событий | и .
Утверждение: |
По формуле условной вероятности
Таким образом получаем, что: Аналогично: Из двух полученных равенств следует, что |
См. также
Источники информации
- И.В. Романовский "Дискретный анализ"
- Википедия — Информационная энтропия
- Wkipedia — Entropy(information_theory)