Формула Байеса — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
 +
== Формула Байеса ==
 +
По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений.
 +
Формула Байеса позволяет '''«переставить причину и следствие»''': по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.
 +
События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
 +
{{Определение
 +
|definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} формула теории вероятностей, которая позволяет определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие.
 +
}}
 +
 
== Формулировка ==
 
== Формулировка ==
 
:<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>,
 
:<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>,
Строка 19: Строка 27:
 
Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь.
 
Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь.
 
Также предположим, что:
 
Также предположим, что:
: <tex>P(A|B_1)</tex>=0,9,
+
: <tex>P(A|B_1)=0.9</tex>
: <tex>P(A|B_2)</tex>=0,001,
+
: <tex>P(A|B_2)=0.001</tex>
: <tex>P(B_1)</tex>=0,01,
+
: <tex>P(B_1)=0.01</tex>
: <tex>P(B_2)</tex>=0,99.
+
: <tex>P(B_2)=0.99</tex>
  
 
Рассмотрим вероятность гриппа при положительном анализе:
 
Рассмотрим вероятность гриппа при положительном анализе:
  
 
<tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex>
 
<tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex>
 +
 +
===Парадокс теоремы Байеса===
 +
При рентгеновском обследовании вероятность обнаружить заболевание ''N'' у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании.
 +
Предположим, что:
 +
: <tex>P(B_1|B)=0.95</tex>
 +
: <tex>P(B_1|A)=0.05</tex>
 +
: <tex>P(B)=0.01</tex>
 +
: <tex>P(A)=0.99</tex>
 +
 +
Вычислим сначала полную вероятность признания больным:
 +
<tex>0.99*0.05 + 0.01*0.95 =0.059</tex>
 +
 +
Вероятность «здоров» при диагнозе «болен»:
 +
<tex>Р (A|B_1) = \frac{0.99*0.05}{0.99*0.05 + 0.01*0.95}= 83.9 %</tex>
 +
 +
Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь ''N'' — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
  
 
===Метод фильтрации спама===
 
===Метод фильтрации спама===
При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.''
+
Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://ru.wikipedia.org/wiki/Наивный_байесовский_классификатор {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса.
 +
При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова экспериментально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.''
  
 
'''Пример.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам.
 
'''Пример.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам.
  
 +
== Примечания ==
 +
<references/>
 
== См. также ==
 
== См. также ==
*[http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0 Википедия {{---}} Теорема Байеса]
+
*[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Наглядное объяснение теоремы Байеса]
*[http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia {{---}} Bayes' theorem]
+
*[http://habrahabr.ru/company/surfingbird/blog/150207/ Теорема Байеса и наивный байесовский классификатор]
 +
 
 +
== Источники информации ==
 +
* [http://ru.wikipedia.org/wiki/Теорема_Байеса Википедия Теорема Байеса]
 +
* [http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia Bayes' theorem]
 +
* Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005
 +
 
  
 
[[Категория:Дискретная математика и алгоритмы]]
 
[[Категория:Дискретная математика и алгоритмы]]
  
 
[[Категория: Теория вероятности ]]
 
[[Категория: Теория вероятности ]]

Версия 21:48, 14 января 2015

Формула Байеса

По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.

Определение:
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — формула теории вероятностей, которая позволяет определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие.


Формулировка

[math]P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}[/math],

где

[math]P(A)[/math] — вероятность события A;
[math]P(A|B)[/math] — вероятность события A при наступлении события B;
[math]P(B|A)[/math] — вероятность наступления события B при истинности события A;
[math]P(B)[/math] — вероятность наступления события B.

Доказательство

[math]P(B|A) = \frac{P(B \cap A)}{P(A)}[/math]
[math]P(B \cap A)=P(A \cap B)=P(A|B)P(B)[/math]
[math]P(A)=\sum_{j=1}^N P(A|B_j)P(B_j)[/math] (по формуле полной вероятности)
[math]\Rightarrow P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}[/math]

Примеры

Определение вероятности заболевания

Пусть событие А истинно, если анализ на грипп положительный, событие B1 отвечает за грипп, B2 отвечает за другую болезнь. Также предположим, что:

[math]P(A|B_1)=0.9[/math]
[math]P(A|B_2)=0.001[/math]
[math]P(B_1)=0.01[/math]
[math]P(B_2)=0.99[/math]

Рассмотрим вероятность гриппа при положительном анализе:

[math]P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}[/math]

Парадокс теоремы Байеса

При рентгеновском обследовании вероятность обнаружить заболевание N у больного равна [math]0.95[/math], вероятность принять здорового человека за больного равна [math]0.05[/math]. Доля больных по отношению ко всему населению равна [math]0.01[/math]. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:

[math]P(B_1|B)=0.95[/math]
[math]P(B_1|A)=0.05[/math]
[math]P(B)=0.01[/math]
[math]P(A)=0.99[/math]

Вычислим сначала полную вероятность признания больным: [math]0.99*0.05 + 0.01*0.95 =0.059[/math]

Вероятность «здоров» при диагнозе «болен»: [math]Р (A|B_1) = \frac{0.99*0.05}{0.99*0.05 + 0.01*0.95}= 83.9 %[/math]

Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь N — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.

Метод фильтрации спама

Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова экспериментально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.

Пример. Если 80% писем, содержащих фразу [math]"[/math]Привет :) Как дела?)[math]"[/math], являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.

Примечания

См. также

Источники информации