Формула Байеса — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м (Определение вероятности заболевания)
Строка 1: Строка 1:
== Формула Байеса ==
+
По '''формуле Байеса''' можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений.
По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений.
 
 
Формула Байеса позволяет '''«переставить причину и следствие»''': по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.
 
Формула Байеса позволяет '''«переставить причину и следствие»''': по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.
 
События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
 
События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
 +
==Теорема==
 
{{Определение
 
{{Определение
|definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} формула, позволяющая определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие.
+
|definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие <tex>A</tex> является результатом <tex>X</tex> ряда независимых друг от друга событий <tex>B_1,B_2...B_n</tex>, который, возможно, привел к <tex>A</tex>.
 
}}
 
}}
 
+
{{Теорема
== Формулировка ==
+
| about =  
:<tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>,
+
формула Байеса
 +
| statement =  
 +
<tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>,
 
где
 
где
 
: <tex>P(A)</tex> — вероятность события <tex>A</tex>,
 
: <tex>P(A)</tex> — вероятность события <tex>A</tex>,
Строка 14: Строка 16:
 
: <tex>P(B|A)</tex> — вероятность наступления события <tex>B</tex> при истинности события <tex>A</tex>,
 
: <tex>P(B|A)</tex> — вероятность наступления события <tex>B</tex> при истинности события <tex>A</tex>,
 
: <tex>P(B)</tex> — вероятность наступления события <tex>B</tex>.
 
: <tex>P(B)</tex> — вероятность наступления события <tex>B</tex>.
 +
| proof =
  
== Доказательство ==
+
Из замечания определения [[Условная вероятность|условной вероятности]] следует, что вероятность произведения двух событий равна:
Формула Байеса вытекает из определения [[Условная вероятность|условной вероятности]].
 
 
: <tex>P(B \cap A)=P(A \cap B)=P(A|B)P(B)</tex>
 
: <tex>P(B \cap A)=P(A \cap B)=P(A|B)P(B)</tex>
: <tex>P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex> (по [[Формула полной вероятности|формуле полной вероятности]])
+
По [[Формула полной вероятности|формуле полной вероятности]]:
 +
: <tex>P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex>  
 
Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то
 
Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то
 
: <tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>
 
: <tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>
 +
 +
 +
}}
  
 
== Примеры ==
 
== Примеры ==
Строка 55: Строка 61:
  
 
===Метод фильтрации спама===
 
===Метод фильтрации спама===
Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса.
+
Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf К.В.Воронцов {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса.
Допустим, у нас есть набор писем: спам и не спам. Считаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте.Аналогично для слов из не спама. Считаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.
+
Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте.Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.
  
  
Строка 72: Строка 78:
 
*[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Scheg12g {{---}} Наглядное объяснение теоремы Байеса]
 
*[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Scheg12g {{---}} Наглядное объяснение теоремы Байеса]
 
*[http://habrahabr.ru/company/surfingbird/blog/150207/ Habrahabr {{---}} Теорема Байеса и наивный байесовский классификатор]
 
*[http://habrahabr.ru/company/surfingbird/blog/150207/ Habrahabr {{---}} Теорема Байеса и наивный байесовский классификатор]
* Гмурман В. Е. Теория вероятностей и математическая статистика, {{---}} М.: Высшее образование. 2005
+
* Гмурман В. Е. Теория вероятностей и математическая статистика, {{---}} М.: Высшее образование. 2005 {{---}} 52 с.
  
  

Версия 19:23, 15 января 2015

По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.

Теорема

Определение:
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие [math]A[/math] является результатом [math]X[/math] ряда независимых друг от друга событий [math]B_1,B_2...B_n[/math], который, возможно, привел к [math]A[/math].
Теорема (формула Байеса):
[math]P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}[/math],

где

[math]P(A)[/math] — вероятность события [math]A[/math],
[math]P(A|B)[/math] — вероятность события [math]A[/math] при наступлении события [math]B[/math],
[math]P(B|A)[/math] — вероятность наступления события [math]B[/math] при истинности события [math]A[/math],
[math]P(B)[/math] — вероятность наступления события [math]B[/math].
Доказательство:
[math]\triangleright[/math]

Из замечания определения условной вероятности следует, что вероятность произведения двух событий равна:

[math]P(B \cap A)=P(A \cap B)=P(A|B)P(B)[/math]

По формуле полной вероятности:

[math]P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)[/math]

Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то

[math]P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}[/math]
[math]\triangleleft[/math]

Примеры

Определение вероятности заболевания

Пусть событие [math]A[/math] наступило в результате осуществления одной из гипотез [math]B_1,B_2...B_n[/math] . Как определить вероятность того, что имела место та или иная гипотеза? Вероятность заразиться гриппом [math]0.01[/math]. После проведения анализа вероятность, что это грипп [math]0.9[/math], другая болезнь [math]0.001[/math]. Событие [math]A[/math] истинно, если анализ на грипп положительный, событие [math]B_1[/math] отвечает за грипп, [math]B_2[/math] отвечает за другую болезнь. Также предположим, что:

[math]P(B_1)=0.01[/math], [math]P(B_2)=0.99[/math]априорные (оцененные до испытания) вероятности.
[math]P(A|B_1)=0.9[/math], [math]P(A|B_2)=0.001[/math]апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » — с учётом того факта, что событие достоверно произошло.

Рассмотрим вероятность гриппа при положительном анализе:

[math]P(B_1|A)=\genfrac{}{}{}{0}{P(B_1 \cap A)}{P(A)}=\genfrac{}{}{}{0}{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\genfrac{}{}{}{0}{100}{111}[/math]

Парадокс теоремы Байеса

При рентгеновском обследовании вероятность обнаружить заболевание N у больного равна [math]0.95[/math], вероятность принять здорового человека за больного равна [math]0.05[/math]. Доля больных по отношению ко всему населению равна [math]0.01[/math]. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:

[math]P(B_1|B)=0.95[/math],
[math]P(B_1|A)=0.05[/math],
[math]P(B)=0.01[/math],
[math]P(A)=0.99[/math].

Вычислим сначала полную вероятность признания больным: [math]0.99 \cdot 0.05 + 0.01 \cdot 0.95 =0.059[/math]

Вероятность «здоров» при диагнозе «болен»: [math]Р (A|B_1) = \genfrac{}{}{}{0}{0.99 \cdot 0.05}{0.99 \cdot 0.05 + 0.01 \cdot 0.95}= 0.839[/math]

Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь N — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.

Метод фильтрации спама

Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте.Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.


См. также

Примечания

Источники информации