Формула Байеса — различия между версиями
LazyGod (обсуждение | вклад) (→Метод фильтрации спама) |
Mervap (обсуждение | вклад) м (Fix ticket) |
||
Строка 4: | Строка 4: | ||
==Теорема== | ==Теорема== | ||
{{Определение | {{Определение | ||
− | |definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие <tex>A</tex> является результатом <tex>X</tex> ряда независимых друг от друга событий <tex>B_1,B_2 | + | |definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие <tex>A</tex> является результатом <tex>X</tex> ряда независимых друг от друга событий <tex>B_1,B_2 \ldots B_n</tex>, который, возможно, привел к <tex>A</tex>. |
}} | }} | ||
{{Теорема | {{Теорема | ||
Строка 10: | Строка 10: | ||
формула Байеса | формула Байеса | ||
| statement = | | statement = | ||
− | <tex>P(B_i|A)=\ | + | <tex>P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>, |
где | где | ||
: <tex>P(A)</tex> — вероятность события <tex>A</tex>, | : <tex>P(A)</tex> — вероятность события <tex>A</tex>, | ||
Строка 23: | Строка 23: | ||
: <tex>P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex> | : <tex>P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex> | ||
Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то | Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то | ||
− | : <tex>P(B_i|A)=\ | + | : <tex>P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex> |
Строка 32: | Строка 32: | ||
===Определение вероятности заболевания=== | ===Определение вероятности заболевания=== | ||
− | Пусть событие <tex>A</tex> наступило в результате осуществления одной из гипотез <tex>B_1,B_2 | + | Пусть событие <tex>A</tex> наступило в результате осуществления одной из гипотез <tex>B_1,B_2 \ldots B_n</tex>. Как определить вероятность того, что имела место та или иная гипотеза? |
Вероятность заразиться гриппом <tex>0.01</tex>. После проведения анализа вероятность, что это грипп <tex>0.9</tex>, другая болезнь <tex>0.001</tex>. | Вероятность заразиться гриппом <tex>0.01</tex>. После проведения анализа вероятность, что это грипп <tex>0.9</tex>, другая болезнь <tex>0.001</tex>. | ||
Событие <tex>A</tex> истинно, если анализ на грипп положительный, событие <tex>B_1</tex> отвечает за грипп, <tex>B_2</tex> отвечает за другую болезнь. | Событие <tex>A</tex> истинно, если анализ на грипп положительный, событие <tex>B_1</tex> отвечает за грипп, <tex>B_2</tex> отвечает за другую болезнь. | ||
Строка 42: | Строка 42: | ||
Рассмотрим вероятность гриппа при положительном анализе: | Рассмотрим вероятность гриппа при положительном анализе: | ||
− | <tex>P(B_1|A)=\ | + | <tex>P(B_1|A)=\dfrac{P(B_1 \cap A)}{P(A)}=\dfrac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\dfrac{100}{111}</tex> |
===Парадокс теоремы Байеса=== | ===Парадокс теоремы Байеса=== | ||
− | При рентгеновском обследовании вероятность обнаружить заболевание | + | При рентгеновском обследовании вероятность обнаружить заболевание <tex>N</tex> у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. |
Предположим, что: | Предположим, что: | ||
: <tex>P(B_1|B)=0.95</tex>, | : <tex>P(B_1|B)=0.95</tex>, | ||
Строка 56: | Строка 56: | ||
Вероятность «здоров» при диагнозе «болен»: | Вероятность «здоров» при диагнозе «болен»: | ||
− | <tex> | + | <tex>P(A|B_1) = \dfrac{0.99 \cdot 0.05}{0.99 \cdot 0.05 + 0.01 \cdot 0.95}= 0.839</tex> |
− | Таким образом, 83. | + | Таким образом, <tex>83.9\%</tex> людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь <tex>N</tex> — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование. |
===Метод фильтрации спама=== | ===Метод фильтрации спама=== |
Версия 22:29, 4 марта 2018
По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
Содержание
Теорема
Определение: |
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие | является результатом ряда независимых друг от друга событий , который, возможно, привел к .
Теорема (формула Байеса): |
где
|
Доказательство: |
Из замечания определения условной вероятности следует, что вероятность произведения двух событий равна: По формуле полной вероятности: Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то |
Примеры
Определение вероятности заболевания
Пусть событие
наступило в результате осуществления одной из гипотез . Как определить вероятность того, что имела место та или иная гипотеза? Вероятность заразиться гриппом . После проведения анализа вероятность, что это грипп , другая болезнь . Событие истинно, если анализ на грипп положительный, событие отвечает за грипп, отвечает за другую болезнь. Также предположим, что:- , — априорные (оцененные до испытания) вероятности.
- , — апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » — с учётом того факта, что событие достоверно произошло.
Рассмотрим вероятность гриппа при положительном анализе:
Парадокс теоремы Байеса
При рентгеновском обследовании вероятность обнаружить заболевание
у больного равна , вероятность принять здорового человека за больного равна . Доля больных по отношению ко всему населению равна . Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:- ,
- ,
- ,
- .
Вычислим сначала полную вероятность признания больным:
Вероятность «здоров» при диагнозе «болен»:
Таким образом,
людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.Метод фильтрации спама
Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте. Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.
См. также
Примечания
Источники информации
- Википедия — Теорема Байеса
- Wikipedia — Bayes' theorem
- Scheg12g — Наглядное объяснение теоремы Байеса
- Habrahabr — Теорема Байеса и наивный байесовский классификатор
- Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005 — 52 с.