Формула Байеса

Материал из Викиконспекты
Версия от 19:05, 4 сентября 2022; Maintenance script (обсуждение | вклад) (rollbackEdits.php mass rollback)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.

Теорема

Определение:
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие A является результатом X ряда независимых друг от друга событий B1,B2Bn, который, возможно, привел к A.
Теорема (формула Байеса):
P(Bi|A)=P(A|Bi)P(Bi)Nj=1P(A|Bj)P(Bj),

где

P(A) — вероятность события A,
P(A|B) — вероятность события A при наступлении события B,
P(B|A) — вероятность наступления события B при истинности события A,
P(B) — вероятность наступления события B.
Доказательство:

Из замечания определения условной вероятности следует, что вероятность произведения двух событий равна:

P(BA)=P(AB)=P(A|B)P(B)

По формуле полной вероятности:

P(A)=Nj=1P(A|Bj)P(Bj)

Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то

P(Bi|A)=P(A|Bi)P(Bi)Nj=1P(A|Bj)P(Bj)

Примеры

Определение вероятности заболевания

Пусть событие A наступило в результате осуществления одной из гипотез B1,B2Bn. Как определить вероятность того, что имела место та или иная гипотеза? Вероятность заразиться гриппом 0.01. После проведения анализа вероятность, что это грипп 0.9, другая болезнь 0.001. Событие A истинно, если анализ на грипп положительный, событие B1 отвечает за грипп, B2 отвечает за другую болезнь. Также предположим, что:

P(B1)=0.01, P(B2)=0.99априорные (оцененные до испытания) вероятности.
P(A|B1)=0.9, P(A|B2)=0.001апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » — с учётом того факта, что событие достоверно произошло.

Рассмотрим вероятность гриппа при положительном анализе:

P(B1|A)=P(B1A)P(A)=P(A|B1)P(B1)P(A|B1)P(B1)+P(A|B2)P(B2)=100111

Парадокс теоремы Байеса

При рентгеновском обследовании вероятность обнаружить заболевание N у больного равна 0.95, вероятность принять здорового человека за больного равна 0.05. Доля больных по отношению ко всему населению равна 0.01. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:

P(B1|B)=0.95,
P(B1|A)=0.05,
P(B)=0.01,
P(A)=0.99.

Вычислим сначала полную вероятность признания больным: 0.990.05+0.010.95=0.059

Вероятность «здоров» при диагнозе «болен»: P(A|B1)=0.990.050.990.05+0.010.95=0.839

Таким образом, 83.9% людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь N — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.

Метод фильтрации спама

Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте. Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.

См. также

Примечания

Источники информации