Формула Байеса
Содержание
Формула Байеса
По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
Определение: |
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — формула теории вероятностей, которая позволяет определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие. |
Формулировка
- ,
где
- — вероятность события A;
- — вероятность события A при наступлении события B;
- — вероятность наступления события B при истинности события A;
- — вероятность наступления события B.
Доказательство
Примеры
Определение вероятности заболевания
Пусть событие А истинно, если анализ на грипп положительный, событие B1 отвечает за грипп, B2 отвечает за другую болезнь. Также предположим, что:
Рассмотрим вероятность гриппа при положительном анализе:
Парадокс теоремы Байеса
При рентгеновском обследовании вероятность обнаружить заболевание N у больного равна
, вероятность принять здорового человека за больного равна . Доля больных по отношению ко всему населению равна . Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:Вычислим сначала полную вероятность признания больным:
Вероятность «здоров» при диагнозе «болен»:
Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь N — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
Метод фильтрации спама
Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова экспериментально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.
Пример. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.Примечания
См. также
Источники информации
- Википедия — Теорема Байеса
- Wikipedia — Bayes' theorem
- Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005