Формула Байеса — различия между версиями
LazyGod (обсуждение | вклад) |
LazyGod (обсуждение | вклад) (→Метод фильтрации спама) |
||
Строка 62: | Строка 62: | ||
===Метод фильтрации спама=== | ===Метод фильтрации спама=== | ||
Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf К.В.Воронцов {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса. | Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf К.В.Воронцов {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса. | ||
− | Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте.Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо. | + | Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте. Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо. |
− | |||
== См. также == | == См. также == |
Версия 19:25, 15 января 2015
По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
Содержание
Теорема
Определение: |
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие | является результатом ряда независимых друг от друга событий , который, возможно, привел к .
Теорема (формула Байеса): |
где
|
Доказательство: |
Из замечания определения условной вероятности следует, что вероятность произведения двух событий равна: По формуле полной вероятности: Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то |
Примеры
Определение вероятности заболевания
Пусть событие
наступило в результате осуществления одной из гипотез . Как определить вероятность того, что имела место та или иная гипотеза? Вероятность заразиться гриппом . После проведения анализа вероятность, что это грипп , другая болезнь . Событие истинно, если анализ на грипп положительный, событие отвечает за грипп, отвечает за другую болезнь. Также предположим, что:- , — априорные (оцененные до испытания) вероятности.
- , — апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » — с учётом того факта, что событие достоверно произошло.
Рассмотрим вероятность гриппа при положительном анализе:
Парадокс теоремы Байеса
При рентгеновском обследовании вероятность обнаружить заболевание N у больного равна
, вероятность принять здорового человека за больного равна . Доля больных по отношению ко всему населению равна . Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:- ,
- ,
- ,
- .
Вычислим сначала полную вероятность признания больным:
Вероятность «здоров» при диагнозе «болен»:
Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь N — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
Метод фильтрации спама
Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте. Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.
См. также
Примечания
Источники информации
- Википедия — Теорема Байеса
- Wikipedia — Bayes' theorem
- Scheg12g — Наглядное объяснение теоремы Байеса
- Habrahabr — Теорема Байеса и наивный байесовский классификатор
- Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005 — 52 с.