Формула Байеса
Определение: |
Формула Байеса — одна из основных формул элементарной теории вероятностей, которая позволяет определить вероятность того, что произошло какое-либо событие, имея на руках лишь косвенные тому подтверждения, которые могут быть неточны. |
Формулировка
- ,
где
- — вероятность события A;
- — вероятность события A при наступлении события B;
- — вероятность наступления события B при истинности события A;
- — вероятность наступления события B.
Доказательство
Пример
Пусть событие А истинно, если анализ на грипп положительный, событие B1 отвечает за грипп, B2 отвечает за другую болезнь. Также предположим, что:
- =0,9,
- =0,001,
- =0,01,
- =0,99.
Рассмотрим вероятность гриппа при положительном анализе:
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.
Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие — в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен.
Замечание. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.