Формула Байеса — различия между версиями
Sultan (обсуждение | вклад) м |
Sultan (обсуждение | вклад) м |
||
Строка 1: | Строка 1: | ||
− | |||
− | |||
− | |||
− | |||
== Формулировка == | == Формулировка == | ||
:<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>, | :<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>, | ||
Строка 17: | Строка 13: | ||
: <tex>\Rightarrow P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex> | : <tex>\Rightarrow P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex> | ||
− | == | + | == Примеры == |
+ | |||
+ | ===Определение вероятности заболевания=== | ||
+ | |||
Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь. | Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь. | ||
Также предположим, что: | Также предположим, что: | ||
Строка 29: | Строка 28: | ||
<tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex> | <tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex> | ||
− | ==Метод фильтрации спама== | + | ===Метод фильтрации спама=== |
При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.'' | При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.'' | ||
Строка 35: | Строка 34: | ||
== См. также == | == См. также == | ||
− | *[http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0 http:// | + | *[http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0 Википедия {{---}} Теорема Байеса] |
+ | *[http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia {{---}} Bayes' theorem] | ||
[[Категория:Дискретная математика и алгоритмы]] | [[Категория:Дискретная математика и алгоритмы]] | ||
[[Категория: Теория вероятности ]] | [[Категория: Теория вероятности ]] |
Версия 15:22, 7 января 2014
Содержание
Формулировка
- ,
где
- — вероятность события A;
- — вероятность события A при наступлении события B;
- — вероятность наступления события B при истинности события A;
- — вероятность наступления события B.
Доказательство
Примеры
Определение вероятности заболевания
Пусть событие А истинно, если анализ на грипп положительный, событие B1 отвечает за грипп, B2 отвечает за другую болезнь. Также предположим, что:
- =0,9,
- =0,001,
- =0,01,
- =0,99.
Рассмотрим вероятность гриппа при положительном анализе:
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.
Пример. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.