Формула Байеса — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м
м
Строка 1: Строка 1:
{{Определение
 
|definition=
 
'''Формула Байеса (Bayes' law)''' позволяет определить вероятность события, имея лишь вероятности событий, взаимозависимых с ним.
 
}}
 
 
== Формулировка ==
 
== Формулировка ==
 
:<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>,
 
:<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>,
Строка 17: Строка 13:
 
: <tex>\Rightarrow P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>
 
: <tex>\Rightarrow P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>
  
== Пример ==
+
== Примеры ==
 +
 
 +
===Определение вероятности заболевания===
 +
 
 
Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь.
 
Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь.
 
Также предположим, что:
 
Также предположим, что:
Строка 29: Строка 28:
 
<tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex>
 
<tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex>
  
==Метод фильтрации спама==
+
===Метод фильтрации спама===
 
При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.''
 
При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.''
  
Строка 35: Строка 34:
  
 
== См. также ==
 
== См. также ==
*[http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0 http://ru.wikipedia.org/wiki/Теорема_Байеса]
+
*[http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0 Википедия {{---}} Теорема Байеса]
 +
*[http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia {{---}} Bayes' theorem]
  
 
[[Категория:Дискретная математика и алгоритмы]]
 
[[Категория:Дискретная математика и алгоритмы]]
  
 
[[Категория: Теория вероятности ]]
 
[[Категория: Теория вероятности ]]

Версия 15:22, 7 января 2014

Формулировка

[math]P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}[/math],

где

[math]P(A)[/math] — вероятность события A;
[math]P(A|B)[/math] — вероятность события A при наступлении события B;
[math]P(B|A)[/math] — вероятность наступления события B при истинности события A;
[math]P(B)[/math] — вероятность наступления события B.

Доказательство

[math]P(B|A) = \frac{P(B \cap A)}{P(A)}[/math]
[math]P(B \cap A)=P(A \cap B)=P(A|B)P(B)[/math]
[math]P(A)=\sum_{j=1}^N P(A|B_j)P(B_j)[/math] (по формуле полной вероятности)
[math]\Rightarrow P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}[/math]

Примеры

Определение вероятности заболевания

Пусть событие А истинно, если анализ на грипп положительный, событие B1 отвечает за грипп, B2 отвечает за другую болезнь. Также предположим, что:

[math]P(A|B_1)[/math]=0,9,
[math]P(A|B_2)[/math]=0,001,
[math]P(B_1)[/math]=0,01,
[math]P(B_2)[/math]=0,99.

Рассмотрим вероятность гриппа при положительном анализе:

[math]P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}[/math]

Метод фильтрации спама

При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.

Пример. Если 80% писем, содержащих фразу [math]"[/math]Привет :) Как дела?)[math]"[/math], являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.

См. также