Формула полной вероятности — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Метод фильтрации спама)
Строка 54: Строка 54:
  
 
==Метод фильтрации спама==
 
==Метод фильтрации спама==
При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} % содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовский.''
+
При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.''
  
Недостаток метода заключается в том, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. Тогда метод неэффективен, если данное предположение неверно.
+
Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен.
  
 
'''Замечание.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам.
 
'''Замечание.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам.

Версия 05:56, 6 декабря 2011

Формула полной вероятности позволяет вычислить вероятность интересующего события [math] A [/math] через вероятности его произойти при выполнении гипотез с заданной вероятностью.

Теорема

Определение:
Не более чем счётное множество событий [math] B_1, B_2, ..., B_{n} [/math], таких что:
  1. все события попарно несовместны: [math] \forall i,~j = 1, 2, ..., n~B_{i} \cap B_{j} = \varnothing [/math]
  2. их объединение образует пространство элементарных исходов: [math]P(B_{i})~\gt ~0,~B_1~\cup ~B_2~\cup ...~\cup ~B_n = \Omega [/math]

В этом случае события [math]B_i[/math] ещё называются гипотезами.

Теорема (формула полной вероятности):
Вероятность события [math] A~\subset ~\Omega [/math], которое может произойти только вместе с одним из событий [math] B_1, B_2, ..., B_{n} [/math], образующих

полную группу, равна сумме произведений вероятностей гипотез на условные вероятности события, вычисленные соотвественно при каждой из гипотез.

[math] {P}(A) = \sum\limits_{i=1}^{n} {P}( A \mid B_i) {P}(B_i) [/math]
Доказательство:
[math]\triangleright[/math]

Так как события [math]\{B_i\}_{i=1}^{n} [/math] образуют полную группу, то по определению событие [math] A [/math] можно представить следующим образом:

[math] A~=~A \cap \Omega ~=~ A \cap \big( \bigcup\limits_{i=1}^{n} B_{i} \big) ~=~ \bigcup\limits_{i=1}^{n} ( A \cap B_{i} ) [/math]

События [math]\{B_i\}_{i=1}^{n} [/math] попарно несовместны, значит и события [math] (A\cap B_{i}) [/math] тоже несовместны. Тогда после применения теоремы о сложении вероятностей несовместных событий, а также воспользовавшись определением условной вероятности, получаем:

[math] {P}(A)~=~{P}\Big( \bigcup\limits_{i=1}^{n} ( A \cap B_{i} ) \Big) ~=~ \sum\limits_{i=1}^{n} {P}(A\cap B_i) ~=~ \sum\limits_{i=1}^{n} {P}(A \mid B_i){P}(B_i) [/math]
[math]\triangleleft[/math]

Пример

Условие. Имеются 3 одинаковые урны с шарами. В первой из них 3 белых и 4 черных шара, во второй — 2 белых и 5 чёрных, а в третьей — 10 чёрных шаров. Из случайно выбранной урны наудачу вынут шар. С какой вероятностью он окажется белым?

Решение. Будем считать события [math] B_1, B_2, B_3 [/math] выбором урны с соотвествующим номером, а событие [math]A[/math] — выбором белого шара. По условию задачи все события выбора урны равновероятны, значит:

[math] {P}(B_1)~=~{P}(B_2)~=~{P}(B_3)~=~ \genfrac{}{}{}{0}{1}{3} [/math]

Теперь найдём вероятность события [math]A[/math] при выборе каждой урны:

[math] {P}(A \mid B_1) = \genfrac{}{}{}{0}{2}{7} ,~ {P}(A \mid B_2) = \genfrac{}{}{}{0}{3}{7} ,~ {P}(A \mid B_3) = 0. [/math]

В результате получаем [math] {P}(A) ~=~ \genfrac{}{}{}{0}{1}{3} \cdot \genfrac{}{}{}{0}{2}{7} +\genfrac{}{}{}{0}{1}{3} \cdot \genfrac{}{}{}{0}{3}{7} +\genfrac{}{}{}{0}{1}{3} \cdot 0 ~\approx ~ 0{.}238 [/math]

Метод фильтрации спама

При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.

Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие — в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен.

Замечание. Если 80% писем, содержащих фразу [math]"[/math]Привет :) Как дела?)[math]"[/math], являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.

См. также

Источники