Формула полной вероятности — различия между версиями

Версия 05:56, 6 декабря 2011

Формула полной вероятности позволяет вычислить вероятность интересующего события [math] A [/math] через вероятности его произойти при выполнении гипотез с заданной вероятностью.

Содержание

1 Теорема
2 Пример
3 Метод фильтрации спама
4 См. также
5 Источники

Теорема

Определение:

Не более чем счётное множество событий , таких что:

все события попарно несовместны:
их объединение образует пространство элементарных исходов:

В этом случае события [math]B_i[/math] ещё называются гипотезами.

Теорема (формула полной вероятности):

Вероятность события , которое может произойти только вместе с одним из событий , образующих

полную группу, равна сумме произведений вероятностей гипотез на условные вероятности события, вычисленные соотвественно при каждой из гипотез.

Доказательство:

Так как события [math]\{B_i\}_{i=1}^{n} [/math] образуют полную группу, то по определению событие [math] A [/math] можно представить следующим образом:

События [math]\{B_i\}_{i=1}^{n} [/math] попарно несовместны, значит и события [math] (A\cap B_{i}) [/math] тоже несовместны. Тогда после применения теоремы о сложении вероятностей несовместных событий, а также воспользовавшись определением условной вероятности, получаем:

Пример

Условие. Имеются 3 одинаковые урны с шарами. В первой из них 3 белых и 4 черных шара, во второй — 2 белых и 5 чёрных, а в третьей — 10 чёрных шаров. Из случайно выбранной урны наудачу вынут шар. С какой вероятностью он окажется белым?

Решение. Будем считать события [math] B_1, B_2, B_3 [/math] выбором урны с соотвествующим номером, а событие [math]A[/math] — выбором белого шара. По условию задачи все события выбора урны равновероятны, значит:

Теперь найдём вероятность события [math]A[/math] при выборе каждой урны:

В результате получаем

Метод фильтрации спама

При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.

Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие — в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен.

Замечание. Если 80% писем, содержащих фразу [math]"[/math]Привет :) Как дела?)[math]"[/math], являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.

См. также

Источники

@@ Строка 54: / Строка 54: @@
 ==Метод фильтрации спама==
-При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} % содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовский.''
+При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.''
-Недостаток метода заключается в том, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. Тогда метод неэффективен, если данное предположение неверно.
+Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен.
 '''Замечание.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам.

Формула полной вероятности — различия между версиями

Версия 05:56, 6 декабря 2011

Содержание

Теорема

Пример

Метод фильтрации спама

См. также

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты