Формула полной вероятности — различия между версиями
Shersh (обсуждение | вклад) (Добавлены примеры, и дополнена теоретическая часть) |
Shersh (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
− | '''Формула полной вероятности''' позволяет вычислить [[Вероятностное пространство, элементарный исход, событие | вероятность]] интересующего события <tex> A </tex> через вероятности | + | '''Формула полной вероятности''' позволяет вычислить [[Вероятностное пространство, элементарный исход, событие | вероятность]] интересующего события <tex> A </tex> через вероятности его произойти при выполнении ''гипотез'' с заданной вероятностью. |
==Теорема== | ==Теорема== | ||
Строка 54: | Строка 54: | ||
==Метод фильтрации спама== | ==Метод фильтрации спама== | ||
− | При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} % содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. | + | При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} % содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовский.'' |
Недостаток метода заключается в том, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. Тогда метод неэффективен, если данное предположение неверно. | Недостаток метода заключается в том, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. Тогда метод неэффективен, если данное предположение неверно. |
Версия 05:53, 6 декабря 2011
Формула полной вероятности позволяет вычислить вероятность интересующего события через вероятности его произойти при выполнении гипотез с заданной вероятностью.
Теорема
Определение: |
Не более чем счётное множество событий , таких что:
|
В этом случае события
ещё называются гипотезами.Теорема (формула полной вероятности): |
Вероятность события , которое может произойти только вместе с одним из событий , образующих
полную группу, равна сумме произведений вероятностей гипотез на условные вероятности события, вычисленные соотвественно при каждой из гипотез. |
Доказательство: |
Так как события образуют полную группу, то по определению событие можно представить следующим образом:
События попарно несовместны, значит и события тоже несовместны. Тогда после применения теоремы о сложении вероятностей несовместных событий, а также воспользовавшись определением условной вероятности, получаем: |
Пример
Условие. Имеются 3 одинаковые урны с шарами. В первой из них 3 белых и 4 черных шара, во второй — 2 белых и 5 чёрных, а в третьей — 10 чёрных шаров. Из случайно выбранной урны наудачу вынут шар. С какой вероятностью он окажется белым?
Решение. Будем считать события
выбором урны с соотвествующим номером, а событие — выбором белого шара. По условию задачи все события выбора урны равновероятны, значит:
Теперь найдём вероятность события
при выборе каждой урны:
В результате получаем
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — % содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовский.
Недостаток метода заключается в том, что одни слова чаще встречаются в спаме, а другие — в обычных письмах. Тогда метод неэффективен, если данное предположение неверно.
Замечание. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.