Формула полной вероятности — различия между версиями
(→Метод фильтрации спама) |
Shersh (обсуждение | вклад) |
||
Строка 70: | Строка 70: | ||
[[Категория: Дискретная математика и алгоритмы]] | [[Категория: Дискретная математика и алгоритмы]] | ||
− | [[Категория: | + | [[Категория: Теория вероятностей]] |
Версия 08:40, 7 декабря 2011
Формула полной вероятности позволяет вычислить вероятность интересующего события через вероятности его произойти при выполнении гипотез с заданной вероятностью.
Теорема
Определение: |
Не более чем счётное множество событий , таких что:
|
В этом случае события
ещё называются гипотезами.Теорема (формула полной вероятности): |
Вероятность события , которое может произойти только вместе с одним из событий , образующих
полную группу, равна сумме произведений вероятностей гипотез на условные вероятности события, вычисленные соотвественно при каждой из гипотез. |
Доказательство: |
Так как события образуют полную группу, то по определению событие можно представить следующим образом:
События попарно несовместны, значит и события тоже несовместны. Тогда после применения теоремы о сложении вероятностей несовместных событий, а также воспользовавшись определением условной вероятности, получаем: |
Пример
Условие. Имеются 3 одинаковые урны с шарами. В первой из них 3 белых и 4 черных шара, во второй — 2 белых и 5 чёрных, а в третьей — 10 чёрных шаров. Из случайно выбранной урны наудачу вынут шар. С какой вероятностью он окажется белым?
Решение. Будем считать события
выбором урны с соотвествующим номером, а событие — выбором белого шара. По условию задачи все события выбора урны равновероятны, значит:
Теперь найдём вероятность события
при выборе каждой урны:
В результате получаем
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.
Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие — в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен.
Замечание. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.