Формула полной вероятности
Формула полной вероятности позволяет вычислить вероятность интересующего события через вероятности событию произойти при выполнении гипотез и вероятность этих гипотез.
Теорема
Определение: |
Не более чем счётное множество событий , таких что:
|
В этом случае события
ещё называются гипотезами.Теорема (формула полной вероятности): |
Вероятность события , которое может произойти только вместе с одним из событий , образующих
полную группу, равна сумме произведений вероятностей гипотез на условные вероятности события, вычисленные соотвественно при каждой из гипотез. |
Доказательство: |
Так как события образуют полную группу, то по определению событие можно представить следующим образом:
События попарно несовместны, значит и события тоже несовместны. Тогда после применения теоремы о сложении вероятностей несовместных событий, а также воспользовавшись определением условной вероятности, получаем: |
Пример
Условие. Имеются 3 одинаковые урны с шарами. В первой из них 3 белых и 4 черных шара, во второй — 2 белых и 5 чёрных, а в третьей — 10 чёрных шаров. Из случайно выбранной урны наудачу вынут шар. С какой вероятностью он окажется белым?
Решение. Будем считать события
выбором урны с соотвествующим номером, а событие — выбором белого шара. По условию задачи все события выбора урны равновероятны, значит:
Теперь найдём вероятность события
при выборе каждой урны:
В результате получаем
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — % содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма.
Недостаток метода заключается в том, что одни слова чаще встречаются в спаме, а другие — в обычных письмах. Тогда метод неэффективен, если данное предположение неверно.
Замечание. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.