Формула полной вероятности — различия между версиями
Shersh (обсуждение | вклад) |
(→Метод фильтрации спама) |
||
Строка 54: | Строка 54: | ||
==Метод фильтрации спама== | ==Метод фильтрации спама== | ||
− | При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} | + | При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова эксперементально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.'' |
− | Недостаток метода заключается в том, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. | + | Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие {{---}} в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен. |
'''Замечание.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам. | '''Замечание.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам. |
Версия 05:56, 6 декабря 2011
Формула полной вероятности позволяет вычислить вероятность интересующего события через вероятности его произойти при выполнении гипотез с заданной вероятностью.
Теорема
Определение: |
Не более чем счётное множество событий , таких что:
|
В этом случае события
ещё называются гипотезами.Теорема (формула полной вероятности): |
Вероятность события , которое может произойти только вместе с одним из событий , образующих
полную группу, равна сумме произведений вероятностей гипотез на условные вероятности события, вычисленные соотвественно при каждой из гипотез. |
Доказательство: |
Так как события образуют полную группу, то по определению событие можно представить следующим образом:
События попарно несовместны, значит и события тоже несовместны. Тогда после применения теоремы о сложении вероятностей несовместных событий, а также воспользовавшись определением условной вероятности, получаем: |
Пример
Условие. Имеются 3 одинаковые урны с шарами. В первой из них 3 белых и 4 черных шара, во второй — 2 белых и 5 чёрных, а в третьей — 10 чёрных шаров. Из случайно выбранной урны наудачу вынут шар. С какой вероятностью он окажется белым?
Решение. Будем считать события
выбором урны с соотвествующим номером, а событие — выбором белого шара. По условию задачи все события выбора урны равновероятны, значит:
Теперь найдём вероятность события
при выборе каждой урны:
В результате получаем
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова эксперементально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.
Недостаток метода заключается в том, что он основан на предположении, что одни слова чаще встречаются в спаме, а другие — в обычных письмах. Таким образом, если данное предположение неверно, то метод неэффективен.
Замечание. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.