Формула Байеса — различия между версиями
Sultan (обсуждение | вклад) м |
LazyGod (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
+ | == Формула Байеса == | ||
+ | По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. | ||
+ | Формула Байеса позволяет '''«переставить причину и следствие»''': по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. | ||
+ | События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное. | ||
+ | {{Определение | ||
+ | |definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} формула теории вероятностей, которая позволяет определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие. | ||
+ | }} | ||
+ | |||
== Формулировка == | == Формулировка == | ||
:<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>, | :<tex>P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^N P(A|B_j)P(B_j)}</tex>, | ||
Строка 19: | Строка 27: | ||
Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь. | Пусть событие А истинно, если анализ на грипп положительный, событие B<sub>1</sub> отвечает за грипп, B<sub>2</sub> отвечает за другую болезнь. | ||
Также предположим, что: | Также предположим, что: | ||
− | : <tex>P(A|B_1)</tex> | + | : <tex>P(A|B_1)=0.9</tex> |
− | : <tex>P(A|B_2)</tex> | + | : <tex>P(A|B_2)=0.001</tex> |
− | : <tex>P(B_1)</tex> | + | : <tex>P(B_1)=0.01</tex> |
− | : <tex>P(B_2)</tex> | + | : <tex>P(B_2)=0.99</tex> |
Рассмотрим вероятность гриппа при положительном анализе: | Рассмотрим вероятность гриппа при положительном анализе: | ||
<tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex> | <tex>P(B_1|A)=\frac{P(B_1 \cap A)}{P(A)}=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\frac{100}{111}</tex> | ||
+ | |||
+ | ===Парадокс теоремы Байеса=== | ||
+ | При рентгеновском обследовании вероятность обнаружить заболевание ''N'' у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. | ||
+ | Предположим, что: | ||
+ | : <tex>P(B_1|B)=0.95</tex> | ||
+ | : <tex>P(B_1|A)=0.05</tex> | ||
+ | : <tex>P(B)=0.01</tex> | ||
+ | : <tex>P(A)=0.99</tex> | ||
+ | |||
+ | Вычислим сначала полную вероятность признания больным: | ||
+ | <tex>0.99*0.05 + 0.01*0.95 =0.059</tex> | ||
+ | |||
+ | Вероятность «здоров» при диагнозе «болен»: | ||
+ | <tex>Р (A|B_1) = \frac{0.99*0.05}{0.99*0.05 + 0.01*0.95}= 83.9 %</tex> | ||
+ | |||
+ | Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь ''N'' — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование. | ||
===Метод фильтрации спама=== | ===Метод фильтрации спама=== | ||
− | При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова | + | Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://ru.wikipedia.org/wiki/Наивный_байесовский_классификатор {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса. |
+ | При проверке письма вычисляется вероятность того, что оно {{---}} спам. Для каждого слова экспериментально подсчитывается его ''вес'' {{---}} процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда ''весом'' письма является среднее ''весов'' всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.'' | ||
'''Пример.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам. | '''Пример.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам. | ||
+ | == Примечания == | ||
+ | <references/> | ||
== См. также == | == См. также == | ||
− | *[http://ru.wikipedia.org/wiki/ | + | *[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Наглядное объяснение теоремы Байеса] |
− | *[http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia | + | *[http://habrahabr.ru/company/surfingbird/blog/150207/ Теорема Байеса и наивный байесовский классификатор] |
+ | |||
+ | == Источники информации == | ||
+ | * [http://ru.wikipedia.org/wiki/Теорема_Байеса Википедия — Теорема Байеса] | ||
+ | * [http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia — Bayes' theorem] | ||
+ | * Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005 | ||
+ | |||
[[Категория:Дискретная математика и алгоритмы]] | [[Категория:Дискретная математика и алгоритмы]] | ||
[[Категория: Теория вероятности ]] | [[Категория: Теория вероятности ]] |
Версия 21:48, 14 января 2015
Содержание
Формула Байеса
По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
Определение: |
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — формула теории вероятностей, которая позволяет определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие. |
Формулировка
- ,
где
- — вероятность события A;
- — вероятность события A при наступлении события B;
- — вероятность наступления события B при истинности события A;
- — вероятность наступления события B.
Доказательство
Примеры
Определение вероятности заболевания
Пусть событие А истинно, если анализ на грипп положительный, событие B1 отвечает за грипп, B2 отвечает за другую болезнь. Также предположим, что:
Рассмотрим вероятность гриппа при положительном анализе:
Парадокс теоремы Байеса
При рентгеновском обследовании вероятность обнаружить заболевание N у больного равна
, вероятность принять здорового человека за больного равна . Доля больных по отношению ко всему населению равна . Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:Вычислим сначала полную вероятность признания больным:
Вероятность «здоров» при диагнозе «болен»:
Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь N — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
Метод фильтрации спама
Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. При проверке письма вычисляется вероятность того, что оно — спам. Для каждого слова экспериментально подсчитывается его вес — процент содержания этого слова в письмах, отмеченных пользователем, как спам. Тогда весом письма является среднее весов всех его слов. Таким образом, программа(анти-спам бот) считает письмо спамом, если его вес больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется байесовским.
Пример. Если 80% писем, содержащих фразу
Привет :) Как дела?) , являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью — спам.Примечания
См. также
Источники информации
- Википедия — Теорема Байеса
- Wikipedia — Bayes' theorem
- Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005