Изменения

Перейти к: навигация, поиск

Формула Байеса

660 байт добавлено, 18:09, 15 января 2015
Нет описания правки
События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
{{Определение
|definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} формула теории вероятностей, которая позволяет позволяющая определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие.
}}
== Формулировка ==
:<tex>P(B_i|A)=\fracgenfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum_sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>,
где
: <tex>P(A)</tex> — вероятность события ''<tex>A'';</tex>,: <tex>P(A|B)</tex> — вероятность события ''<tex>A'' </tex> при наступлении события ''<tex>B'';</tex>,: <tex>P(B|A)</tex> — вероятность наступления события ''<tex>B'' </tex> при истинности события ''<tex>A'';</tex>,: <tex>P(B)</tex> — вероятность наступления события ''<tex>B''</tex>.
== Доказательство ==
: <tex>P(BФормула Байеса вытекает из определения [[Условная вероятность|A) = \frac{P(B \cap A)}{P(A)}</tex>условной вероятности]].
: <tex>P(B \cap A)=P(A \cap B)=P(A|B)P(B)</tex>
: <tex>P(A)=\sum_sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex> (по [[Формула полной вероятности|формуле полной вероятности]])Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то: <tex>\Rightarrow P(B_i|A)=\fracgenfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum_sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>
== Примеры ==
===Определение вероятности заболевания===
Пусть событие А <tex>A</tex> наступило в результате осуществления одной из гипотез <tex>B_1,B_2...B_n</tex> . Как определить вероятность того, что имела место та или иная гипотеза?Вероятность заразиться гриппом <tex>0.01</tex>. Точность анализа, что это грипп <tex>0.9</tex>, другая болезнь <tex>0.001</tex>.Событие <tex>A</tex> истинно, если анализ на грипп положительный, событие B<subtex>1B_1</subtex> отвечает за грипп, B<subtex>2B_2</subtex> отвечает за другую болезнь.
Также предположим, что:
: <tex>P(A|B_1)=0.901</tex>: , <tex>P(A|B_2)=0.00199</tex>{{---}} ''априорные'' (оцененные до испытания) вероятности. : <tex>P(A|B_1)=0.019</tex>: , <tex>P(A|B_2)=0.99001</tex>{{---}} ''апостериорные'' (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » {{---}} с учётом того факта, что событие достоверно произошло.
Рассмотрим вероятность гриппа при положительном анализе:
<tex>P(B_1|A)=\fracgenfrac{}{}{}{0}{P(B_1 \cap A)}{P(A)}=\fracgenfrac{}{}{}{0}{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\fracgenfrac{}{}{}{0}{100}{111}</tex>
===Парадокс теоремы Байеса===
При рентгеновском обследовании вероятность обнаружить заболевание ''N'' у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании.
Предположим, что:
: <tex>P(B_1|B)=0.95</tex>,: <tex>P(B_1|A)=0.05</tex>,: <tex>P(B)=0.01</tex>,: <tex>P(A)=0.99</tex>.
Вычислим сначала полную вероятность признания больным:
<tex>0.99*\cdot 0.05 + 0.01*\cdot 0.95 =0.059</tex>
Вероятность «здоров» при диагнозе «болен»:
<tex>Р (A|B_1) = \fracgenfrac{}{}{}{0}{0.99*\cdot 0.05}{0.99*\cdot 0.05 + 0.01*\cdot 0.95}= 830.9 %839</tex>
Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь ''N'' — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
===Метод фильтрации спама===
Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://ruwww.wikipediamachinelearning.orgru/wiki/Наивный_байесовский_классификатор images/9/98/Voron-ML-Bayes-slides.pdf {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса.При проверке письма вычисляется вероятность тогоДопустим, что оно {{---}} у нас есть набор писем: спам и не спам. Для Считаем для каждого слова экспериментально подсчитывается его ''вес'' {{---}} процент содержания этого слова вероятность встречи в письмахспаме, отмеченных пользователем, как спамколичество в спаме ко всему количеству в тексте. Тогда ''весом'' письма является среднее ''весов'' всех его Аналогично для словиз не спама. Таким образомСчитаем произведения вероятностей для каждого из класса, программа(анти-спам бот) считает и где максимум, туда и определяем письмо спамом, если его ''вес'' больше какой-то заданной пользователем планки (обычно 60-80%). После вынесения решения о полученном письме происходит пересчёт в базе данных весов слов, составляющих текст письма. Почтовый фильтр, основанный на такой системе, называется ''байесовским.''
'''Пример.''' Если 80% писем, содержащих фразу <tex>"</tex>Привет :) Как дела?)<tex>"</tex>, являлись спамом, то и следующее письмо с этим словосочетанием c большой вероятностью {{---}} спам== См.также ==* [[Дискретная случайная величина]]* [[Дисперсия случайной величины]]* [[Ковариация случайных величин]]
== Примечания ==
<references/>
== См. также ==
*[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Наглядное объяснение теоремы Байеса]
*[http://habrahabr.ru/company/surfingbird/blog/150207/ Теорема Байеса и наивный байесовский классификатор]
== Источники информации ==
* [http://ru.wikipedia.org/wiki/Теорема_Байеса Википедия {{---}} Теорема Байеса]* [http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia {{---}} Bayes' theorem]*[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Scheg12g {{---}} Наглядное объяснение теоремы Байеса]*[http://habrahabr.ru/company/surfingbird/blog/150207/ Habrahabr {{---}} Теорема Байеса и наивный байесовский классификатор]* Гмурман В. Е. Теория вероятностей и математическая статистика, {{---}} М.: Высшее образование. 2005
5
правок

Навигация