Формула Байеса — различия между версиями

Текущая версия на 19:05, 4 сентября 2022

По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.

Теорема

Определение:

Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие является результатом ряда независимых друг от друга событий , который, возможно, привел к .

Теорема (формула Байеса):

,

где

— вероятность события ,

— вероятность события при наступлении события ,

— вероятность наступления события при истинности события ,

— вероятность наступления события .

Доказательство:

Из замечания определения условной вероятности следует, что вероятность произведения двух событий равна:

По формуле полной вероятности:

Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то

Примеры

Определение вероятности заболевания

Пусть событие [math]A[/math] наступило в результате осуществления одной из гипотез [math]B_1,B_2 \ldots B_n[/math]. Как определить вероятность того, что имела место та или иная гипотеза? Вероятность заразиться гриппом [math]0.01[/math]. После проведения анализа вероятность, что это грипп [math]0.9[/math], другая болезнь [math]0.001[/math]. Событие [math]A[/math] истинно, если анализ на грипп положительный, событие [math]B_1[/math] отвечает за грипп, [math]B_2[/math] отвечает за другую болезнь. Также предположим, что:

, — априорные (оцененные до испытания) вероятности.

, — апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » — с учётом того факта, что событие достоверно произошло.

Рассмотрим вероятность гриппа при положительном анализе:

Парадокс теоремы Байеса

При рентгеновском обследовании вероятность обнаружить заболевание [math]N[/math] у больного равна [math]0.95[/math], вероятность принять здорового человека за больного равна [math]0.05[/math]. Доля больных по отношению ко всему населению равна [math]0.01[/math]. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:

,

.

Вычислим сначала полную вероятность признания больным:

Вероятность «здоров» при диагнозе «болен»:

Таким образом, [math]83.9\%[/math] людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь [math]N[/math] — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.

Метод фильтрации спама

Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора^[1], в основе которого лежит применение теоремы Байеса. Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте. Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.

См. также

Примечания

↑ К.В.Воронцов — Наивный байесовский классификатор

Источники информации

Википедия — Теорема Байеса
Wikipedia — Bayes' theorem
Scheg12g — Наглядное объяснение теоремы Байеса
Habrahabr — Теорема Байеса и наивный байесовский классификатор
Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005 — 52 с.

[1] К.В.Воронцов — Наивный байесовский классификатор

[1]

@@ Строка 1: / Строка 1: @@
-== Формула Байеса ==
+По '''формуле Байеса''' можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений.
-По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений.
 Формула Байеса позволяет '''«переставить причину и следствие»''': по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.
-События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
+События, отражающие действие «причин», в данном случае называют гипотезами, так как они {{---}} предполагаемые события, повлекшие данное.
+==Теорема==
 {{Определение
-|definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} формула, позволяющая определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие.
+|definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} соотношение различных предполагаемых вероятностей различных событий, которое дает вероятность, что какое-то событие <tex>A</tex> является результатом <tex>X</tex> ряда независимых друг от друга событий <tex>B_1,B_2 \ldots B_n</tex>, который, возможно, привел к <tex>A</tex>.
 }}
+{{Теорема
-== Формулировка ==
+| about =
-:<tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>,
+формула Байеса
+| statement =
+<tex>P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>,
 где
-: <tex>P(A)</tex> — вероятность события <tex>A</tex>,
+: <tex>P(A)</tex> {{---}} вероятность события <tex>A</tex>,
-: <tex>P(A|B)</tex> — вероятность события <tex>A</tex> при наступлении события <tex>B</tex>,
+: <tex>P(A|B)</tex> {{---}} вероятность события <tex>A</tex> при наступлении события <tex>B</tex>,
-: <tex>P(B|A)</tex> — вероятность наступления события <tex>B</tex> при истинности события <tex>A</tex>,
+: <tex>P(B|A)</tex> {{---}} вероятность наступления события <tex>B</tex> при истинности события <tex>A</tex>,
-: <tex>P(B)</tex> — вероятность наступления события <tex>B</tex>.
+: <tex>P(B)</tex> {{---}} вероятность наступления события <tex>B</tex>.
+| proof =
-== Доказательство ==
+Из замечания определения [[Условная вероятность|условной вероятности]] следует, что вероятность произведения двух событий равна:
-Формула Байеса вытекает из определения [[Условная вероятность|условной вероятности]].
 : <tex>P(B \cap A)=P(A \cap B)=P(A|B)P(B)</tex>
-: <tex>P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex> (по [[Формула полной вероятности|формуле полной вероятности]])
+По [[Формула полной вероятности|формуле полной вероятности]]:
+: <tex>P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex>
 Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то
-: <tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>
+: <tex>P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>
+}}
 == Примеры ==
@@ Строка 26: / Строка 32: @@
 ===Определение вероятности заболевания===
-Пусть событие <tex>A</tex>  наступило в результате осуществления одной из гипотез <tex>B_1,B_2...B_n</tex> .  Как определить вероятность того, что имела место та или иная гипотеза?
+Пусть событие <tex>A</tex>  наступило в результате осуществления одной из гипотез <tex>B_1,B_2 \ldots B_n</tex>.  Как определить вероятность того, что имела место та или иная гипотеза?
-Вероятность заразиться гриппом <tex>0.01</tex>. Точность анализа, что это грипп <tex>0.9</tex>, другая болезнь <tex>0.001</tex>.
+Вероятность заразиться гриппом <tex>0.01</tex>. После проведения анализа вероятность, что это грипп <tex>0.9</tex>, другая болезнь <tex>0.001</tex>.
 Событие <tex>A</tex> истинно, если анализ на грипп положительный, событие <tex>B_1</tex> отвечает за грипп, <tex>B_2</tex> отвечает за другую болезнь.
 Также предположим, что:
@@ Строка 36: / Строка 42: @@
 Рассмотрим вероятность гриппа при положительном анализе:
-<tex>P(B_1|A)=\genfrac{}{}{}{0}{P(B_1 \cap A)}{P(A)}=\genfrac{}{}{}{0}{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\genfrac{}{}{}{0}{100}{111}</tex>
+<tex>P(B_1|A)=\dfrac{P(B_1 \cap A)}{P(A)}=\dfrac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\dfrac{100}{111}</tex>
 ===Парадокс теоремы Байеса===
-При рентгеновском обследовании вероятность обнаружить заболевание ''N'' у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании.
+При рентгеновском обследовании вероятность обнаружить заболевание <tex>N</tex> у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании.
 Предположим, что:
 : <tex>P(B_1|B)=0.95</tex>,
@@ Строка 50: / Строка 56: @@
 Вероятность «здоров» при диагнозе «болен»:
-<tex>Р (A|B_1) = \genfrac{}{}{}{0}{0.99 \cdot 0.05}{0.99 \cdot 0.05 + 0.01 \cdot 0.95}= 0.839</tex>
+<tex>P(A|B_1) = \dfrac{0.99 \cdot 0.05}{0.99 \cdot 0.05 + 0.01 \cdot 0.95}= 0.839</tex>
-Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь ''N'' — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
+Таким образом, <tex>83.9\%</tex> людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь <tex>N</tex> {{---}} редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
 ===Метод фильтрации спама===
-Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса.
+Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf К.В.Воронцов {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса.
-Допустим, у нас есть набор писем: спам и не спам. Считаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте.Аналогично для слов из не спама. Считаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.
+Имеется набор писем: спам и не спам. Подсчитаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте. Аналогично для слов из не спама. Подсчитаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.
 == См. также ==
@@ Строка 72: / Строка 77: @@
 *[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Scheg12g {{---}} Наглядное объяснение теоремы Байеса]
 *[http://habrahabr.ru/company/surfingbird/blog/150207/ Habrahabr {{---}} Теорема Байеса и наивный байесовский классификатор]
-* Гмурман В. Е. Теория вероятностей и математическая статистика, {{---}} М.: Высшее образование. 2005
+* Гмурман В. Е. Теория вероятностей и математическая статистика, {{---}} М.: Высшее образование. 2005 {{---}} 52 с.

Формула Байеса — различия между версиями

Текущая версия на 19:05, 4 сентября 2022

Теорема

Примеры

Определение вероятности заболевания

Парадокс теоремы Байеса

Метод фильтрации спама

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты