Формула Байеса — различия между версиями
LazyGod (обсуждение | вклад) |
LazyGod (обсуждение | вклад) |
||
Строка 4: | Строка 4: | ||
События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное. | События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное. | ||
{{Определение | {{Определение | ||
− | |definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} формула | + | |definition='''Формула Байеса''' (или теорема Байеса) (англ. ''Bayes' theorem'') {{---}} формула, позволяющая определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие. |
}} | }} | ||
== Формулировка == | == Формулировка == | ||
− | :<tex>P(B_i|A)=\ | + | :<tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex>, |
где | где | ||
− | : <tex>P(A)</tex> — вероятность события | + | : <tex>P(A)</tex> — вероятность события <tex>A</tex>, |
− | : <tex>P(A|B)</tex> — вероятность события | + | : <tex>P(A|B)</tex> — вероятность события <tex>A</tex> при наступлении события <tex>B</tex>, |
− | : <tex>P(B|A)</tex> — вероятность наступления события | + | : <tex>P(B|A)</tex> — вероятность наступления события <tex>B</tex> при истинности события <tex>A</tex>, |
− | : <tex>P(B)</tex> — вероятность наступления события | + | : <tex>P(B)</tex> — вероятность наступления события <tex>B</tex>. |
== Доказательство == | == Доказательство == | ||
− | + | Формула Байеса вытекает из определения [[Условная вероятность|условной вероятности]]. | |
: <tex>P(B \cap A)=P(A \cap B)=P(A|B)P(B)</tex> | : <tex>P(B \cap A)=P(A \cap B)=P(A|B)P(B)</tex> | ||
− | : <tex>P(A)=\ | + | : <tex>P(A)=\sum\limits_{j=1}^N P(A|B_j)P(B_j)</tex> (по [[Формула полной вероятности|формуле полной вероятности]]) |
− | : <tex> | + | Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то |
+ | : <tex>P(B_i|A)=\genfrac{}{}{}{0}{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^N P(A|B_j)P(B_j)}</tex> | ||
== Примеры == | == Примеры == | ||
Строка 25: | Строка 26: | ||
===Определение вероятности заболевания=== | ===Определение вероятности заболевания=== | ||
− | Пусть событие | + | Пусть событие <tex>A</tex> наступило в результате осуществления одной из гипотез <tex>B_1,B_2...B_n</tex> . Как определить вероятность того, что имела место та или иная гипотеза? |
+ | Вероятность заразиться гриппом <tex>0.01</tex>. Точность анализа, что это грипп <tex>0.9</tex>, другая болезнь <tex>0.001</tex>. | ||
+ | Событие <tex>A</tex> истинно, если анализ на грипп положительный, событие <tex>B_1</tex> отвечает за грипп, <tex>B_2</tex> отвечает за другую болезнь. | ||
Также предположим, что: | Также предположим, что: | ||
− | : <tex>P( | + | : <tex>P(B_1)=0.01</tex>, <tex>P(B_2)=0.99</tex> {{---}} ''априорные'' (оцененные до испытания) вероятности. |
− | + | ||
− | : <tex>P(B_1)=0. | + | : <tex>P(A|B_1)=0.9</tex>, <tex>P(A|B_2)=0.001</tex> {{---}} ''апостериорные'' (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » {{---}} с учётом того факта, что событие достоверно произошло. |
− | |||
Рассмотрим вероятность гриппа при положительном анализе: | Рассмотрим вероятность гриппа при положительном анализе: | ||
− | <tex>P(B_1|A)=\ | + | <tex>P(B_1|A)=\genfrac{}{}{}{0}{P(B_1 \cap A)}{P(A)}=\genfrac{}{}{}{0}{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}=\genfrac{}{}{}{0}{100}{111}</tex> |
===Парадокс теоремы Байеса=== | ===Парадокс теоремы Байеса=== | ||
При рентгеновском обследовании вероятность обнаружить заболевание ''N'' у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. | При рентгеновском обследовании вероятность обнаружить заболевание ''N'' у больного равна <tex>0.95</tex>, вероятность принять здорового человека за больного равна <tex>0.05</tex>. Доля больных по отношению ко всему населению равна <tex>0.01</tex>. Найти вероятность того, что человек здоров, если он был признан больным при обследовании. | ||
Предположим, что: | Предположим, что: | ||
− | : <tex>P(B_1|B)=0.95</tex> | + | : <tex>P(B_1|B)=0.95</tex>, |
− | : <tex>P(B_1|A)=0.05</tex> | + | : <tex>P(B_1|A)=0.05</tex>, |
− | : <tex>P(B)=0.01</tex> | + | : <tex>P(B)=0.01</tex>, |
− | : <tex>P(A)=0.99</tex> | + | : <tex>P(A)=0.99</tex>. |
Вычислим сначала полную вероятность признания больным: | Вычислим сначала полную вероятность признания больным: | ||
− | <tex>0.99 | + | <tex>0.99 \cdot 0.05 + 0.01 \cdot 0.95 =0.059</tex> |
Вероятность «здоров» при диагнозе «болен»: | Вероятность «здоров» при диагнозе «болен»: | ||
− | <tex>Р (A|B_1) = \ | + | <tex>Р (A|B_1) = \genfrac{}{}{}{0}{0.99 \cdot 0.05}{0.99 \cdot 0.05 + 0.01 \cdot 0.95}= 0.839</tex> |
Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь ''N'' — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование. | Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь ''N'' — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование. | ||
===Метод фильтрации спама=== | ===Метод фильтрации спама=== | ||
− | Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http:// | + | Существует метод для фильтрации спама, основанный на применении '''наивного байесовского классификатора'''<ref>[http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf {{---}} Наивный байесовский классификатор] </ref>, в основе которого лежит применение теоремы Байеса. |
− | + | Допустим, у нас есть набор писем: спам и не спам. Считаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте.Аналогично для слов из не спама. Считаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо. | |
− | + | ||
+ | == См. также == | ||
+ | * [[Дискретная случайная величина]] | ||
+ | * [[Дисперсия случайной величины]] | ||
+ | * [[Ковариация случайных величин]] | ||
== Примечания == | == Примечания == | ||
<references/> | <references/> | ||
− | |||
− | |||
− | |||
== Источники информации == | == Источники информации == | ||
− | * [http://ru.wikipedia.org/wiki/Теорема_Байеса Википедия | + | * [http://ru.wikipedia.org/wiki/Теорема_Байеса Википедия {{---}} Теорема Байеса] |
− | * [http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia | + | * [http://en.wikipedia.org/wiki/Bayes%27_theorem Wikipedia {{---}} Bayes' theorem] |
− | * Гмурман В. Е. Теория вероятностей и математическая статистика, | + | *[http://schegl2g.bget.ru/bayes/YudkowskyBayes.html Scheg12g {{---}} Наглядное объяснение теоремы Байеса] |
+ | *[http://habrahabr.ru/company/surfingbird/blog/150207/ Habrahabr {{---}} Теорема Байеса и наивный байесовский классификатор] | ||
+ | * Гмурман В. Е. Теория вероятностей и математическая статистика, {{---}} М.: Высшее образование. 2005 | ||
Версия 18:09, 15 января 2015
Содержание
Формула Байеса
По формуле Байеса можно более точно пересчитать вероятность, беря в расчет как ранее известную информацию, так и данные новых наблюдений. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлекшие данное.
Определение: |
Формула Байеса (или теорема Байеса) (англ. Bayes' theorem) — формула, позволяющая определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие. |
Формулировка
- ,
где
- — вероятность события ,
- — вероятность события при наступлении события ,
- — вероятность наступления события при истинности события ,
- — вероятность наступления события .
Доказательство
Формула Байеса вытекает из определения условной вероятности.
Если вероятности под знаком суммы известны или допускают экспериментальную оценку, то
Примеры
Определение вероятности заболевания
Пусть событие
наступило в результате осуществления одной из гипотез . Как определить вероятность того, что имела место та или иная гипотеза? Вероятность заразиться гриппом . Точность анализа, что это грипп , другая болезнь . Событие истинно, если анализ на грипп положительный, событие отвечает за грипп, отвечает за другую болезнь. Также предположим, что:- , — априорные (оцененные до испытания) вероятности.
- , — апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » — с учётом того факта, что событие достоверно произошло.
Рассмотрим вероятность гриппа при положительном анализе:
Парадокс теоремы Байеса
При рентгеновском обследовании вероятность обнаружить заболевание N у больного равна
, вероятность принять здорового человека за больного равна . Доля больных по отношению ко всему населению равна . Найти вероятность того, что человек здоров, если он был признан больным при обследовании. Предположим, что:- ,
- ,
- ,
- .
Вычислим сначала полную вероятность признания больным:
Вероятность «здоров» при диагнозе «болен»:
Таким образом, 83.9 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных и здоровых. Болезнь N — редкое явление, поэтому и возникает такой парадокс Байеса. При возникновении такого результата лучше всего сделать повторное обследование.
Метод фильтрации спама
Существует метод для фильтрации спама, основанный на применении наивного байесовского классификатора[1], в основе которого лежит применение теоремы Байеса. Допустим, у нас есть набор писем: спам и не спам. Считаем для каждого слова вероятность встречи в спаме, количество в спаме ко всему количеству в тексте.Аналогично для слов из не спама. Считаем произведения вероятностей для каждого из класса, и где максимум, туда и определяем письмо.
См. также
Примечания
Источники информации
- Википедия — Теорема Байеса
- Wikipedia — Bayes' theorem
- Scheg12g — Наглядное объяснение теоремы Байеса
- Habrahabr — Теорема Байеса и наивный байесовский классификатор
- Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005