Изменения

Перейти к: навигация, поиск

Байесовские сети

4100 байт добавлено, 01:16, 19 марта 2019
Нет описания правки
== Пример ==
[[Файл:Bayesian Student NetworkМодель студента.png|мини|600px|Рис. 1: Байесовская сеть "Студент"]]
Байесовская сеть, представленная на рисунке 1, отображает следующие зависимости. Оценка студента (Grade) зависит от его интеллекта (Intelligence) и сложности курса (Difficulty). Студент просит у преподавателя рекомендательное письмо (Letter)рекомендацию, предположим, что преподаватель может написать плохое плохую или хорошее письмо хорошую рекомендацию в зависимости от оценки студента. Также студент сдаёт экзамен для поступления в колледж (SAT)госэкзамен, результаты экзамена не зависят от письма рекомендации преподавателя, оценки за его курс и сложности курса. Представление этой модели в Байесовской сети представлено на рисунке ниже.
С помощью цепного правила рассчитаем вероятность того, что умный студент получает B по лёгкому курсу, высокий балл по SAT за госэкзамен и плохое рекомендательное письмоплохую рекомендацию: <math> P(i1, d0, g2, s1, l0) = P(i1)P(d0)P(g2 | i1, d0)P(s1 | i1)P(l0 | g2) = 0.3*0.6*0.08*0.8*0.4 = 0.004608. </math>
Байесовская сеть представляет допустимое корректное вероятностное распределение:
* Вероятность исхода в Байесовской сети неотрицательна, так как вычисляется как произведение условных вероятностей событий, которые неотрицательны.
* Сумма вероятностей исходов в Байесовской сети равна единице:
Прямой вывод — определение вероятности события при наблюдаемых причинах.
Пример к рисунку 1: вероятность получения хорошего рекомендательного письмахорошей рекомендации, если известно, что студент обладает низким интеллектом, <math>P(l1 | i0) \approx 0.39</math>, если известно, что курс был лёгким, вероятность повысится, <math>P(l1 | i0, d0) \approx 0.51 </math>.
'''Обратный вывод, или диагностирование (англ. Evidential Reasoning)'''
{{Определение
|definition =
'''Маргинальная вероятность''' — это безусловная вероятность <math>P(A)</math> события <math>A</math>; то есть, вероятность события <math>A</math>, независимо от того, наступает ли какое-то другое событие <math>B</math> или нет.}} Если о <math>B</math> можно думать как о некоторой случайной величине, принявшей данное значение, маргинальная вероятность <math>A</math> может быть получена суммированием (или более широко интегрированием) совместных вероятностей по всем значениям этой случайной величины. Эту процедуру иногда называют '''маргинализацией''' вероятности. На рисунке 1 вероятность того, что студент умный (<math>i=1</math>), является маргинальной, так как у вершины <math>i</math> нет родителей, с помощью маргинализации эту же вероятность можно получить, сложив вероятности того, что студент умный и он получит высокий балл за госэкзамен, и того, что студент умный и получит низкий балл за госэкзамен. {{Определение|definition =<math>X</math> и <math>Y</math> являются <math>d</math>-разделёнными (англ. <math>d</math>-separated), если в графе <math>G</math> при условии означивании <math>Z</math> не существует активного пути между <math>X</math> и <math>Y</math>. Обозначение: <math>dsep_G(X, Y|Z)</math>.
}}
<math>P</math> факторизуется над <math>G</math>, если <math>\mathrm P(X_1, \ldots, X_n) = \prod_{i=1}^n \mathrm P(X_i \mid \operatorname{parents}(X_i)).</math>
}}
 
Знак <math>\models</math> следует читать как "удовлетворяет", <math>\propto</math> — "пропорционально".
 
{{Определение
|definition =
<math>P \models (X \bot Y|Z)</math> — в вероятностном пространстве <math>P</math> переменная <math>X</math> не зависима от переменной <math>Y</math> при условии означивания переменной <math>Z</math>.
}}
 
{{Утверждение
|statement=<math>P \models (X \bot Y | Z)</math>, если <math>P(X,Y,Z) \propto \phi_1(X,Z) \phi_2(Y,Z)</math>, где <math>\phi_i</math> — факторы.
}}
 
{{Теорема
|id = factorization independence
|author=
|statement=Если <math>P</math> факторизуется над <math>G</math> и <math>dsep_G(X, Y|Z)</math>, то P удовлетворяет <math>P \models (X \bot Y|Z)</math>.|proof= <math>dsep_G(D, S|G)</math>, <math>P(D,I,G,S,L) = P(D)P(I)P(G|I,D)P(S|I)P(L|G)</math> — цепное правило, <math>P</math> факторизуется над <math>G</math>,  <math>P(D,S) = \sum\limits_{G, L, I} P(D)P(I)P(G|D,I)P(S|I)P(L|G)=</math>
<math>\sum\limits_{I}P(D)P(I)P(S|I)\sum\limits_{G}(P(C|D,I)\sum\limits_{L}P(L|G))=P(D)(\sum\limits_{I}P(I)P(S|I))=\phi_1(D)\phi_2(S)</math>.
Значит, <math>P\models (X\bot Y | Z)</math>.
}}
{{Утверждение
|statement=Если <math>P</math> факторизуется над <math>G</math>, то в <math>P</math> каждая переменная <math>d</math>-отделена (независима ) от вершин, не являющихся её потомками, при условии означивании родителей.
}}
[[Файл:Flow_of_influence_and_d-separation.PNG|мини|600px|Рис. 2: Иллюстрация к утверждению про независимость переменной от вершин, не являющихся её потомками]] Рассмотрим пример на рисунке 2: Вершина <math>L</math> <math>d</math>-отделена от всех вершин, не являющихся её потомками, так как все пути от вершин, не являющихся потомками, проходят через <math>G</math>, которая получила означивание, следовательно, такие пути неактивны, а пути, проходящие через <math>J</math> или <math>L</math> не являются активными, так как данные вершины не получили означивание и образуют <math>v</math>-образную структуру. 
{{Определение
|definition =
<math>I(G)={(X \bot Y | Z):dsep_G(X, Y|Z)}</math>, если <math>P</math> удовлетворяет <math>\models I(G)</math>, <math>G</math> является '''картой независимостей''' для <math>I-mapP</math> (independency map) для . <math>PI(G)</math>— множество независимостей.
}}
|id = factorization independence 2
|author=
|statement=Если <math>P</math> факторизуется над <math>G</math>, то <math>G</math> является картой независимостей для <math>I-mapP</math> для .|proof=Доказательство такое же, как у теоремы выше, использующей понятие <math>Pd</math>-разделимости, так как мы перефразировали её в терминах карты независимостей.
}}
|id = factorization independence 2
|author=
|statement=Если <math>G</math> является <math>I-map</math> картой независимостей для <math>P</math>, то <math>P</math> факторизуется над <math>G</math>.|proof= <math>P(D,I,G,S,L) = P(D)P(I|D)P(G|D,I)P(S|D,I,G)P(L|D,I,G,S)=</math>— цепное правило для вероятностей,воспользуемся тем, что переменные независимы от вершин, не являющихся их потомками, при означивании родителей, получим: <math>P(D)P(I|D)P(G|D,I)P(S|D,I,G)P(L|D,I,G,S)=</math><math>P(D)P(I)P(G|D,I)P(S|I)P(L|D,I,G,S)=</math> — цепное правило для байесовской сети.Значит <math>P(D)P(</math> факторизуется над <math>G|D,I)P(S|I)P(L|G)</math>.
}}
 
== См. также ==
* [[Условная_вероятность|Условная вероятность]]
== Применение ==
Байесовские сети используются в медицине, классификации документов, обработке изображений, обработке данных, системах поддержки принятия решений, моделирования в биоинформатике, для анализа текстов и сегментации.
 
== Примечания ==
* https://www.coursera.org/lecture/probabilistic-graphical-models/semantics-factorization-trtai
* https://www.coursera.org/lecture/probabilistic-graphical-models/conditional-independence-PTXfn
* https://www.coursera.org/lecture/probabilistic-graphical-models/independencies-in-bayesian-networks-JRkCU
 
== См. также ==
* [[Условная_вероятность|Условная вероятность]]
== Источники информации ==
* Andrew D. Gordon, Thomas A. Henzinger, Aditya V. Nori, and Sriram K. Rajamani. 2014. Probabilistic programming. In Proceedings of the on Future of Software Engineering (FOSE 2014). ACM, New York, NY, USA, 167-181. DOI=10.1145/2593882.2593900 doi.acm.org/10.1145/2593882.2593900
63
правки

Навигация