Изменения

Перейти к: навигация, поиск

Байесовские сети

351 байт добавлено, 16:37, 23 января 2020
Источники информации
{{Определение
|definition =
'''Байесовская сеть''' (англ. ''Bayesian network'') — это направленный ациклический граф <tex>G\ = <V, E></tex>, в котором каждой вершине <tex>v \in V</tex> поставлена в соответствие случайная переменная величина <tex>X_v</tex> и каждое ребро <tex>(u, v) \in E</tex> представляет прямую зависимость <tex>X_v</tex> от <tex>X_u</tex>. Пусть <tex>parents(v) = {u\ |\ (u,\ v)\ \in\ E}</tex>, тогда в Байесовской сети каждой вершине <tex>v\ \in\ V</tex> графа должно быть сопоставлено распределение условных вероятностей от вершин из <tex>parents(v)</tex>.
}}
== Пример ==
[[Файл:Модель студента.png|мини|center|600px|Рис. 1: Байесовская сеть "Студент".]]
Байесовская сеть, представленная на рисунке 1, отображает следующие зависимости. Оценка студента зависит от его интеллекта и сложности курса. Студент просит у преподавателя рекомендацию, предположим, что преподаватель может написать плохую или хорошую рекомендацию в зависимости от оценки студента. Также студент сдаёт госэкзамен, результаты экзамена не зависят от рекомендации преподавателя, оценки за его курс и сложности курса. Представление этой модели в Байесовской сети представлено на рисунке ниже.
С помощью цепного правила рассчитаем вероятность того, что умный студент получает B по лёгкому курсу, высокий балл за госэкзамен и плохую рекомендацию: <math> P(i1i_1, d0d_0, g2g_2, s1s_1, l0l_0) = P(i1i_1)P(d0d_0)P(g2 g_2 | i1i_1, d0d_0)P(s1 s_1 | i1i_1)P(l0 l_0 | g2g_2) = 0.3*0.6*0.08*0.8*0.4 = 0.004608. </math>
Байесовская сеть представляет корректное вероятностное распределение:
<math> \sum\limits_{D,I,G,S,L} P(D,I,G,S,L) = \sum\limits_{D,I,G,S,L} P(D)P(I)P(G|I,D)P(S|I)P(L|G) = </math>
<math> \sum\limits_{D,I,G,S} P(D)P(I)P(G|I,D)P(S|I) \sum\limits_{L} P(L|G) = \sum\limits_{D,I,G,S} P(D)P(I)P(G|I,D)P(S|I) = </math>
<math> \sum\limits_{D,I,G} P(D)P(I)P(G|I,D) \sum\limits_{S} P(S|I) = \sum\limits_{D,I,G} P(D)P(I)P(G|I,D) = \ldots sum\limits_{D,I} P(D)P(I)\sum\limits_{G}P(G|I,D) = \sum\limits_{D,I} P(D)P(I) = 1. </math>
== Виды вероятностного вывода (англ. Reasoning Patterns) ==
Прямой вывод — определение вероятности события при наблюдаемых причинах.
Пример к рисунку 1: вероятность получения хорошей рекомендации, если известно, что студент обладает низким интеллектом, <math>P(l1 l_1 | i0i_0) \approx 0.39</math>, если известно, что курс был лёгким, вероятность повысится, <math>P(l1 l_1 | i0i_0, d0d_0) \approx 0.51 </math>.
'''Обратный вывод, или диагностирование (англ. Evidential Reasoning)'''
Обратный вывод — определение вероятности причины при наблюдаемых следствиях.
Пример к рисунку 1: вероятность того, что курс сложный, если студент получил оценку С, <math>P(d1 d_1 | g3g_3) \approx 0.63</math>, вероятность того, что студент умный, если он получил оценку С, <math> P(i1 i_1 | g3g_3) \approx 0.08 </math>.
'''Межпричинный (смешанный) вывод (англ. Intercausal Reasoning)'''
Межпричинный вывод — определение вероятности одной из причин наступившего события при условии наступления одной или нескольких других причин этого события.
Рассмотрим вероятность из прошлого примера, <math> P(i1 i_1 | g3g_3) \approx 0.08 </math>, вероятность того, что студент умный, слегка увеличивается, если также известно, что курс сложный, <math> P(i1 i_1 | g3g_3, d1d_1) \approx 0.11 </math>, сложность курса (D) и интеллект студента (I) не связаны ребром, рассмотрим, как получается, что они влияют друг на друга, на более простом примере.
Предположим, у пациента температура, это сильно повышает вероятность как простуды, так и отравления, хотя они не влияют друг на друга, но если станет известно, что пациент отравился, вероятность простуды сильно уменьшится, симптом уже объяснён одной из возможных причин, и вторая становится менее вероятной. Таким образом, если общее следствие получает '''означивание''', причины становятся зависимыми. По-английски этот феномен называется '''«explaining away»'''.
''' Свидетельства ''' — утверждения вида «событие в узле x произошло».
<math>X</math> '''влияет''' на <math>УY</math>, когда свидетельство <math>X</math> может изменить распределение вероятностей <math>Y</math>.
Рассмотрим случаи, когда <math>X</math> влияет на <math>УY</math> при имеющихся свидетельствах <math>Z</math>:
* Если вершины связаны непосредственно (<math>X \rightarrow Y</math> или : <math>X</math> всегда влияет на <math>Y</math>.* <math>X \leftarrow Y</math>), : <math>X</math> всегда влияет на <math>Y</math>.* <math>X \rightarrow W \rightarrow Y</math>: <math>X</math> влияет на <math>Y</math>, если <math>W</math> не принадлежит <math>Z</math>.* <math>X \leftarrow W \leftarrow Y</math>: <math>X</math> влияет на <math>Y</math>, если <math>W</math> не принадлежит <math>Z</math>.* <math>X \leftarrow W \rightarrow Y</math> : <math>X</math> влияет на <math>Y</math>, если <math>W</math> не принадлежит <math>Z</math>.* <math>X \rightarrow W \leftarrow Y</math> ('''<math>V</math>-образная структура''') : <math>X</math> влияет на <math>Y</math>, если <math>W</math> или кто-либо из потомков <math>W</math> принадлежит <math>Z</math>, и, соответственно, <math>X</math> не влияет на <math>Y</math>, если <math>W</math> или хотя бы кто-либо из потомков <math>W</math> не принадлежит <math>Z</math>.
{{Определение
<math>P(D,I,G,S,L) = P(D)P(I)P(G|I,D)P(S|I)P(L|G)</math> — цепное правило, <math>P</math> факторизуется над <math>G</math>,
<math>P(D,S) = \sum\limits_{G, L, I} P(D)P(I)P(G|D,I)P(S|I)P(L|G)=</math> <math>\sum\limits_{I}P(D)P(I)P(S|I)\sum\limits_{G}(P(C|D,I)\sum\limits_{L}P(L|G))=P(D)(\sum\limits_{I}P(I)P(S|I))=\phi_1(D)\phi_2(S).</math>.
Значит, <math>P\models (X\bot Y | Z)</math>.
[[Файл:Flow_of_influence_and_d-separation.PNG|мини|600px|Рис. 2: Иллюстрация к утверждению про независимость переменной от вершин, не являющихся её потомками. Красным цветом обозначена проверочная вершина, жёлтым — её родители, синим — потомки, зелёным — вершины, не являющиеся её потомками.]]
Рассмотрим пример на рисунке 2: Вершина вершина <math>L</math> <math>d</math>-отделена от всех вершин, не являющихся её потомками: в вершину <math>L</math> можно попасть из вершин <math>G</math> или <math>J</math>, так как все пути к ней от вершин, не являющихся её потомками, проходят проходящие через <math>G</math>, которая неактивны, так как <math>G</math> получила означивание, следовательно, такие пути неактивны, а пути, проходящие через <math>J</math> или , также не являются активными, так как <math>LJ</math> не являются активными, так как данные вершины не получили означивание получила означивания и образуют образует <math>v</math>-образную структурус <math>L</math> и <math>S</math> и <math>L</math> и <math>H</math>.
{{Определение
|definition =
<math>I(G)={(X \bot Y | Z):dsep_G(X, Y|Z)}</math>, если <math>P \models I(G)</math>, <math>G</math> является '''картой независимостей''' (англ. ''Independency map (I-map)'') для <math>P</math>. <math>I(G)</math> — множество независимостей.
}}
|author=
|statement=Если <math>P</math> факторизуется над <math>G</math>, то <math>G</math> является картой независимостей для <math>P</math>.
|proof=Доказательство такое же, как у теоремы выше, использующей понятие <math>d</math>-разделимости, так как мы перефразировали её в терминах карты независимостей.
}}
== См. также ==
* [[Условная_вероятность|Условная вероятность]]
* [[Байесовская классификация]]
== Источники информации ==
* Andrew D. Gordon, Thomas A. Henzinger, Aditya V. Nori, and Sriram K. Rajamani. 2014. Probabilistic programming. In Proceedings of the on Future of Software Engineering (FOSE 2014). ACM, New York, NY, USA, 167-181. DOI=10.1145/2593882.2593900 doi.acm.org/10.1145/2593882.2593900
 
[[Категория: Машинное обучение]]
Анонимный участник

Навигация