Изменения

Перейти к: навигация, поиск

Байесовские сети

158 байт убрано, 01:16, 19 марта 2019
Нет описания правки
== Пример ==
[[Файл:Bayesian Student NetworkМодель студента.png|мини|600px|Рис. 1: Байесовская сеть "Студент"]]
Байесовская сеть, представленная на рисунке 1, отображает следующие зависимости. Оценка студента (Grade) зависит от его интеллекта (Intelligence) и сложности курса (Difficulty). Студент просит у преподавателя рекомендательное письмо (Letter)рекомендацию, предположим, что преподаватель может написать плохое плохую или хорошее письмо хорошую рекомендацию в зависимости от оценки студента. Также студент сдаёт экзамен для поступления в колледж (SAT)госэкзамен, результаты экзамена не зависят от письма рекомендации преподавателя, оценки за его курс и сложности курса. Представление этой модели в Байесовской сети представлено на рисунке ниже.
С помощью цепного правила рассчитаем вероятность того, что умный студент получает B по лёгкому курсу, высокий балл по SAT за госэкзамен и плохое рекомендательное письмоплохую рекомендацию: <math> P(i1, d0, g2, s1, l0) = P(i1)P(d0)P(g2 | i1, d0)P(s1 | i1)P(l0 | g2) = 0.3*0.6*0.08*0.8*0.4 = 0.004608. </math>
Байесовская сеть представляет корректное вероятностное распределение:
Прямой вывод — определение вероятности события при наблюдаемых причинах.
Пример к рисунку 1: вероятность получения хорошего рекомендательного письмахорошей рекомендации, если известно, что студент обладает низким интеллектом, <math>P(l1 | i0) \approx 0.39</math>, если известно, что курс был лёгким, вероятность повысится, <math>P(l1 | i0, d0) \approx 0.51 </math>.
'''Обратный вывод, или диагностирование (англ. Evidential Reasoning)'''
{{Определение
|definition =
'''Маргинальная вероятность''' — это безусловная вероятность <math>P(A)</math> события <math>A</math>; то есть, вероятность события <math>A</math>, независимо от того, наступает ли какое-то другое событие <math>B</math> или нет. Если о <math>B</math> можно думать как о некоторой случайной величине, принявшей данной значение, маргинальная вероятность <math>A</math> может быть получена суммированием (или более широко интегрированием) совместных вероятностей по всем значениям этой случайной величины. Эту процедуру иногда называют '''маргинализацией''' вероятности. На рисунке 1 вероятность того, что студент умный (<math>i=1</math>) является маргинальной, так как у вершины i нет родителей, с помощью маргинализации эту же вероятность можно получить сложив вероятности того, что студент умный, и он получит высокий балл по SAT, и того что, студент умный и получит низкий балл по SAT.
}}
 
Если о <math>B</math> можно думать как о некоторой случайной величине, принявшей данное значение, маргинальная вероятность <math>A</math> может быть получена суммированием (или более широко интегрированием) совместных вероятностей по всем значениям этой случайной величины. Эту процедуру иногда называют '''маргинализацией''' вероятности. На рисунке 1 вероятность того, что студент умный (<math>i=1</math>), является маргинальной, так как у вершины <math>i</math> нет родителей, с помощью маргинализации эту же вероятность можно получить, сложив вероятности того, что студент умный и он получит высокий балл за госэкзамен, и того, что студент умный и получит низкий балл за госэкзамен.
{{Определение
<math>P</math> факторизуется над <math>G</math>, если <math>\mathrm P(X_1, \ldots, X_n) = \prod_{i=1}^n \mathrm P(X_i \mid \operatorname{parents}(X_i)).</math>
}}
 
Знак <math>\models</math> следует читать как "удовлетворяет", <math>\propto</math> — "пропорционально".
{{Определение
|definition =
<math>P \models (X \bot Y|Z)</math> — в вероятностном пространстве <math>P</math> переменная <math>X</math> не зависима от переменной <math>Y</math> при условии означивания переменной <math>Z</math>. Знак <math>\models</math> следует читать как "удовлетворяет".
}}
{{Утверждение
|statement=<math>P \models (X \bot Y | Z)</math>, если <math>P(X,Y,Z) \propto \phi_1(X,Z) \phi_2(Y,Z)</math>, где <math>\phi_i</math> — факторы, <math>\propto</math> следует читать как "пропорционально".
}}
|author=
|statement=Если <math>P</math> факторизуется над <math>G</math> и <math>dsep_G(X, Y|Z)</math>, то <math>P \models (X \bot Y|Z)</math>.
|proof= Покажем на примере из рисунка 1: <math>dsep_G(D, S|G)</math>, <math>P(D,I,G,S,L) = P(D)P(I)P(G|I,D)P(S|I)P(L|G)</math> — цепное правило, <math>P</math> факторизуется над <math>G</math>, <math>P(D,S) = \sum\limits_{G, L, I} P(D)P(I)P(G|D,I)P(S|I)P(L|G)=</math> <math>\sum\limits_{I}P(D)P(I)P(S|I)\sum\limits_{G}(P(C|D,I)\sum\limits_{L}P(L|G))=P(D)(\sum\limits_{I}P(I)P(S|I))=\phi_1(D)\phi_2(S)</math>. 
Значит, <math>P\models (X\bot Y | Z)</math>.
}}
{{Утверждение
|statement=Если <math>P</math> факторизуется над <math>G</math>, то в <math>P</math> каждая переменная <math>d</math>-разделена отделена (независима) от вершин, не являющихся её потомками, при означивании родителей.
}}
[[Файл:Flow_of_influence_and_d-separation.PNG|мини|600px|Рис. 2: Иллюстрация к утверждению про независимость переменной от вершин, не являющихся её потомками]]
Рассмотрим пример на рисунке 2: Вершина <math>L</math> <math>d-разделена</math> -отделена от всех вершин, не являющихся её потомками, так как все пути от вершин, не являющихся потомками, проходят через <math>G</math>, которая получила означивание, следовательно, такие пути неактивны, а пути, проходящие через <math>J</math> или <math>L</math> не являются активными, так как данные вершины не получили означивание и образуют <math>v</math>-образную структуру.
{{Определение
63
правки

Навигация