Алгоритм Баума-Велша — различия между версиями

Текущая версия на 19:31, 4 сентября 2022

Содержание

1 История
2 Описание алгоритма
3 Пример
4 Псевдокод
5 См. также
6 Источники информации

Алгоритм Баума-Велша (англ. Baum–Welch algorithm) — алгоритм для нахождения неизвестных параметров скрытой Марковской модели. Использует алгоритм прямого-обратного хода.

История

Скрытые Марковские модели (англ. Hidden Markov Models, HMMs) и алгоритм Баума-Велша впервые были описаны в заметках Леонарда Баума и его сверстников в конце [math]1960[/math] годов. Одно из первых основных приложений на основе HMMs было использовано в области обработки речи. В [math]1980[/math] годах HMMs стали эффективным инструментом в анализе биологических систем и информации, особенно в генном анализе.

Описание алгоритма

Пусть [math]Q_t[/math] — это дискретная случайная переменная, принимающая одно из [math]N[/math] значений [math](1 \ldots N)[/math]. Будем полагать, что данная модель Маркова, определенная как [math]P(Q_t \mid Q_{t - 1})[/math] однородна по времени, то есть независима от [math]t[/math]. Тогда можно задать [math]P(Q_t \mid Q_{t - 1}) [/math] как независящую от времени стохастическую матрицу перемещений . Особый случай для времени [math]t = 1[/math] определяется начальным распределением [math]\pi_i = P(Q_1 = i)[/math].

Будем считать, что мы в состоянии [math]j[/math] в момент времени [math]t[/math], если [math]Q_t = j[/math]. Последовательность заданных состояний определяется как [math]q = \{q_1 \dots q_T \}[/math], где [math]q_t \in \{ 1\ldots N\}[/math] является состоянием в момент времени [math]t[/math].

Наблюдение может иметь одно из [math]L[/math] возможных значений, [math]Q_t \in \{o_1 \dots o_L\}[/math]. Вероятность заданного вектора наблюдений в момент времени [math]t[/math] для состояния [math]j[/math] определяется как — это матрица [math]L[/math] на [math]N)[/math]. Заданная последовательность наблюдений [math]O[/math] выражается как .

Следовательно, мы можем описать скрытую модель Маркова с помощью [math] \lambda = (A, B, \pi)[/math]. При заданном векторе наблюдений [math]O[/math] алгоритм Баума-Велша находит . [math]\lambda[/math] максимизирует вероятность наблюдений [math]O[/math].

Исходные данные: [math] \lambda = (A, B, \pi)[/math] со случайными начальными условиями. Алгоритм итеративно обновляет параметр [math]\lambda[/math] до схождения в одной точке.

Прямая процедура

, что является вероятностью получения заданной последовательности [math]\{ o_1 \dots o_t \}[/math] для состояния [math]i[/math] в момент времени [math]t[/math].

[math]a_i(t)[/math] можно вычислить рекурсивно:

[math]1.\,[/math] ;

[math]2.\,[/math] .

Обратная процедура

Данная процедура позволяет вычислить вероятность конечной заданной последовательности [math]\{ o_{t + 1} \dots o_T \}[/math] при условии, что мы начали из исходного состояния [math]i[/math], в момент времени [math]t[/math].

[math]\beta_i(t)[/math] можно вычислить рекурсивно:

[math]1.\,[/math] [math]\beta_i(T) = 1[/math];

[math]2.\,[/math] .

Обновление переменных

Определим временные переменные:

.

Имея [math]\gamma[/math] и [math]\xi[/math], можно определить:

[math]\bar\pi_i=\gamma_i(1)[/math],

,

.

Используя новые переменные [math] A, B, \pi[/math] итерации продолжаются до схождения.

Пример

Предположим, у нас есть курица, с которой мы собираем яйца. Снесла ли курица яйца — зависит от некоторых неизвестных факторов. Для простоты предположим, что существуют лишь два состояния, которые определяют есть ли яйца. В начальный момент нам неизвестно текущее состояние, также нам неизвестна вероятность перехода из одного состояния в другое. Для начала возьмем произвольные матрицы переходов и состояний.

Переходы
	Состояние [math]1[/math]	Состояние [math]2[/math]
Состояние [math]1[/math]	[math]0.5[/math]	[math]0.5[/math]
Состояние [math]2[/math]	[math]0.3[/math]	[math]0.7[/math]

Состояния
	Яйца не отложены	Яйца отложены
Состояние [math]1[/math]	[math]0.3[/math]	[math]0.7[/math]
Состояние [math]2[/math]	[math]0.8[/math]	[math]0.2[/math]

Начальное состояние
Состояние [math]1[/math]	[math]0.2[/math]
Состояние [math]2[/math]	[math]0.8[/math]

Рассмотрим набор наблюдений ([math]E[/math] — яйца отложены, [math]N[/math] — яйца не отложены): .

Следующим шагом оценим новую матрицу переходов:

Последовательность	Вероятность последовательности и состояний	Наибольшая вероятность наблюдения
[math]NN[/math]	[math]0.024[/math]	[math]0.3584\,[/math] [math]S_2,[/math] [math]S_2[/math]
[math]NN[/math]	[math]0.024[/math]	[math]0.3584\,[/math] [math]S_2,[/math] [math]S_2[/math]
[math]NN[/math]	[math]0.024[/math]	[math]0.3584\,[/math] [math]S_2,[/math] [math]S_2[/math]
[math]NN[/math]	[math]0.024[/math]	[math]0.3584\,[/math] [math]S_2,[/math] [math]S_2[/math]
[math]NE[/math]	[math]0.006[/math]	[math]0.1344\,[/math] [math]S_2,[/math] [math]S_1[/math]
[math]EE[/math]	[math]0.014[/math]	[math]0.0490\,[/math] [math]S_1,[/math] [math]S_1[/math]
[math]EN[/math]	[math]0.056[/math]	[math]0.0896\,[/math] [math]S_2,[/math] [math]S_2[/math]
[math]NN[/math]	[math]0.024[/math]	[math]0.3584\,[/math] [math]S_2,[/math] [math]S_2[/math]
[math]NN[/math]	[math]0.024[/math]	[math]0.3584\,[/math] [math]S_2,[/math] [math]S_2[/math]
Итог	[math]0.22[/math]	[math]2.4234[/math]

Таким образом получаем новую оценку перехода из [math]S_1[/math] в [math]S_2[/math], которая составляет [math]\dfrac{0.22}{2.4234}[/math][math] = 0.0908[/math]. После этого можно подсчитать вероятность переходов из [math]S_2[/math] в [math]S_1[/math], [math]S_2[/math] в [math]S_2[/math], [math]S_1[/math] в [math]S_1[/math] и изменим их так, чтобы в суммы вероятностей давали [math]1[/math]. В итоге получаем новую матрицу переходов:

Старая матрица
	Состояние [math]1[/math]	Состояние [math]2[/math]
Состояние [math]1[/math]	[math]0.5[/math]	[math] 0.5[/math]
Состояние [math]2[/math]	[math]0.3 [/math]	[math]0.7[/math]

Новая матрица (Псевдовероятности)
	Состояние [math]1[/math]	Состояние [math]2[/math]
Состояние [math]1[/math]	[math]0.0598[/math]	[math]0.0908[/math]
Состояние [math]2[/math]	[math]0.2179[/math]	[math] 0.9705[/math]

Новая матрица (После изменения)
	Состояние [math]1[/math]	Состояние [math]2[/math]
Состояние [math]1[/math]	[math]0.3973[/math]	[math] 0.6027[/math]
Состояние [math]2[/math]	[math]0.1833[/math]	[math] 0.8167[/math]

Далее оценим новую матрицу состояний:

Последовательности	Наибольшая вероятность наблюдения Если допустимо, что E получено из [math]S_1[/math]	Наибольшая вероятность наблюдения
[math]NE[/math]	[math]0.1344\,[/math] [math] S_2, [/math] [math]S_1[/math]	[math]0.1344\,[/math] [math]S_2,[/math][math] S_1[/math]
[math]EE[/math]	[math]0.0490\,[/math] [math] S_1, [/math] [math]S_1[/math]	[math]0.0490\,[/math] [math]S_1,[/math][math] S_1[/math]
[math]EN[/math]	[math]0.0560\,[/math] [math] S_1, [/math] [math]S_2[/math]	[math]0.0896\,[/math] [math]S_1,[/math] [math]S_2[/math]
Итог	[math]0.2394[/math]	[math]0.2730[/math]

Новая оценка для [math]E[/math], полученная из [math]S_1[/math], составляет [math]\dfrac{0.2394}{0.2730}[/math] [math] = 0.8769[/math].

Благодаря этому, возможно рассчитать матрицу состояний:

Старая матрица
	Яйца не отложены	Яйца отложены
Состояние [math]1[/math]	[math]0.3[/math]	[math]0.7[/math]
Состояние [math]2[/math]	[math]0.8[/math]	[math]0.2[/math]

Новая матрица (Оценка)
	Яйца не отложены	Яйца отложены
Состояние [math]1[/math]	[math]0.0876[/math]	[math]0.8769[/math]
Состояние [math]2[/math]	[math]1.0000[/math]	[math] 0.7385[/math]

Новая матрица (После изменения)
	Яйца не отложены	Яйца отложены
Состояние [math]1[/math]	[math]0.0908[/math]	[math]0.9092[/math]
Состояние [math]2[/math]	[math]0.5752[/math]	[math]0.4248[/math]

Для оценки начальной вероятности, мы предполагаем, что все последовательности начаты со скрытого состояния [math]S_1[/math] и рассчитаны с высокой вероятностью, а затем повторяем для [math]S_2[/math]. После нормализации получаем обновленный исходный вектор.

Повторяем эти шаги до тех пор, пока вероятности не сойдутся.

Псевдокод

 // T — конечный момент времени
 int[] DynamicOptionalStateSequance([math]\lambda[/math], d):
     double [math]\gamma[/math][1, i] = [math]\pi[/math][i] * b[i, d[1]]
     int [math]\psi[/math][1, i] = []
     int ans[]
     for t = 2 to T
         for i = 1 to n
             if [math]\gamma[/math][t, j] < [math]\gamma[/math][t - 1, i] * a[i, j] * b[j, d[t]]
                 [math]\gamma[/math][t, j] = [math]\gamma[/math][t - 1, i] * a[i, j] * b[j, d[t]]
                 [math]\psi[/math][t, j] = i
     ans[T] = 1 
     for i = 2 to n
         if [math]\gamma[/math][T, i] > [math]\gamma[/math][T, i - 1]
             ans[T] = i    
     for t = T - 1 downto 1
         ans[t] = [math]\psi[/math][t + 1, ans[t + 1]]
 return ans

См. также

Источники информации

Википедия — Алгоритм Баума-Велша

Лекция "Скрытые Марковские Модели" Сергея Николенко

Wikipedia — Baum–Welch algorithm

@@ Строка 1: / Строка 1: @@
+__TOC__
 '''Алгоритм Баума-Велша''' (англ. ''Baum–Welch algorithm'') — алгоритм для нахождения неизвестных параметров [[Скрытые_Марковские_модели | скрытой Марковской модели]]. Использует [[Алгоритм_"Вперед-Назад" | алгоритм прямого-обратного хода]].
 ==История==
-[[Скрытые_Марковские_модели | Скрытые Марковские модели]] (HMMs) и алгоритм Баума-Велша впервые были описаны в заметках Леонарда Баума и его сверстников в конце <tex>1960</tex>. Одно из первых основных приложений на основе HMMs было использовано в области обработки речи. В <tex>1980</tex> HMMs стало эффективным инструментом в анализе биологических систем и информации, особенно в генном анализе.
+[[Скрытые_Марковские_модели | Скрытые Марковские модели]] (англ. ''Hidden Markov Models'', ''HMMs'') и алгоритм Баума-Велша впервые были описаны в заметках Леонарда Баума и его сверстников в конце <tex>1960</tex> годов. Одно из первых основных приложений на основе HMMs было использовано в области обработки речи. В <tex>1980</tex> годах HMMs стали эффективным инструментом в анализе биологических систем и информации, особенно в генном анализе.
 == Описание алгоритма==
-Пусть <tex>Q_t</tex> — это дискретная случайная переменная, принимающая одно из <tex>N</tex> значений <tex>(1..N)</tex>. Будем полагать, что данная модель Маркова, определенная как <tex>P(Q_t | Q_{t - 1})</tex> однородна по времени, то есть независима от <tex>t</tex>. Тогда можно задать <tex>P(Q_t \mid Q_{t - 1}) </tex> как независящую от времени стохастическую матрицу перемещений <tex>A = \{a_{ij}\} = p(Q_t = j \mid Q_{t - 1} = i)</tex>. Особый случай для времени <tex>t = 1</tex> определяется начальным распределением <tex>\pi_i = P(Q_1 = i)</tex>.
+Пусть <tex>Q_t</tex> — это дискретная случайная переменная, принимающая одно из <tex>N</tex> значений <tex>(1 \ldots N)</tex>. Будем полагать, что данная модель Маркова, определенная как <tex>P(Q_t \mid Q_{t - 1})</tex> однородна по времени, то есть независима от <tex>t</tex>. Тогда можно задать <tex>P(Q_t \mid Q_{t - 1}) </tex> как независящую от времени стохастическую матрицу перемещений <tex>A = \{a_{ij}\} = p(Q_t = j \mid Q_{t - 1} = i)</tex>. Особый случай для времени <tex>t = 1</tex> определяется начальным распределением <tex>\pi_i = P(Q_1 = i)</tex>.
 Будем считать, что мы в состоянии <tex>j</tex> в момент времени <tex>t</tex>, если <tex>Q_t = j</tex>. Последовательность заданных состояний определяется как <tex>q = \{q_1 \dots q_T \}</tex>, где <tex>q_t \in \{ 1\ldots N\}</tex> является состоянием в момент времени <tex>t</tex>.
@@ Строка 25: / Строка 26: @@
 <tex>a_i(t)</tex> можно вычислить рекурсивно:
-.<tex>a_i(1) = \pi_i \cdot b_i(O_1) </tex>;
+<tex>1.\,</tex> <tex>a_i(1) = \pi_i \cdot b_i(O_1) </tex>;
-.<tex>a_j(t + 1) = b_j(O_{t + 1})\displaystyle\sum^N_{i=1}a_i(t) \cdot a_{ij}</tex>.
+<tex>2.\,</tex> <tex>a_j(t + 1) = b_j(O_{t + 1})\displaystyle\sum^N_{i=1}a_i(t) \cdot a_{ij}</tex>.
 === Обратная процедура ===
@@ Строка 35: / Строка 36: @@
 <tex>\beta_i(t)</tex> можно вычислить рекурсивно:
-.<tex>\beta_i(T) = 1</tex>;
+<tex>1.\,</tex> <tex>\beta_i(T) = 1</tex>;
-. <tex>\beta_i(t) = \displaystyle\sum^N_{j = 1}\beta_j(t + 1)a_{ij}b_j(O_{t + 1})</tex>.
+<tex>2.\,</tex> <tex>\beta_i(t) = \displaystyle\sum^N_{j = 1}\beta_j(t + 1)a_{ij}b_j(O_{t + 1})</tex>.
 === Обновление переменных ===
@@ Строка 67: / Строка 68: @@
 |+Переходы
 |-
-! !! Состояние 1 !! Состояние  2
+! !! Состояние <tex>1</tex> !! Состояние <tex>2</tex>
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.5</tex> || <tex>0.5</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.3</tex> || <tex>0.7</tex>
 |}
@@ Строка 81: / Строка 82: @@
 ! !! Яйца не отложены !! Яйца отложены
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.3</tex> || <tex>0.7</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.8</tex> || <tex>0.2</tex>
 |}
@@ Строка 91: / Строка 92: @@
 |+ Начальное состояние
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.2</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.8</tex>
 |}
@@ Строка 141: / Строка 142: @@
 |+Старая матрица
 |-
-! !! Состояние 1 !! Состояние 2
+! !! Состояние <tex>1</tex> !! Состояние <tex>2</tex>
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.5</tex> ||<tex> 0.5</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.3 </tex>|| <tex>0.7</tex>
 |}
@@ Строка 153: / Строка 154: @@
 |+Новая матрица (Псевдовероятности)
 |-
-! !! Состояние 1 !! Состояние 2
+! !! Состояние <tex>1</tex> !! Состояние <tex>2</tex>
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.0598</tex> || <tex>0.0908</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.2179</tex> ||<tex> 0.9705</tex>
 |}
@@ Строка 165: / Строка 166: @@
 |+Новая матрица (После изменения)
 |-
-! !! Состояние 1 !! Состояние 2
+! !! Состояние <tex>1</tex> !! Состояние <tex>2</tex>
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.3973</tex> ||<tex> 0.6027</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.1833</tex> ||<tex> 0.8167</tex>
 |}
@@ Строка 181: / Строка 182: @@
 {| class="wikitable"
 |-
-! Последовательности !! Наибольшая вероятность наблюдения <br/> Если допустимо, что E получено из <tex>S1</tex> !! Наибольшая вероятность наблюдения
+! Последовательности !! Наибольшая вероятность наблюдения <br/> Если допустимо, что E получено из <tex>S_1</tex> !! Наибольшая вероятность наблюдения
 |-
 | <tex>NE</tex> || <tex>0.1344\,</tex>  <tex> S_2, </tex> <tex>S_1</tex> || <tex>0.1344\,</tex>  <tex>S_2,</tex><tex> S_1</tex>
@@ Строка 207: / Строка 208: @@
 ! !! Яйца не отложены  !! Яйца отложены
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.3</tex> || <tex>0.7</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.8</tex> || <tex>0.2</tex>
 |}
@@ Строка 219: / Строка 220: @@
 ! !! Яйца не отложены  !! Яйца отложены
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.0876</tex> || <tex>0.8769</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>1.0000</tex> ||<tex> 0.7385</tex>
 |}
@@ Строка 231: / Строка 232: @@
 ! !! Яйца не отложены  !! Яйца отложены
 |-
-! Состояние 1
+! Состояние <tex>1</tex>
 |<tex>0.0908</tex> || <tex>0.9092</tex>
 |-
-! Состояние 2
+! Состояние <tex>2</tex>
 |<tex>0.5752</tex> || <tex>0.4248</tex>
 |}

Алгоритм Баума-Велша — различия между версиями

Текущая версия на 19:31, 4 сентября 2022

Содержание

История

Описание алгоритма

Прямая процедура

Обратная процедура

Обновление переменных

Пример

Псевдокод

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты