Теоретическая оценка времени работы алгоритмов RMHC и (1+1)-ES для задач OneMax и MST — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м
 
(не показано 25 промежуточных версий 5 участников)
Строка 1: Строка 1:
 
== Постановка задачи однокритериальной оптимизации==
 
== Постановка задачи однокритериальной оптимизации==
 +
Пусть <tex>S</tex> {{---}} дискретное пространство решений, а
 +
<tex>f : S \rightarrow \mathbb{R}</tex> {{---}} оценочная функция.
  
<tex>S</tex> - пространство решений (дискретно),
+
Тогда задача однокритериальной оптимизации заключается в том, чтобы найти такое <tex>s \in S </tex>, что <tex> f(s)</tex> максимально. При этом рассматривается black-box scenario, что означает, что получить информацию об <tex>f</tex> можно только путем ее вычисления.
 +
В случае эволюционных алгоритмов время их работы измеряется в количестве вычислений оценочной функции.
  
<tex>f : S \rightarrow \mathbb{R}</tex> - оценочная функция.
+
== Рассмотренные методы решения ==
 
+
==='''HC''' (Hill Climbing)===
Задача: найти <tex>s \in S : f(s) \rightarrow max </tex>. При этом рассматривается black-box scenario, что означает, что получить информацию об <tex>f</tex> можно только путем ее вычисления.
+
В русскоязычном варианте этот метод называется методом спуска. Общая схема данного алгоритма выглядит следующим образом:
 
 
== Методы решения ==
 
==='''HC'''(Hill Climbing)===
 
 
 
  x <tex>\leftarrow</tex> random
 
  x <tex>\leftarrow</tex> random
 
  while(true)
 
  while(true)
   x' <tex>\leftarrow</tex> neibor(x)
+
   x' <tex>\leftarrow</tex> neighbour(x)
 
   f(x') <tex>\geq</tex> f(x) <tex> \Rightarrow </tex> x = x'  
 
   f(x') <tex>\geq</tex> f(x) <tex> \Rightarrow </tex> x = x'  
 
Итерации выполняются, пока не будет удовлетворен критерий останова. Возможны два варианта HC:
 
Итерации выполняются, пока не будет удовлетворен критерий останова. Возможны два варианта HC:
  
1) '''first ascent''' --- в качестве <tex>x'</tex> выбирается первый из соседей, для которого <tex>f(x') \geq f(x)</tex>
+
1) '''first ascent''' {{---}} в качестве <tex>x'</tex> выбирается первый из соседей, для которого <tex>f(x') \geq f(x)</tex>;
  
2) '''steepest ascent''' --- осуществляется перебор всех соседей, и в качестве <tex>x'</tex> выбирается тот, для которого <tex>f(x')-f(x)</tex> максимально
+
2) '''steepest ascent''' {{---}} осуществляется перебор всех соседей, и в качестве <tex>x'</tex> выбирается тот, для которого <tex>f(x')-f(x)</tex> максимально.
  
 
==='''RMHC''' (Random Mutation Hill Climbing)===
 
==='''RMHC''' (Random Mutation Hill Climbing)===
  
Та же схема, что и для HC, но <tex> x'</tex> получают путем случайного изменения одного из компонентов решения <tex> x </tex>.
+
В данном алгоритме применяется же схема, что и для метода спуска, но <tex> x'</tex> получают путем случайного изменения одного из компонентов решения <tex> x </tex>.
  
 
==='''ES''' (Evolution Strategies)===
 
==='''ES''' (Evolution Strategies)===
 +
Это широкий класс алгоритмов поиска, основанных на идеях приспособления и эволюции<ref>Droste S., Jansen T., Wegener I.: [http://www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CEcQFjAA&url=http%3A%2F%2Fwww.mpi-inf.mpg.de%2F~tfried%2Fteaching%2FSS08%2Fseminar%2Fpaper%2F7-DorsteJansenWegener.pdf&ei=92DfT6vnDMX6mAWz1fmtDA&usg=AFQjCNErEUu9L8x4PWFPofp3Y80hjE2_Ow&sig2=G9rsT_PDarYfL7LL4tLPvg  On the analysis of the (1 + 1) evolutionary algorithm.] Theoretical Computer Science 276, 51–81 (2002) </ref>. Существуют различные вариации ES:
  
1) <tex>(1+1)-ES </tex> --- после внесения случайного изменения в каждый из компонентов <tex> x</tex>, <tex>x'</tex> может оказаться любым элементом <tex>S</tex>, но, чем он ближе к <tex>x</tex>, тем выше вероятность его выбора.
+
1) (1+1)-ES {{---}} на каждой итерации существует одно исходное решение <tex> x</tex> и одно промежуточное решение <tex>x'</tex>. После внесения случайного изменения в каждый из компонентов <tex> x</tex>, <tex>x'</tex> может оказаться любым элементом <tex>S</tex>, но, чем он ближе к <tex>x</tex>, тем выше вероятность его выбора.
 
 
2) <tex>(1+\lambda)-ES</tex> --- генерируется <tex>\lambda</tex> промежуточных решений, среди них выбирается лучшее.
 
  
3) <tex>(1+\lambda)-ES</tex> --- генерируется <tex>\lambda</tex> промежуточных решений, среди них выбирается <tex>\mu</tex> лучших.
+
2) (1+<tex>\lambda</tex>)-ES {{---}} на каждой итерации генерируется <tex>\lambda</tex> промежуточных решений, среди них выбирается лучшее.
  
 +
3) (<tex>\mu</tex>+<tex>\lambda</tex>)-ES {{---}} на каждой итерации генерируется <tex>\lambda</tex> промежуточных решений, среди них выбирается <tex>\mu</tex> лучших.
  
 
== Примеры задач ==
 
== Примеры задач ==
  
 
===OneMax===  
 
===OneMax===  
Найти битовую строку длины <tex>n</tex>, состоящую из одних единиц. Оценочная функция:
+
Задача состоит в том, чтобы найти битовую строку длины <tex>n</tex>, состоящую из одних единиц. Оценочная функция {{---}} количество единиц в текущем решении:
  
 
<tex>f(x_1, x_2, \dots , x_n) = OneMax(x_1, x_2, \dots , x_n) = x_1 + x_2, + \dots + x_n </tex>
 
<tex>f(x_1, x_2, \dots , x_n) = OneMax(x_1, x_2, \dots , x_n) = x_1 + x_2, + \dots + x_n </tex>
  
 
===MST (Minimum spanning tree)===
 
===MST (Minimum spanning tree)===
Дан связный неориентированный граф <tex> G = (V, E) </tex>, с ребрами веса <tex> w_e </tex>. Требуется найти минимальное остовное дерево <tex>T = (V, E')</tex> минимального веса <tex> w(T) = \sum_{e \in E'} w_e </tex>.
+
Известная задача на графах, формулируется следующим образом. Пусть дан связный неориентированный граф <tex> G = (V, E) </tex>. Для каждого ребра <tex>e \in E</tex> задан вес <tex> w_e </tex>. Требуется найти [[Дискретная математика, алгоритмы и структуры данных#Построение остовных деревьев|остовное дерево]] <tex>T = (V, E')</tex> минимального веса <tex> w(T) = \sum_{e \in E'} w_e </tex>.
  
 
== Оценка времени работы для OneMax ==
 
== Оценка времени работы для OneMax ==
'''Утверждение 1:'''
 
  
<tex> ( 1 - \frac{1}{n} ) ^ {n-1} \geq \frac{1}{e}</tex>
+
Содержание данного раздела основано на работе <ref>Witt C.: [http://massivedatasets.files.wordpress.com/2010/03/slides-02283-20102.pdf  Randomized Search Heuristics.] Algorithms for Massive Data Sets, DTU Informatik,Danmarks Tekniske Universitet (2010)</ref>.
  
'''Доказательство:'''
+
Чтобы оценить время работы вышеописанных алгоритмов на задаче OneMax необходимо доказать несколько утверждений.
  
<tex> lim_{n \to \infty}(1 + \frac{1}{n})^n = e </tex>
+
{{Утверждение
 +
|id=proposal1
 +
|about=1
 +
|statement=<tex> ( 1 - \frac{1}{n} ) ^ {n-1} \geq \frac{1}{e}</tex>
 +
|proof=Из курса математического анализа известно, что <tex> lim_{n \to \infty}(1 + \frac{1}{n})^n = e </tex>.
  
<tex> (\frac {1} {1 + \frac{1}{n}})^n  = (\frac {1} {\frac{n + 1}{n}})^n = (\frac {n} {n+1})^n \stackrel{ _{m = n + 1}}{=}
+
Путем несложных преобразований получаем: <tex> (\frac {1} {1 + \frac{1}{n}})^n  = (\frac {1} {\frac{n + 1}{n}})^n = (\frac {n} {n+1})^n \stackrel{ _{m = n + 1}}{=}
(1 - \frac{1}{m}) ^ {m-1}</tex>
+
(1 - \frac{1}{m}) ^ {m-1}</tex>.
  
'''Утверждение 2:'''
+
Чтобы перейти от предела к неравенству, докажем, что <tex>(1 + \frac{1}{n})^n \leq e</tex>.
  
<tex> \frac{n^k}{k^k} \leq C_n^k (1)</tex>  
+
Известно, что <tex>1 + x  \leq e^x</tex>. Пусть <tex>x = \frac{1}{n}</tex>, тогда <tex>1 + \frac{1}{n} \leq e^{\frac{1}{n}}</tex>. Возведем обе части в степень <tex>n</tex> и получим требуемое неравенство.
  
<tex>  C_n^k \leq \frac{n^k}{k!} (2)</tex>
+
}}
  
'''Доказательство:'''
+
{{Утверждение
 +
|id=proposal2
 +
|about=2
 +
|statement=
 +
<tex> \frac{n^k}{k^k} \leq C_n^k (1)</tex> <br>
  
1) <tex> C_n^k = \frac{n!}{k!(n-k)!} \leq \frac{n^k}{k!}</tex>
+
<tex> C_n^k \leq \frac{n^k}{k!} (2)</tex>  
 
+
|proof=
2) <tex>b \leq a \Rightarrow \frac{a}{b} \leq \frac{a - 1} {b - 1}, a,b > 1 \Rightarrow (1) </tex>
 
 
 
'''Утверждение 3:'''
 
 
 
<tex> (\frac{1}{n})^k (1 - \frac{1}{n})^{n - k} \geq \frac{1}{e n^k} </tex>
 
 
 
'''Доказательство:'''
 
 
 
<tex> (1 - \frac{1}{n})^{n - k} \geq \frac{1}{e} </tex> по Утверждению 1, отсюда следует Утверждение 3.
 
  
'''Утверждение 4:'''
+
1) Из определения <tex> C_n^k </tex> сразу следует <tex> (2) </tex> : <tex> C_n^k  = \frac{n!}{k!(n-k)!} \leq \frac{n^k}{k!}</tex>.
  
<tex> C_n^k \frac{1}{n}^k(1 - \frac{1}{n})^{n - k} \geq \frac{1}{e k^k} </tex>
+
2) Известно, что для <tex> a,b > 1 </tex> справедливо <tex>b \leq a \Rightarrow \frac{a}{b} \leq \frac{a - 1} {b - 1}</tex>
 +
Отсюда, вновь воспользовавшись определением <tex> C_n^k </tex>, получаем <tex>(1) </tex>.
 +
}}
  
'''Доказательство:'''
+
{{Утверждение
 +
|id=proposal3
 +
|about=3
 +
|statement=<tex> (\frac{1}{n})^k (1 - \frac{1}{n})^{n - k} \geq \frac{1}{e n^k} </tex>.
 +
|proof=
 +
<tex> (1 - \frac{1}{n})^{n - k} \geq \frac{1}{e} </tex> по [[#proposal1|утверждению(1)]], отсюда следует требуемый результат.
 +
}}
  
 +
{{Утверждение
 +
|id=proposal4
 +
|about=4
 +
|statement=<tex> C_n^k (\frac{1}{n})^k(1 - \frac{1}{n})^{n - k} \geq \frac{1}{e k^k} </tex>.
 +
|proof=
 
<tex> C_n^k (\frac{1}{n})^k(1 - \frac{1}{n})^{n - k}  
 
<tex> C_n^k (\frac{1}{n})^k(1 - \frac{1}{n})^{n - k}  
\geq \frac{n^k}{k^k} \frac{1}{e n^k} = \frac{1}{e k^k}</tex> по Утверждениям 1 и 4.
+
\geq \frac{n^k}{k^k} \frac{1}{e n^k} = \frac{1}{e k^k}</tex> по [[#proposal2|утверждению(2)]] и [[#proposal3|утверждению(3)]].
 +
}}
  
'''Утверждение 5 (Лемма об ожидании):'''
+
{{Утверждение
 +
|id=proposal5
 +
|about=Лемма об ожидании
 +
|statement=Если вероятность наступления события <tex>A</tex> на каждом шаге равна <tex>p</tex>, то матожидание времени наступления этого события <tex>E(t_A) = \frac{1}{p}</tex>.
 +
|proof=По определению математического ожидания:  
  
Если вероятность наступления события <tex>A</tex> на каждом шаге равна <tex>p</tex>, то матожидание наступления этого события
+
<tex>E(t_A) = 1 \cdot p + 2 (1-p) p + 3 (1 - p)^2 p + \dots + k (1 - p)^k p + \dots = \sum_{i=1}^\infty  i p (1 - p) ^{i - 1} = p\sum_{i=1}^\infty  i (1 - p) ^{i - 1}</tex>.
<tex>E(t_A) = \frac{1}{p}</tex>.
 
  
'''Доказательство:'''
+
Из курса математического анализа известно, что <tex> \frac{1}{1 - x} = \sum_{i=0}^\infty  x^i </tex>, а также то, что этот ряд удовлетворяет условиям теоремы о почленном дифференцировании.
  
<tex>E(t_A) = 1 \cdot p + 2 (1-p) p + 3 (1 - p)^2 p + \dots + k (1 - p)^k p + \dots = \sum_{i=1}^\infty  i p (1 - p) ^{i - 1} = p\sum_{i=1}^\infty  i (1 - p) ^{i - 1}</tex>
+
Воспользовавшись этим фактом, получаем:
  
<tex> \frac{1}{1 - x} = \sum_{i=0}^\infty  x^i </tex>
+
<tex> (\frac{1}{1 - x})' = \frac{1}{(1 - x) ^ 2} = \sum_{i=0}^\infty  i x^{i - 1} </tex>.
 
 
Продиффиренцировав, получаем:
 
 
 
<tex> \frac{1}{1 - x}' = \frac{1}{(1 - x) ^ 2} = \sum_{i=0}^\infty  i x^{i - 1} </tex>
 
 
 
<tex> \frac{p}{ (1 - (1 - p)) ^ 2} = p \sum_{i=1}^\infty  i (1 - p)^{i-1} = \frac{1}{p} </tex>
 
  
 +
Отсюда видно, что: <tex> \frac{p}{ (1 - (1 - p)) ^ 2} = p \sum_{i=1}^\infty  i (1 - p)^{i-1} = \frac{1}{p} </tex>.
 +
}}
 
=== Алгоритм RMHC ===
 
=== Алгоритм RMHC ===
  
На каждом шаге равномерно выбираем и инвертируем один бит из <tex> n </tex>. Пусть <tex> k </tex> --- значение <tex> f </tex> в начале фазы. При <tex> k + 1 = k' > k </tex> фаза заканчивается.
+
Решение задачи OneMax с помощью алгоритма RMHC выглядит следующим образом. В качестве начального решения примем случайный вектор, а затем на каждой итерации равновероятно выбираем и инвертируем один бит из <tex> n </tex>. Пусть <tex> k </tex> {{---}} количество единиц в векторе (то есть значение <tex> f </tex>) в начале фазы. При <tex> k + 1 = k' > k </tex> фаза заканчивается.
  
 
Оценим время работы алгоритма для данной задачи.
 
Оценим время работы алгоритма для данной задачи.
  
Вероятность окончания фазы <tex> \frac{n - k}{n} </tex>. Тогда по Утверждению 5 <tex> E(t) = \frac{n}{n-k}  </tex> для конкретной фазы.
+
Вероятность окончания фазы {{---}} это вероятность того, что будет выбран один из оставшихся <tex>n - k</tex> нулевых битов: <tex> \frac{n - k}{n} </tex>. Тогда по [[#proposal5|лемме об ожидании]] <tex> E(t) = \frac{n}{n-k}  </tex> для конкретной фазы.
  
Отсюда ожидаемая продолжительность всех фаз:  
+
Отсюда ожидаемая продолжительность всех фаз равна:  
 
<tex> \sum_{k=0}^{n-1} \frac{n}{n-k} = n \sum_{i=1}^{n} \frac{1}{i} = O(n \log n) </tex>
 
<tex> \sum_{k=0}^{n-1} \frac{n}{n-k} = n \sum_{i=1}^{n} \frac{1}{i} = O(n \log n) </tex>
  
 
=== Алгоритм (1+1)-ES ===
 
=== Алгоритм (1+1)-ES ===
  
Независимо для каждого бита инвертируем его с вероятностью <tex> p = \frac{1}{n} </tex>. Пусть <tex> k </tex> --- значение <tex> f </tex> в начале фазы. При <tex> k' > k </tex> фаза заканчивается.
+
Применим (1+1)-ES к решению задачи OneMax. Для этого на каждой итерации независимо для каждого бита инвертируем его с вероятностью <tex> p = \frac{1}{n} </tex>. Пусть <tex> k </tex> {{---}} значение <tex> f </tex> в начале фазы. При <tex> k' > k </tex> фаза заканчивается.
  
 
Оценим время работы алгоритма для данной задачи.
 
Оценим время работы алгоритма для данной задачи.
  
Вероятность окончания фазы <tex> (n - k)\frac{1}{n}(1 - \frac{1}{n}) ^ {n-1} \geq \frac{n - k}{e n}</tex> по утверждению 3. Тогда по Утверждению 5 <tex> E(t) \leq \frac{e n}{n-k}  </tex> для конкретной фазы.
+
Чтобы количество единиц увеличилось, необходимо из перевернуть хотя бы один из <tex>n - k</tex> нулевых битов, и при этом не затронуть единичных. С учетом того, что вероятность переворота <tex> \frac{1}{n} </tex>, получаем вероятность окончания фазы <tex> (n - k)\frac{1}{n}(1 - \frac{1}{n}) ^ {n-1} \geq \frac{n - k}{e n}</tex> по [[#proposal3|утверждению(3)]]. Тогда по [[#proposal5|лемме об ожидании]] <tex> E(t) \leq \frac{e n}{n-k}  </tex> для конкретной фазы.
  
 
Отсюда ожидаемая продолжительность всех фаз меньше либо равна:  
 
Отсюда ожидаемая продолжительность всех фаз меньше либо равна:  
 
<tex> \sum_{k=0}^{n-1} \frac{e n}{n-k} = e n \sum_{i=1}^{n} \frac{1}{i} = O(n \log n) </tex>
 
<tex> \sum_{k=0}^{n-1} \frac{e n}{n-k} = e n \sum_{i=1}^{n} \frac{1}{i} = O(n \log n) </tex>
  
==Оценка времени работы алгоритмов с использованием Drift Analysis==
+
==Оценка времени работы с использованием Drift Analysis==
  
===Drift theorem===
+
[[Теорема о дрифте | Теорема о дрифте]] с успехом применяется для оценки времени работы эволюционных алгоритмов в различных ситуациях. Примеры можно найти в работе<ref>Doerr B.: [http://dl.acm.org/citation.cfm?id=2002138  Tutorial: Drift Analysis.] GECCO '11 Proceedings of the 13th annual conference companion on Genetic and evolutionary computation, 1311-1320  (2011)</ref>.
Пусть <tex>X_0, X_1, \dots</tex> --- неотрицательные целочисленные случайные величины и существует <tex>\delta > 0</tex> такое что:
 
  
<tex>\forall t \in \mathbb{N}, x \in \mathbb{N}_0 : E(X_t | X_{t-1} = x) \leq (1 - \delta) x</tex>.
+
===RMHC для OneMax===
 +
Пусть <tex>X_t</tex> {{---}} число нулевых бит после итерации <tex>i</tex>: <tex>X_t = f_{opt} - f(X_t)</tex>
  
Тогда <tex>T = \min\{t \in \mathbb{N}_0 | X_t = 0\}</tex> удовлетворяет
+
Пусть <tex>X_{t-1} = k</tex>. Тогда
  
<tex>E(T) \leq \frac{1}{\delta}(\ln(X_0) + 1)</tex>
+
<tex>E(X_t | X_{t-1} = k) = (k-1)\frac{k}{n} + k \frac{n-k}{n} = k (1 - \frac{1}{n})</tex>, то есть <tex> \delta = \frac{1}{n}</tex>.
  
===An Improved Drift theorem===
+
Отсюда по [[Теорема о дрифте|теореме о дрифте]], с учетом того, что <tex> X_0 \leq n </tex> получаем: <tex> E(T) \leq n(\ln{n} + 1)</tex>.
Пусть <tex>X_0, X_1, \dots</tex> --- случайные величины из <tex>\{0\} \cup [1, \infty)</tex> и существует <tex>\delta > 0</tex> такое что:
 
  
<tex>\forall t \in \mathbb{N}, x \in \mathbb{N}_0 : E(X_t | X_{t-1} = x) \leq (1 - \delta) x</tex>.
+
===(1+1)-ES для OneMax===
 +
Пусть <tex>X_t</tex> {{---}} число нулевых бит после итерации <tex>i</tex>: <tex>X_t = f_{opt} - f(X_t)</tex>.
  
Тогда <tex>T = \min\{t \in \mathbb{N}_0 | X_t = 0\}</tex> удовлетворяет
+
Пусть <tex>X_{t-1} = k</tex>. Тогда вероятность перевернуть один нулевых битов равна <tex>k \frac{1}{n} ( 1 - \frac{1}{n})^{n-1} \geq \frac{k}{e n} </tex>. Отсюда:
  
<tex>E(T) \leq \frac{1}{\delta}(\ln(X_0) + 1)</tex>
+
<tex>E(X_t | X_{t-1} = k) \leq (k-1)\frac{k}{e n} + k (1 - \frac{k}{e n}) = k (1 - \frac{1}{e n})</tex>, то есть <tex> \delta = \frac{1}{e n}</tex>.
  
<tex>\forall c > 0, Pr(T \frac{1}{\delta}(\ln(X_0) + c)) \leq e ^ {-c}</tex>
+
Применяем [[Теорема о дрифте|теорему о дрифте]], с учетом того, что <tex> X_0 \leq n </tex>, и получаем: <tex> E(T) \leq e n(\ln{n} + 1)</tex>.
  
===RMHC для OneMax===
+
=== (1+1)-ES для MST ===
Пусть <tex>X_t</tex> --- число нулевых бит после итерации <tex>i</tex>: <tex>X_t = f_{opt} - f(X_t)</tex>
 
  
Пусть <tex>X_{t-1} = k</tex>. Тогда
+
Рассмотрим в качестве более содержательного примера поиск минимального остовного дерева с помощью (1+1)-ES. Решение представляет собой битовую строку <tex>x</tex> длины <tex>m = |E|</tex>, где <tex>x_e = 1</tex>, если ребро <tex>e</tex> входит в текущий подграф <tex>T</tex>, и <tex>x_e = 0</tex> в обратном случае.
  
<tex>E(X_t | X_{t-1} = k) = (k-1)\frac{k}{n} + k \frac{n-1}{n} = k (1 - \frac{1}{n})</tex>, то есть <tex> \delta = \frac{1}{n}</tex>.
+
На каждой итерации независимо для каждого бита инвертируем его с вероятностью <tex>\frac{1}{m}</tex>.
  
Отсюда по теореме о дрифте, с учетом того, что <tex> X_0 \leq n </tex> получаем: <tex> E(T) \leq n(\ln{n} + 1)</tex>.
+
В качестве оценочной функции возьмем <tex>w(T) + C_{penalty} (|T| - n + 1) + {C_{penalty}}^2 ({\#comp} - 1) </tex>, где <tex>\#comp</tex> {{---}} число компонент связности в текущем <tex> T </tex>, а <tex> C_{penalty} > m w_{max}</tex>, где <tex>w_{max}</tex> {{---}} максимальный вес ребра.
  
===(1+1)-ES для OneMax===
+
{{Теорема
Пусть <tex>X_t</tex> --- число нулевых бит после итерации <tex>i</tex>: <tex>X_t = f_{opt} - f(X_t)</tex>
+
|author=Neumann, Wegener (2004)
 +
|statement= Ожидаемое время работы (1+1)-ES для задачи MST равно <tex>O(m^2 \log(m w_{max}))</tex>, где <tex>w_{max}</tex> {{---}} максимальный вес ребра.
  
Пусть <tex>X_{t-1} = k</tex>. Тогда вероятность перевернуть один нулевых битов равна <tex>k \frac{1}{n} ( 1 - \frac{1}{n})^{n-1} \geq \frac{k}{e n} </tex>. Отсюда
+
|proof=
  
<tex>E(X_t | X_{t-1} = k) \leq (k-1)\frac{k}{e n} + k (1 - \frac{k}{e n}) = k (1 - \frac{1}{e n})</tex>, то есть <tex> \delta = \frac{1}{e n}</tex>.
+
Разобьем доказательство теоремы на три этапа: получение связного подграфа, получение остовного дерева и получение минимального остовного дерева.
  
Отсюда по теореме о дрифте, с учетом того, что <tex> X_0 \leq n </tex> получаем: <tex> E(T) \leq e n(\ln{n} + 1)</tex>.
 
  
=== (1+1)-ES для MST ===
+
1) Покажем, что после <tex>O(m \log m)</tex> итераций <tex>T</tex> связно.
 +
Пусть <tex>X_t = {\#comp} - 1</tex> после итерации <tex>t</tex>.
  
Решение представляет собой битовую строку <tex>x</tex> длины <tex>m = |E|</tex>, где <tex>x_e = 1</tex>, если <tex>e \in E'</tex>, и <tex>x_e = 0</tex> в обратном случае.
+
Если <tex>X_{t - 1} = k</tex>, то существует как минимум <tex>k</tex> ребер, которые не входят в <tex>T</tex> и добавление которых уменьшает <tex>X_t</tex>. По аналогии с решением задачи OneMax получаем:
  
Мутация: независимо для каждого бита инвертируем его с вероятностью <tex>\frac{1}{m}</tex>.
+
<tex>E(X_t | X_{t-1} = k) \leq (1 - \frac{1}{e m})k</tex>.
  
Фитнес-функция: <tex>w(T) + c_{penalty} ({\#comp} - 1) </tex>, где <tex>\#comp</tex> --- число компонент связности в текущем <tex> T </tex>.
+
Применяя [[Теорема о дрифте|теорему о дрифте]], получаем требуемый результат.
  
'''Теорема [Neumann, Wegener (2004)]'''
 
  
Ожидаемое время работы (1+1)-EA для задачи MST равно <tex>O(m^2 \log(m w_{max}))</tex>, где <tex>w_{max}</tex> --- максимальный вес ребра.
+
2) Пусть <tex>T</tex> уже связно. Тогда оно остается связным и на дальнейших итерациях, так как <tex>C_{penalty}</tex> достаточно велико.  
  
'''Доказательство'''
+
Покажем, что после <tex>O(m \log m)</tex> итераций <tex>T</tex> является деревом, то есть <tex>|T| = n - 1</tex>, где <tex>n = |V|</tex>.
 +
Пусть <tex>X_t = |T| - (n - 1)</tex> после итерации <tex>t</tex> (количество "лишних" ребер в <tex>T</tex>).
  
1) Пусть после <tex>O(m \log m)</tex> итераций <tex>T</tex> связно:
+
Если <tex>X_{t - 1} = k</tex>, то существует как минимум <tex>k</tex> ребер, удаление которых из <tex>T</tex> уменьшает <tex>X_t</tex>. По аналогии с решением задачи OneMax получаем:
<tex>X_t = {\#comp} - 1</tex> после итерации <tex>t</tex>.
 
  
Если <tex>X_{t - 1} = k</tex>, то существует как минимум <tex>k</tex> ребер, которые не входят в <tex>T</tex> и добавление которых уменьшает <tex>X_t</tex>:
+
<tex>E(X_t | X_{t-1} = k) \leq (1 - \frac{1}{e m})k</tex>.
  
<tex>E(X_t) \leq (1 - \frac{1}{e m})k</tex>
+
Применяя [[Теорема о дрифте|теорему о дрифте]], получаем требуемый результат.
  
Применяя теорему о дрифте, получаем требуемый результат.
 
  
2) Пусть <tex>T</tex> уже связно. Тогда оно остается связным и на дальнейших итерациях.  
+
3) Пусть <tex>T</tex> уже связно и является деревом. Тогда останется таковым и на дальнейших итерациях, так как <tex>C_{penalty}</tex> достаточно велико.  
  
Пусть <tex> X_t = w(T) - w_{opt} </tex> для <tex>T</tex> после итерации <tex>t</tex>.
+
Пусть <tex> X_t </tex> для <tex>T</tex>{{---}} это разница между весом текущего дерева и оптимального: <tex> X_t = w(T) - w_{opt} </tex> после итерации <tex>t</tex>.
  
Если <tex>X_{t-1} = D > 0</tex>, то существуют <tex>e_1, \dots, e_k</tex> из <tex>T</tex> и <tex>e'_1, \dots, e'_k</tex> из <tex>E \setminus T</tex> такие, что  
+
Если <tex>X_{t-1} = D > 0</tex>, то существуют наборы ребер <tex>e_1, \dots, e_k</tex> из <tex>T</tex> и <tex>e'_1, \dots, e'_k</tex> из <tex>E \setminus T</tex> такие, что  
  
<tex>T' = T - \{e_1, \dots , e_k\} + \{e'_1, \dots , e'_k\}</tex> --- это MST,
+
<tex>T' = T - \{e_1, \dots , e_k\} + \{e'_1, \dots , e'_k\}</tex> {{---}} это минимальное остовное дерево.
  
следовательно <tex>D = \sum_{i} (w(e_i) - w(e'_i))</tex>, и для всех <tex>i</tex>
+
Следовательно <tex>D = \sum_{i} (w(e_i) - w(e'_i))</tex>, и для всех <tex>i</tex>
  
<tex>T_i = T - e_i + e'_i</tex> --- остовное дерево с <tex>w(T_i) < w(T)</tex>.
+
<tex>T_i = T - e_i + e'_i</tex> {{---}} остовное дерево с весом <tex>w(T_i) < w(T)</tex>.
  
С верояностью <tex>\geq 1/e m^2</tex>, одна итерация обменяет в точности ребра <tex>e_i</tex> и <tex>e'_i</tex>.
+
С верояностью <tex>\geq 1/e m^2</tex>, одна итерация обменяет в точности ребра <tex>e_i</tex> и <tex>e'_i</tex>. Тогда:
  
<tex>E(X_t) \leq D - \sum_{i} (1/e m^2) (w(e_i) - w(e'_i))= (1 - 1/e m^2) D </tex>
+
<tex>E(X_t | X_{t-1} = D) \leq D - \sum_{i} (1/e m^2) (w(e_i) - w(e'_i))= (1 - 1/e m^2) D </tex>
  
Используем теорему о дрифте, учитывая, что
+
Используем [[Теорема о дрифте|теорему о дрифте]], учитывая, что
 
<tex>X_0 \leq \sum_{e \in E} w(e) \leq m w_{max}</tex>, и получаем требуемый результат.
 
<tex>X_0 \leq \sum_{e \in E} w(e) \leq m w_{max}</tex>, и получаем требуемый результат.
 +
}}
 +
==Источники==
 +
<references />

Текущая версия на 14:30, 20 июня 2012

Постановка задачи однокритериальной оптимизации[править]

Пусть [math]S[/math] — дискретное пространство решений, а [math]f : S \rightarrow \mathbb{R}[/math] — оценочная функция.

Тогда задача однокритериальной оптимизации заключается в том, чтобы найти такое [math]s \in S [/math], что [math] f(s)[/math] максимально. При этом рассматривается black-box scenario, что означает, что получить информацию об [math]f[/math] можно только путем ее вычисления. В случае эволюционных алгоритмов время их работы измеряется в количестве вычислений оценочной функции.

Рассмотренные методы решения[править]

HC (Hill Climbing)[править]

В русскоязычном варианте этот метод называется методом спуска. Общая схема данного алгоритма выглядит следующим образом:

x [math]\leftarrow[/math] random
while(true)
  x' [math]\leftarrow[/math] neighbour(x)
  f(x') [math]\geq[/math] f(x) [math] \Rightarrow [/math] x = x' 

Итерации выполняются, пока не будет удовлетворен критерий останова. Возможны два варианта HC:

1) first ascent — в качестве [math]x'[/math] выбирается первый из соседей, для которого [math]f(x') \geq f(x)[/math];

2) steepest ascent — осуществляется перебор всех соседей, и в качестве [math]x'[/math] выбирается тот, для которого [math]f(x')-f(x)[/math] максимально.

RMHC (Random Mutation Hill Climbing)[править]

В данном алгоритме применяется же схема, что и для метода спуска, но [math] x'[/math] получают путем случайного изменения одного из компонентов решения [math] x [/math].

ES (Evolution Strategies)[править]

Это широкий класс алгоритмов поиска, основанных на идеях приспособления и эволюции[1]. Существуют различные вариации ES:

1) (1+1)-ES — на каждой итерации существует одно исходное решение [math] x[/math] и одно промежуточное решение [math]x'[/math]. После внесения случайного изменения в каждый из компонентов [math] x[/math], [math]x'[/math] может оказаться любым элементом [math]S[/math], но, чем он ближе к [math]x[/math], тем выше вероятность его выбора.

2) (1+[math]\lambda[/math])-ES — на каждой итерации генерируется [math]\lambda[/math] промежуточных решений, среди них выбирается лучшее.

3) ([math]\mu[/math]+[math]\lambda[/math])-ES — на каждой итерации генерируется [math]\lambda[/math] промежуточных решений, среди них выбирается [math]\mu[/math] лучших.

Примеры задач[править]

OneMax[править]

Задача состоит в том, чтобы найти битовую строку длины [math]n[/math], состоящую из одних единиц. Оценочная функция — количество единиц в текущем решении:

[math]f(x_1, x_2, \dots , x_n) = OneMax(x_1, x_2, \dots , x_n) = x_1 + x_2, + \dots + x_n [/math]

MST (Minimum spanning tree)[править]

Известная задача на графах, формулируется следующим образом. Пусть дан связный неориентированный граф [math] G = (V, E) [/math]. Для каждого ребра [math]e \in E[/math] задан вес [math] w_e [/math]. Требуется найти остовное дерево [math]T = (V, E')[/math] минимального веса [math] w(T) = \sum_{e \in E'} w_e [/math].

Оценка времени работы для OneMax[править]

Содержание данного раздела основано на работе [2].

Чтобы оценить время работы вышеописанных алгоритмов на задаче OneMax необходимо доказать несколько утверждений.

Утверждение (1):
[math] ( 1 - \frac{1}{n} ) ^ {n-1} \geq \frac{1}{e}[/math]
[math]\triangleright[/math]

Из курса математического анализа известно, что [math] lim_{n \to \infty}(1 + \frac{1}{n})^n = e [/math].

Путем несложных преобразований получаем: [math] (\frac {1} {1 + \frac{1}{n}})^n = (\frac {1} {\frac{n + 1}{n}})^n = (\frac {n} {n+1})^n \stackrel{ _{m = n + 1}}{=} (1 - \frac{1}{m}) ^ {m-1}[/math].

Чтобы перейти от предела к неравенству, докажем, что [math](1 + \frac{1}{n})^n \leq e[/math].

Известно, что [math]1 + x \leq e^x[/math]. Пусть [math]x = \frac{1}{n}[/math], тогда [math]1 + \frac{1}{n} \leq e^{\frac{1}{n}}[/math]. Возведем обе части в степень [math]n[/math] и получим требуемое неравенство.
[math]\triangleleft[/math]
Утверждение (2):
[math] \frac{n^k}{k^k} \leq C_n^k (1)[/math]
[math] C_n^k \leq \frac{n^k}{k!} (2)[/math]
[math]\triangleright[/math]

1) Из определения [math] C_n^k [/math] сразу следует [math] (2) [/math] : [math] C_n^k = \frac{n!}{k!(n-k)!} \leq \frac{n^k}{k!}[/math].

2) Известно, что для [math] a,b \gt 1 [/math] справедливо [math]b \leq a \Rightarrow \frac{a}{b} \leq \frac{a - 1} {b - 1}[/math]

Отсюда, вновь воспользовавшись определением [math] C_n^k [/math], получаем [math](1) [/math].
[math]\triangleleft[/math]
Утверждение (3):
[math] (\frac{1}{n})^k (1 - \frac{1}{n})^{n - k} \geq \frac{1}{e n^k} [/math].
[math]\triangleright[/math]
[math] (1 - \frac{1}{n})^{n - k} \geq \frac{1}{e} [/math] по утверждению(1), отсюда следует требуемый результат.
[math]\triangleleft[/math]
Утверждение (4):
[math] C_n^k (\frac{1}{n})^k(1 - \frac{1}{n})^{n - k} \geq \frac{1}{e k^k} [/math].
[math]\triangleright[/math]
[math] C_n^k (\frac{1}{n})^k(1 - \frac{1}{n})^{n - k} \geq \frac{n^k}{k^k} \frac{1}{e n^k} = \frac{1}{e k^k}[/math] по утверждению(2) и утверждению(3).
[math]\triangleleft[/math]
Утверждение (Лемма об ожидании):
Если вероятность наступления события [math]A[/math] на каждом шаге равна [math]p[/math], то матожидание времени наступления этого события [math]E(t_A) = \frac{1}{p}[/math].
[math]\triangleright[/math]

По определению математического ожидания:

[math]E(t_A) = 1 \cdot p + 2 (1-p) p + 3 (1 - p)^2 p + \dots + k (1 - p)^k p + \dots = \sum_{i=1}^\infty i p (1 - p) ^{i - 1} = p\sum_{i=1}^\infty i (1 - p) ^{i - 1}[/math].

Из курса математического анализа известно, что [math] \frac{1}{1 - x} = \sum_{i=0}^\infty x^i [/math], а также то, что этот ряд удовлетворяет условиям теоремы о почленном дифференцировании.

Воспользовавшись этим фактом, получаем:

[math] (\frac{1}{1 - x})' = \frac{1}{(1 - x) ^ 2} = \sum_{i=0}^\infty i x^{i - 1} [/math].

Отсюда видно, что: [math] \frac{p}{ (1 - (1 - p)) ^ 2} = p \sum_{i=1}^\infty i (1 - p)^{i-1} = \frac{1}{p} [/math].
[math]\triangleleft[/math]

Алгоритм RMHC[править]

Решение задачи OneMax с помощью алгоритма RMHC выглядит следующим образом. В качестве начального решения примем случайный вектор, а затем на каждой итерации равновероятно выбираем и инвертируем один бит из [math] n [/math]. Пусть [math] k [/math] — количество единиц в векторе (то есть значение [math] f [/math]) в начале фазы. При [math] k + 1 = k' \gt k [/math] фаза заканчивается.

Оценим время работы алгоритма для данной задачи.

Вероятность окончания фазы — это вероятность того, что будет выбран один из оставшихся [math]n - k[/math] нулевых битов: [math] \frac{n - k}{n} [/math]. Тогда по лемме об ожидании [math] E(t) = \frac{n}{n-k} [/math] для конкретной фазы.

Отсюда ожидаемая продолжительность всех фаз равна: [math] \sum_{k=0}^{n-1} \frac{n}{n-k} = n \sum_{i=1}^{n} \frac{1}{i} = O(n \log n) [/math]

Алгоритм (1+1)-ES[править]

Применим (1+1)-ES к решению задачи OneMax. Для этого на каждой итерации независимо для каждого бита инвертируем его с вероятностью [math] p = \frac{1}{n} [/math]. Пусть [math] k [/math] — значение [math] f [/math] в начале фазы. При [math] k' \gt k [/math] фаза заканчивается.

Оценим время работы алгоритма для данной задачи.

Чтобы количество единиц увеличилось, необходимо из перевернуть хотя бы один из [math]n - k[/math] нулевых битов, и при этом не затронуть единичных. С учетом того, что вероятность переворота [math] \frac{1}{n} [/math], получаем вероятность окончания фазы [math] (n - k)\frac{1}{n}(1 - \frac{1}{n}) ^ {n-1} \geq \frac{n - k}{e n}[/math] по утверждению(3). Тогда по лемме об ожидании [math] E(t) \leq \frac{e n}{n-k} [/math] для конкретной фазы.

Отсюда ожидаемая продолжительность всех фаз меньше либо равна: [math] \sum_{k=0}^{n-1} \frac{e n}{n-k} = e n \sum_{i=1}^{n} \frac{1}{i} = O(n \log n) [/math]

Оценка времени работы с использованием Drift Analysis[править]

Теорема о дрифте с успехом применяется для оценки времени работы эволюционных алгоритмов в различных ситуациях. Примеры можно найти в работе[3].

RMHC для OneMax[править]

Пусть [math]X_t[/math] — число нулевых бит после итерации [math]i[/math]: [math]X_t = f_{opt} - f(X_t)[/math]

Пусть [math]X_{t-1} = k[/math]. Тогда

[math]E(X_t | X_{t-1} = k) = (k-1)\frac{k}{n} + k \frac{n-k}{n} = k (1 - \frac{1}{n})[/math], то есть [math] \delta = \frac{1}{n}[/math].

Отсюда по теореме о дрифте, с учетом того, что [math] X_0 \leq n [/math] получаем: [math] E(T) \leq n(\ln{n} + 1)[/math].

(1+1)-ES для OneMax[править]

Пусть [math]X_t[/math] — число нулевых бит после итерации [math]i[/math]: [math]X_t = f_{opt} - f(X_t)[/math].

Пусть [math]X_{t-1} = k[/math]. Тогда вероятность перевернуть один нулевых битов равна [math]k \frac{1}{n} ( 1 - \frac{1}{n})^{n-1} \geq \frac{k}{e n} [/math]. Отсюда:

[math]E(X_t | X_{t-1} = k) \leq (k-1)\frac{k}{e n} + k (1 - \frac{k}{e n}) = k (1 - \frac{1}{e n})[/math], то есть [math] \delta = \frac{1}{e n}[/math].

Применяем теорему о дрифте, с учетом того, что [math] X_0 \leq n [/math], и получаем: [math] E(T) \leq e n(\ln{n} + 1)[/math].

(1+1)-ES для MST[править]

Рассмотрим в качестве более содержательного примера поиск минимального остовного дерева с помощью (1+1)-ES. Решение представляет собой битовую строку [math]x[/math] длины [math]m = |E|[/math], где [math]x_e = 1[/math], если ребро [math]e[/math] входит в текущий подграф [math]T[/math], и [math]x_e = 0[/math] в обратном случае.

На каждой итерации независимо для каждого бита инвертируем его с вероятностью [math]\frac{1}{m}[/math].

В качестве оценочной функции возьмем [math]w(T) + C_{penalty} (|T| - n + 1) + {C_{penalty}}^2 ({\#comp} - 1) [/math], где [math]\#comp[/math] — число компонент связности в текущем [math] T [/math], а [math] C_{penalty} \gt m w_{max}[/math], где [math]w_{max}[/math] — максимальный вес ребра.

Теорема (Neumann, Wegener (2004)):
Ожидаемое время работы (1+1)-ES для задачи MST равно [math]O(m^2 \log(m w_{max}))[/math], где [math]w_{max}[/math] — максимальный вес ребра.
Доказательство:
[math]\triangleright[/math]

Разобьем доказательство теоремы на три этапа: получение связного подграфа, получение остовного дерева и получение минимального остовного дерева.


1) Покажем, что после [math]O(m \log m)[/math] итераций [math]T[/math] связно. Пусть [math]X_t = {\#comp} - 1[/math] после итерации [math]t[/math].

Если [math]X_{t - 1} = k[/math], то существует как минимум [math]k[/math] ребер, которые не входят в [math]T[/math] и добавление которых уменьшает [math]X_t[/math]. По аналогии с решением задачи OneMax получаем:

[math]E(X_t | X_{t-1} = k) \leq (1 - \frac{1}{e m})k[/math].

Применяя теорему о дрифте, получаем требуемый результат.


2) Пусть [math]T[/math] уже связно. Тогда оно остается связным и на дальнейших итерациях, так как [math]C_{penalty}[/math] достаточно велико.

Покажем, что после [math]O(m \log m)[/math] итераций [math]T[/math] является деревом, то есть [math]|T| = n - 1[/math], где [math]n = |V|[/math]. Пусть [math]X_t = |T| - (n - 1)[/math] после итерации [math]t[/math] (количество "лишних" ребер в [math]T[/math]).

Если [math]X_{t - 1} = k[/math], то существует как минимум [math]k[/math] ребер, удаление которых из [math]T[/math] уменьшает [math]X_t[/math]. По аналогии с решением задачи OneMax получаем:

[math]E(X_t | X_{t-1} = k) \leq (1 - \frac{1}{e m})k[/math].

Применяя теорему о дрифте, получаем требуемый результат.


3) Пусть [math]T[/math] уже связно и является деревом. Тогда останется таковым и на дальнейших итерациях, так как [math]C_{penalty}[/math] достаточно велико.

Пусть [math] X_t [/math] для [math]T[/math]— это разница между весом текущего дерева и оптимального: [math] X_t = w(T) - w_{opt} [/math] после итерации [math]t[/math].

Если [math]X_{t-1} = D \gt 0[/math], то существуют наборы ребер [math]e_1, \dots, e_k[/math] из [math]T[/math] и [math]e'_1, \dots, e'_k[/math] из [math]E \setminus T[/math] такие, что

[math]T' = T - \{e_1, \dots , e_k\} + \{e'_1, \dots , e'_k\}[/math] — это минимальное остовное дерево.

Следовательно [math]D = \sum_{i} (w(e_i) - w(e'_i))[/math], и для всех [math]i[/math]

[math]T_i = T - e_i + e'_i[/math] — остовное дерево с весом [math]w(T_i) \lt w(T)[/math].

С верояностью [math]\geq 1/e m^2[/math], одна итерация обменяет в точности ребра [math]e_i[/math] и [math]e'_i[/math]. Тогда:

[math]E(X_t | X_{t-1} = D) \leq D - \sum_{i} (1/e m^2) (w(e_i) - w(e'_i))= (1 - 1/e m^2) D [/math]

Используем теорему о дрифте, учитывая, что

[math]X_0 \leq \sum_{e \in E} w(e) \leq m w_{max}[/math], и получаем требуемый результат.
[math]\triangleleft[/math]

Источники[править]

  1. Droste S., Jansen T., Wegener I.: On the analysis of the (1 + 1) evolutionary algorithm. Theoretical Computer Science 276, 51–81 (2002)
  2. Witt C.: Randomized Search Heuristics. Algorithms for Massive Data Sets, DTU Informatik,Danmarks Tekniske Universitet (2010)
  3. Doerr B.: Tutorial: Drift Analysis. GECCO '11 Proceedings of the 13th annual conference companion on Genetic and evolutionary computation, 1311-1320 (2011)