Теорема о гигантской компоненте. Поиск в ширину в случайном графе — различия между версиями

Текущая версия на 19:24, 4 сентября 2022

Содержание

1 Теорема о гигантской компоненте
- 1.1 Теорема о гигантской компоненте
2 Обход случайного графа
3 Вероятность исчезновения
- 3.1 От поиска в ширину к ветвящимся процессам
- 3.2 Вычисление вероятности исчезновения
4 Вывод
5 См. также
6 Литература

Теорема о гигантской компоненте

Перед формулировкой основной теоремы данного раздела дадим определение некоторых понятий, которые будут использованы в дальнейшем, а также приведем необходимые далее утверждения.

Определение:

Простейший ветвящийся процесс. Пусть — независимые пуассоновские величины^[1] с одним и тем же математическим ожиданием . Положим .

Представлять себе описанный только что процесс можно так: в начальный момент времени есть одна активная частица. Затем она создает [math]Z_1 \geq 0[/math] (может быть достигнуто, так как величина [math]Z_1[/math] равна нулю с положительной вероятностью) активных потомков и перестает быть активной. На следующем шаге все повторяется: какая-то частица (порядок роли не играет) порождает [math]Z_2[/math] новых частиц, а сама перестает быть активной, и так далее. Данный процесс может как завершиться (частицы перестанут быть активными), так и продолжаться бесконечно.
Говоря в терминах данного выше определения, [math]Y_i[/math] и [math]Z_i[/math] — количество активных и порожденных частиц в момент времени [math]t[/math], соответственно.

Теорема (1):

Пусть . Тогда с вероятностью 1 процесс вырождается, т.е. .

Теорема (2):

Пусть . Пусть — единственное решение уравнения . Тогда процесс вырождается с вероятностью , т.е. .

Определение:

Ветвящийся процесс на случайном графе. Пусть — независимые пуассоновские величины с одним и тем же математическим ожиданием . Положим .

В произвольном графе [math]G = (V,E)[/math] зафиксируем [math]v_1 \in V[/math]. Пометим ее как активную, а все остальные вершины — нейтральными. Выберем среди нейтральных вершин всех соседей вершины [math]v_1[/math]. После этого пометим вершину [math]v_1[/math] как неактивную , а смежных с ней — как активных, а все остальные вершины — нейтральными.

Снова зафиксируем какую-нибудь активную вершину [math]v_2[/math], и повторим процесс, не меняя статус остальных уже активных вершин.

Продолжая этот ветвящийся процесс, мы в конце концов получим лишь неактивные (образующие компоненту, содержащую [math]v_1[/math]) и нейтральные вершины.
Данный процесс очень похож на поиск в ширину, этим свойством мы воспользуемся позднее.

Обозначим число активных вершин в момент времени [math]t[/math] через [math]Y_t[/math], число нейтральных вершин — через [math]N_t[/math], а число соседей вершины, которую собираемся пометить как неактивную, — через [math]Z_t[/math]. Тогда . Все введенные величины зависят от графа [math]G[/math] и от последовательности выбираемых вершин [math]v_1,\dotsc[/math].

Если [math]G[/math] посчитать случайным, то при любом выборе вершин [math]v_1,\dotsc[/math] получатся случайные величины [math]Y_t, N_t, Z_t[/math] на пространстве [math]G(n, p)[/math].

Теорема о гигантской компоненте

Теорема (о гигантской компоненте):

Рассмотрим модель . Пусть .

Если , то найдется такая константа , зависящая от , что а.п.н. (асимптотически почти наверное) размер каждой связной компоненты случайного графа не превосходит .

Если же , то найдется такая константа , зависящая от , что а.п.н. в случайном графе есть ровно одна компонента размера . Размер остальных компонент не превосходит .

Доказательство:

Приведем здесь идеи^[2], изложенные А.М. Райгородским, основанные на доказательстве^[3] Р. Карпа. Такой формат позволит понять основные идеи и логику рассуждений. Строгий вариант приведен в ^[4].

Здесь и далее: [math]Binomial[/math] — биномиальное распределение.

Случай [math]c \lt 1[/math].

Положим [math]t_0=[\beta \ln n][/math], где [math]\beta[/math] — константа, которая будет подобрана далее. Нам хочется доказать, что с большой вероятностью каждая из компонент случайного графа имеет размер, меньший или равный [math]t_0[/math]. Но размер компоненты — это момент вырождения процесса [math]Y_t[/math] на случайном графе. Значит, интересующее нас утверждение можно записать в следующем виде: Поскольку , достаточно найти такое [math]\beta[/math], при котором

(с учетом асимптотики

(с учетом центральной предельной теоремы)

.

Поскольку [math]c \lt 1[/math], нижний предел интегрирования имеет порядок [math]\sqrt{t_0}[/math]. Таким образом, весь интеграл не превосходит величины [math]e^{−\delta t_0}[/math]. Выберем [math]\beta[/math] таким, чтобы [math]e^{−\delta t_0}[/math] оказалось меньше, чем , и в случае [math]c \lt 1[/math] теорема доказана.

Случай [math]c \gt 1[/math].

В данном случае ветвящийся процесс на графе нужно «запускать» не один раз, а многократно. Только так удается доказать, что а.п.н. хотя бы в одном запуске возникнет гигантская компонента. Подробности можно найти в ^[4], мы же лишь поясним, откуда в текущей ситуации появляется [math]\gamma[/math] из формулировки теоремы 2 и почему она совпадает с одноименной константой из той же теоремы.

Чтобы доказать, что есть гигантская компонента, необходимо, чтобы ветвящийся процесс на графе не вырождался даже при [math]t \thickapprox \gamma n[/math], то есть:

Так как по условию [math]p = \dfrac{ c }{n}[/math], то при [math]t \thicksim \alpha n[/math] выполнено: Применим центральную предельную теорему к Пределы интегрирования в данном случае: от [math]-\infty[/math] до .

Если , то мы получим искомое стремление вероятности к нулю.

Если , то вероятность, напротив, будет стремиться к единице.

Таким образом, критическое значение , вплоть до которого есть именно стремление к нулю, — это решение уравнения или, что равносильно, . А это и есть уравнение из теоремы 2, если заменить на .

Обход случайного графа

Приведем ряд утверждений, которые будут использованы в дальнейшем. Их доказательство, а также более детальный рассказ можно найти здесь^[5].

Лемма (1):

Пусть . Тогда вероятность , что ( — компонента связности, содержащая ): — константа.

Доказательство:

Главная идея доказательства, которую мы будем использовать в дальнейшем — изменение алгоритма поиска в ширину таким образом, чтобы только что открытые вершины были выбраны из множества фиксированного размера. Такая модификация превращает поиск в ширину в ветвящийся процесс.

Теорема (4):

Пусть .

Поиск в ширину

Рассмотрим граф [math]G(n, p)[/math]. Проанализируем его структуру по мере роста [math]p[/math]:

[math]p = 0:[/math] граф состоит только из изолированных вершин. С ростом [math]p[/math] в нем появляются ребра, компоненты связности получающегося леса объединяются.
граф а.п.н. является лесом;
[math]p = \frac{d}{n}:[/math] появляются циклы. При [math]d \lt 1[/math] размер каждой из компонент связности равен [math]\Omega(\log n)[/math]. Число компонент связности, содержащих только один цикл — константа, зависящая от [math]n[/math]. Таким образом, граф состоит из леса и компонент, содержащих единственный цикл без компонент размера [math]\Omega(\log n)[/math];
[math]p = \frac{1}{n}:[/math] начинает образовываться гигантская компонента. Этот процесс происходит в два этапа:
- [math]p = \frac{1}{n}: [/math] возникают компоненты из [math]n^{\frac{2}{3}}[/math] вершин, а.п.н. являющиеся деревьями;
- появляется гигантская компонента размером, пропорциональным количеству вершин во всем графе;
[math]p \geq \frac{d}{n}:[/math] все неизолированные вершины оказываются в гигантской компоненте;
[math]p \geq \frac{\ln n}{2n}:[/math] в графе остаются только изолированные плюс гигантская компонента;
[math]p = \frac{\ln n}{n}:[/math] граф становится связным;
[math]p = \frac{1}{2}:[/math] — клика ;

Чтобы вычислить размер компоненты связности, пройдемся с помощью поиска в ширину по ней, стартуя из произвольной вершины и переходя к очередной неисследованной вершине, только если ребро между ними существует (данный факт необходимо установить независимо от других ребер, с вероятностью [math]p = \frac{d}{n}[/math]). Если ребро существует, пометим следующую вершину как "открытую". Алгоритм закончит свою работу (обойдет всю компоненту связности), когда множество неисследованных "открытых" вершин станет пустым.

Проблема поиска в ширину

Проблема поиска в ширину на случайном графе

На данном изображении представлены результаты работы поиска в ширину , начавшемся в вершине [math]1[/math] на двух графах: в первом у всех ребер [math]p = 1[/math], во втором же факт существования ребра определялся по ходу работы алгоритма — ребра, отмеченные пунктиром, не существуют. Проблема возникает, когда алгоритм просто не доходит до каких-то ребер, не выясняя, существуют они или нет: находясь в вершине [math]2[/math], алгоритм не делал запрос о ребре [math](2, 3)[/math], так как у этому моменту вершина [math]3[/math] уже была исследована. Ребра, которые потенциально могли быть не изученными, помечены на рисунке точечным пунктиром.

Неоткрытые вершины

Будем считать шагом алгоритма поиска открытие новой вершины. После первых [math]i[/math] шагов алгоритма, любая из вершин, кроме стартовой, может быть неоткрытой с вероятностью [math]p = (1 - \frac{d}{n})^i[/math]. Пусть [math]z_i[/math] — число вершин, открытых за первые [math]i[/math] шагов алгоритма поиска. [math]z_i[/math] распределены как .

Вероятность исчезновения

От поиска в ширину к ветвящимся процессам

Пользуясь идеями, изложенными в доказательстве леммы 1, перейдем от модифицированного поиска в ширину к ветвящемуся процессу. Этот процесс используется для генерации случайных деревьев, возможно, бесконечного размера.

Определение:

Вероятность исчезновения (extinction probability) — вероятность, того, что дерево ветвящегося процесса будет конечным (процесс завершится через конечное время).

Рассмотрим натуральное случайное число [math]y[/math], обозначающее количество потомков у очередной исследованной вершины. Каждый раз это значение выбирается случайно и независимо.
Процесс построения дерева заканчивается, образуя конечное дерево, когда у каждой вершины построены все ее потомки. Данный процесс может продолжаться бесконечно.
Пусть:

.
[math]p′[/math] — вероятность того, что [math]size(cc(v)) = O(\log n)[/math] в модифицированном поиске в ширину.
[math]q[/math] — вероятность окончания процесса.

Тогда [math]q \geq p′[/math], поскольку поиск в ширину, заканчивающийся с [math] \le c_1\log n[/math] вершинами, приводит к окончанию построения дерева.

— вероятность, что [math]y[/math] производит [math]i[/math] потомков, а значит:
[math]\sum_{i = 0..s}p_i = 1[/math] и .

Глубина дерева не меньше количества вершин, поэтому вероятность того, что процесс закончится с деревом глубины [math]t[/math], вычисляется по следующей формуле:

Вычисление вероятности исчезновения

Лемма (2):

Пусть . Пусть — единственный корень на . Тогда для .

Теорема (5):

Рассмотрим дерево, сгенерированное ветвящимся процессом. Пусть — производящая функция числа потомков каждой вершины, а — ожидаемое количество потомков в каждой вершине. Тогда верно следующее:
.

В данной статье нами рассматривается простой случай ветвящегося процесса, в котором распределение количества потомков одинаково для каждой вершины.
Обозначим:

[math]q[/math] — вероятность исчезновения;
— количество потомков у очередной исследованной вершины;
— вероятность, что [math]y[/math] производит [math]i[/math] потомков.

Для того, чтобы вычислить вероятность исчезновения, воспользуемся производящей функцией:
где [math]p_i[/math] — вероятность того, что [math]y = i[/math]

Так как [math]q[/math] — вероятность конечности алгоритма, то, если у корневой вершины [math]i[/math] потомков, построение каждого из поддеревьев должно завершиться, и это произойдет с вероятностью [math]q^i[/math]:

Благодаря чему, [math]q[/math] является корнем уравнения:

Решение уравнения f(x)=x

Рассмотрим решение данного уравнения на [math][0; 1][/math].
[math]x = 1[/math] — всегда решение данного уравнения, так как .
Введем обозначения: [math]k[/math] — количество потомков вершины, а [math]m = f'(1)[/math], тогда .
Кажется, что при [math]m \gt 1[/math] дерево будет расти вечно, так как каждая вершина в момент времени [math]j[/math] должна иметь потомков, однако при [math]p_0 \gt 0[/math] с положительной вероятностью у корня может вообще не быть потомков. В исходном [math]G(n,\frac{d}{n})[/math] [math]m[/math] играет роль [math]d[/math], ввиду того, что [math]d = E(k)[/math].
Пользуясь леммой 2 и теоремой 5, можно доказать, что:

— вероятность исчезновения [math] = 1[/math];
[math]m = 1 \wedge p_1 = 1[/math] — вероятность исчезновения [math] = 0[/math];
[math]m \gt 1[/math] — вероятность исчезновения [math] \lt 1[/math], но, если [math]p_0 = 0[/math], процесс не завершится, так как у каждой вершины найдется по крайней мере один потомок;

Подробное описание доказательства данного факта, а также самих утверждений можно найти здесь^[5].

Вывод

Используя результаты, полученные в предыдущей части, сделаем вывод о вероятности окончания работы поиска в ширину на случайном графе [math]G(n, \frac{d}{n})[/math]. Рассчитав [math]p_0[/math] и [math]p_1[/math], можно сделать следующие выводы:

См. также

Литература

↑ https://ru.wikipedia.org/wiki/Распределение_Пуассона
↑ Введение в математическое моделирование транспортных потоков: Учебное пособие/Издание 2-е, испр. и доп. А. В. Гасников и др. Под ред. А. В. Гасникова.— М.: МЦНМО, 2013 — C.330-339 — ISBN 978-5-4439-0040-7
↑ Karp R. The transitive closure of a random digraph//Random structures and algorithms. 1990. V. 1. P. 73–94.
↑ ^4,0 ^4,1 Алон Н., Спенсер Дж. Вероятностный метод. М.: Бином. Лаборатория знаний, 2007.
↑ ^5,0 ^5,1 Blum A. Random Graphs // CS 598 Topics in Algorithms (UIUC), 2015. URL: https://www.cs.cmu.edu/~avrim/598/chap4only.pdf

[1] ttps://ru.wikipedia.org/wiki/Распределение_Пуассона

[2] Введение в математическое моделирование транспортных потоков: Учебное пособие/Издание 2-е, испр. и доп. А. В. Гасников и др. Под ред. А. В. Гасникова.— М.: МЦНМО, 2013 — C.330-339 — ISBN 978-5-4439-0040-7

[3] Karp R. The transitive closure of a random digraph//Random structures and algorithms. 1990. V. 1. P. 73–94.

[trueproof-4] 4,0 ^4,1 Алон Н., Спенсер Дж. Вероятностный метод. М.: Бином. Лаборатория знаний, 2007.

[chap4-5] 5,0 ^5,1 Blum A. Random Graphs // CS 598 Topics in Algorithms (UIUC), 2015. URL: https://www.cs.cmu.edu/~avrim/598/chap4only.pdf

[1]

[2]

[3]

[4]

[5]

@@ Строка 1: / Строка 1: @@
 == Теорема о гигантской компоненте ==
-Перед формулировкой основной теоремы данного раздела, дадим определение некоторых понятий, которые будут использованы в дальнейшем, а также приведем необходимые далее утверждения.
+Перед формулировкой основной теоремы данного раздела дадим определение некоторых понятий, которые будут использованы в дальнейшем, а также приведем необходимые далее утверждения.
 {{Определение
 |definition='''Простейший ветвящийся процесс.''' Пусть <tex>Z_1,\dotsc Z_n,\dotsc </tex> {{---}} независимые пуассоновские величины<ref>https://ru.wikipedia.org/wiki/Распределение_Пуассона</ref> с одним и тем же [[Математическое ожидание случайной величины | математическим ожиданием]] <tex>\lambda</tex>. Положим
@@ Строка 46: / Строка 46: @@
 '''Случай <tex>c < 1</tex>'''.
-Положим <tex>t_0=[\beta \ln n]</tex>, где <tex>\beta</tex> {{---}} константа, которая будет подобрана далее. Нам хочется доказать, что с большой вероятностью каждая из компонент случайного графа имеет размер <tex>\le t_0</tex>.
+Положим <tex>t_0=[\beta \ln n]</tex>, где <tex>\beta</tex> {{---}} константа, которая будет подобрана далее. Нам хочется доказать, что с большой вероятностью каждая из компонент случайного графа имеет размер, меньший или равный <tex>t_0</tex>.
 Но размер компоненты {{---}} это момент вырождения процесса <tex>Y_t</tex> на случайном графе. Значит, интересующее нас утверждение можно записать в следующем виде: <tex>P_{n, p}(\exists v_1 : Y_{t_0} > 0) \rightarrow 0,  n \rightarrow \infty</tex>
 Поскольку <tex>P_{n, p}(\exists v_1 : Y_{t_0} > 0) \le nP_{n, p}(Y_{t_0} \ge 0)</tex>, достаточно найти такое <tex>\beta</tex>, при котором <tex>P_{n, p}(Y_{t_0} > 0) = o\left(\frac{1}{n}\right).</tex><br>
@@ Строка 83: / Строка 83: @@
 == Обход случайного графа ==
-Приведем ряд утверждений, которые будут использованы а дальнейшем. Их доказательство, а также более детальный рассказ можно найти здесь<ref name="chap4">Blum A. Random Graphs // CS 598 Topics in Algorithms (UIUC), 2015. URL: https://www.cs.cmu.edu/~avrim/598/chap4only.pdf</ref>.
+Приведем ряд утверждений, которые будут использованы в дальнейшем. Их доказательство, а также более детальный рассказ можно найти здесь<ref name="chap4">Blum A. Random Graphs // CS 598 Topics in Algorithms (UIUC), 2015. URL: https://www.cs.cmu.edu/~avrim/598/chap4only.pdf</ref>.
 {{Лемма
 |id=lemma1
@@ Строка 96: / Строка 96: @@
 <tex>
 \begin{equation*}
   \begin{cases}
-     &\text{Найдутся такие $c_1, c_2$, что с $p \leq \frac{1}{n}$  $\exists cc: size(cc) \in (c_1\log n; c_2n)$;} \\
+     & \text{1) Найдутся такие $c_1, c_2$, что с $p \leq \frac{1}{n}$  $\exists cc: size(cc) \in (c_1\log n; c_2n)$;} \\
-     &\text{Число вершин в компонентах размера $O(\ln n)$ а.п.н. $\leq cn, c < 1$. Тогда с $p = 1 - o(1)$ существует компонента связности размера $\Omega (n)$;} \\
+     & \text{2) Число вершин в компонентах размера $O(\ln n)$ а.п.н. $\leq cn, c < 1$.} \\ & \quad\:\text{Тогда с $p = 1 - o(1)$ существует компонента связности размера $\Omega (n)$;} \\
   \end{cases}
 \end{equation*}
@@ Строка 121: / Строка 121: @@
 === Проблема поиска в ширину ===
-[[Файл:Bfs_problem_on_random_graph.png|300px|thumb|center|Проблема поиска в ширину на случайном графе]]
+[[Файл:Bfs_problem_on_random_graph.png|300px|thumb|left|Проблема поиска в ширину на случайном графе]]
+На данном изображении представлены результаты работы поиска в ширину , начавшемся в вершине <tex>1</tex> на двух графах: в первом у всех ребер <tex>p = 1</tex>, во втором же факт существования ребра определялся по ходу работы алгоритма {{---}} ребра, отмеченные пунктиром, не существуют. Проблема возникает, когда алгоритм просто не доходит до каких-то ребер, не выясняя, существуют они или нет: находясь в вершине <tex>2</tex>, алгоритм не делал запрос о ребре <tex>(2, 3)</tex>, так как у этому моменту вершина <tex>3</tex> уже была исследована. Ребра, которые потенциально могли быть не изученными, помечены на рисунке точечным пунктиром.
+<br>
+<br>
+<br>
+<br>
 <br>
-На данном изображении представлены результаты работы поиска в ширину , начавшемся в вершине <tex>1</tex> на двух графах: в первом у всех ребер <tex>p = 1</tex>, во втором же факт существования ребра определялся по ходу работы алгоритма {{---}} ребра, отмеченные пунктиром, не существуют. Проблема возникает, когда алгоритм просто не доходит до каких-то ребер, не выясняя, существуют они или нет: находясь в вершине <tex>2</tex>, алгоритм не делал запрос о ребре <tex>(2, 3)</tex>, так как у этому моменту вершина <tex>3</tex> уже была исследована. Ребра, которые потенциально могли быть не изученными, помечены на рисунке точечным пунктиром.
 === Неоткрытые вершины ===
@@ Строка 161: / Строка 166: @@
 \begin{equation*}
   \begin{cases}
-    k \le 1 &\text{—$\;$ вероятность исчезновения равна 1, если вероятность появления ровно одного ребенка равна $1$;}\\
+    k \le 1 &\text{—$\;$ вероятность исчезновения равна 1, если вероятность} \\ & \;\;\;\;\;\,\text{появления ровно одного ребенка равна $1$;}\\
-    k > 1 &\text{—$\;$ вероятность исчезновения — единственное решение $f(x) = x,\; x \in [0, 1)$;}
+    k > 1 &\text{—$\;$ вероятность исчезновения является }\\&\;\;\;\;\;\,\text{единственным решением $f(x) = x,\; x \in [0, 1)$;}
   \end{cases}
 \end{equation*}
@@ Строка 180: / Строка 185: @@
 Благодаря чему, <tex>q</tex> является корнем уравнения:<br>
 <tex>x = \sum_{i = 0..\infty}p_ix^i \Leftrightarrow f(x) = x</tex><br>
+[[Файл:Extinction_probability_equation_root_random_graph.png|thumb|300px|right|Решение уравнения f(x)=x]]
 <br>
 Рассмотрим решение данного уравнения на <tex>[0; 1]</tex>. <br>
@@ Строка 185: / Строка 191: @@
 Введем обозначения: <tex>k</tex> {{---}} количество потомков вершины, а <tex>m = f'(1)</tex>, тогда <tex>m = f'(1) = \sum_{i = 1..\infty}ip_i = E(k)</tex>.<br>
 Кажется, что при <tex>m > 1</tex> дерево будет расти вечно, так как каждая вершина в момент времени <tex>j</tex> должна иметь потомков, однако при <tex>p_0 > 0</tex> с положительной вероятностью у корня может вообще не быть потомков. В исходном <tex>G(n,\frac{d}{n})</tex> <tex>m</tex> играет роль <tex>d</tex>, ввиду того, что <tex>d = E(k)</tex>.<br>
-[[Файл:Extinction_probability_equation_root_random_graph.png|thumb|300px|center|Решение уравнения f(x)=x]]
 Пользуясь [[#lemma2|леммой 2]] и [[#th5|теоремой 5]], можно доказать, что:<br>
 # <tex>m < 1 \vee m = 1 \wedge p_1 < 1</tex> {{---}} вероятность исчезновения <tex> = 1</tex>;<br>
@@ Строка 199: / Строка 204: @@
     d < 1\;\vee\;  d = 1\;\wedge\; p_1 < 1&\text{—$\;$ процесс завершится с вероятностью один;}\\
     d = 1\;\wedge\; p_1 = 1&\text{—$\;$ процесс будет протекать бесконечно;}\\
-    d > 1&\text{—$\;$ вероятность исчезновения меньше единицы, но, если $p_0 = 0$, процесс не завершится, так как у каждой вершины найдется по крайней мере один потомок;}\\
+    d > 1&\text{—$\;$ вероятность исчезновения меньше единицы, но, если $p_0 = 0$, процесс не завершится, так как у каждой вершины}\\&\;\;\;\;\;\,\text{найдется по крайней мере один потомок;}\\
   \end{cases}
 \end{equation*}

Теорема о гигантской компоненте. Поиск в ширину в случайном графе — различия между версиями

Текущая версия на 19:24, 4 сентября 2022

Содержание

Теорема о гигантской компоненте

Теорема о гигантской компоненте

Обход случайного графа

Поиск в ширину

Проблема поиска в ширину

Неоткрытые вершины

Вероятность исчезновения

От поиска в ширину к ветвящимся процессам

Вычисление вероятности исчезновения

Вывод

См. также

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты