Алгоритм Тарьяна поиска LCA за O(1) в оффлайн

Дано дерево [math] G [/math] и набор запросов: пары вершин [math]\langle v, u \rangle [/math]. Для каждой пары нужно найти наименьшего общего предка. Считаем, что все запросы известны заранее, поэтому будем решать задачу оффлайн. Алгоритм позволяет найти ответы для дерева из [math]n[/math] вершин и [math]m[/math] запросов за время [math]O (n + m)[/math], то есть при достаточно большом [math]m[/math] за [math]O (1)[/math] на запрос.

Алгоритм

Подвесим наше дерево за любую вершину, и запустим обход в глубину из неё. Ответ на каждый запрос мы найдём в течение поиска в глубину. Ответ для вершин [math]v[/math] и [math]u[/math] находится, когда мы уже посетили вершину [math]u[/math], а также посетили всех сыновей вершины [math]v[/math] и собираемся выйти из неё.

Зафиксируем момент: мы собираемся выйти из вершины [math]v[/math] (обработали всех сыновей) и хотим узнать ответ для пары [math]\langle v[/math], [math]u \rangle[/math]. Тогда заметим, что ответ — это либо вершина [math]u[/math], либо какой-то её предок. Значит, нам нужно найти предка вершины [math]v[/math], который является предком вершины [math]u[/math] с наибольшей глубиной. Заметим, что при фиксированном [math]v[/math] каждый из предков вершины [math]v[/math] порождает некоторый класс вершин [math]u[/math], для которых он является ответом, в этом классе содержатся все вершины, которые находятся "слева" от этого предка.

На рисунке непосещённые вершины раскрашены в белый цвет, а посещённые разбиты на классы, каждому из которых соответствует свой цвет.

Классы этих вершин не пересекаются, а значит, мы можем их эффективно обрабатывать с помощью системы непересекающихся множеств, которую будем хранить в массиве [math]dsu[/math].

Будем поддерживать также массив [math]lcaClass[1 \dots n][/math], где [math] lcaClass[w] [/math] — наименьший общий предок всех вершин, которые лежат в том же классе, что и [math] w [/math]. Обновление массива [math] lcaClass [/math] для каждого элемента будет неэффективно. Поэтому зафиксируем в каждом классе какого-то представителя. Функция [math] \mathrm{find}(w) [/math] вернёт представителя класса, в котором находится вершина [math] w [/math]. Тогда наименьшим общим предком всех вершин из класса [math] w [/math] будет вершина .

Обновление массива [math] lcaClass [/math] будем производить следующим образом:

когда мы приходим в новую вершину [math]v[/math], мы должны добавить её в новый класс — [math]lcaClass[v] = v[/math]
когда просмотрим всё поддерево какого-то ребёнка [math] u [/math] у вершины [math] v [/math], мы должны объединить поддерево ребёнка с классом вершины [math] v [/math] ([math]\mathrm{union}(v, u, v)[/math] — объединить классы вершин [math] v [/math] и [math] u [/math], а наименьшим общим предком представителя нового класса сделать вершину [math] v [/math]). Система непересекающихся множеств сама определит представителя в зависимости от используемой нами эвристики. Нам надо лишь правильно установить значение массива [math] lcaClass [/math] у нового представителя.

После того как мы обработали всех детей вершины [math]v[/math], мы можем ответить на все запросы вида [math]\langle v, u \rangle [/math], где [math]u[/math] — уже посещённая вершина. Нетрудно заметить, что . Для каждого запроса это условие (что одна вершина уже посещена, а другую мы обрабатываем) выполнится только один раз.

Реализация

bool visited[n]  

function union(x : int, y : int, newAncestor : int):
    leader = dsuUnion(x, y)         // объединяем классы вершин [math] x [/math] и [math] y [/math] и получаем нового представителя класса 
    lcaClass[leader] = newAncestor  // устанавливаем нового предка представителю множества 
      
// можно запустить от любой вершины дерева в самый первый раз  
function dfs(v : int):
    visited[v] = true
    lcaClass[v] = v                     
    foreach u : (v, u) in G
        if not visited[u]                  
            dfs(u)
            union(v, u, v)
    for (u : [math]\langle v, u \rangle [/math] — есть такой запрос)
        if visited[u]
            запомнить, что ответ для запроса [math]\langle v, u \rangle [/math] = lcaClass[find[u]]

Корректность

Случай, когда [math] u [/math] является наименьшим общим предком вершин [math] u [/math] и [math] v [/math], обработается правильно, потому что по алгоритму в этот момент .

Пусть теперь наименьшим общим предком вершин [math] u [/math] и [math] v [/math] будет вершина, отличная от этих двух. Во время обработки запроса алгоритм точно вернёт общего предка этих двух вершин, так как он будет предком одной из вершин по массиву [math] lcaClass [/math], а предком другой из-за обхода в глубину.

Покажем, что найдём наименьшего предка. Пусть это не так. Тогда существует какая-то вершина [math] w [/math], которая тоже является предком вершин [math] u [/math] и [math] v [/math], и из которой мы вышли раньше во время обхода в глубину. Но тогда ситуация, что одна из вершин посещена, а у другой рассмотрены все дети, должна была выполниться раньше, и в качестве ответа должна была вернуться вершина [math] w [/math].

Замечание: для корректности алгоритма достаточно было бы одного массива [math] dsu [/math], а представителем класса всегда выбирать наименьшего общего предка вершин класса. Это несложно сделать, так как мы всегда объединяем ребёнка со своим родителем. Но в таком случае алгорим получился бы менее эффективным, потому что одна только эвристика сжатия путей работает недостаточно быстро.

Оценка сложности

Она состоит из нескольких частей.

Обход в глубину выполняется за [math]O(n)[/math].
Операции по объединению множеств, которые в сумме для всех разумных [math]n[/math] работают [math]O (n)[/math] времени. Каждый запрос [math]\langle v, u \rangle [/math] будет рассмотрен дважды — при посещении вершины [math]u[/math] и [math]v[/math], но обработан лишь один раз, поэтому можно считать, что все запросы обработаются суммарно за [math]O (m)[/math].
Для каждого запроса проверка условия и определение результата, опять же, для всех разумных [math]n[/math] выполняется за [math]O (1)[/math].

Следовательно, итоговая асимптотика — [math]O (n + m)[/math], что при достаточно больших [math]m[/math] составляет [math]O (1)[/math] на один запрос.

Источники информации

Алгоритм Тарьяна поиска LCA за O(1) в оффлайн