Алгоритм Мо — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 1: Строка 1:
'''Алгоритм Мо''' (англ. ''Mo's algorithm'') — применяется для решения задач, в которых требуется отвечать на запросы <tex>a[l \dots r]</tex> на массиве  
+
'''Алгоритм Мо''' (англ. ''Mo's algorithm'') — применяется для решения задач, в которых требуется отвечать на запросы <tex>a[l \ldots r]</tex> на массиве  
 
''без'' изменения элементов в оффлайн за время <tex>O(Q \cdot \log{Q} + (N + Q) \cdot \sqrt{N})</tex>, где <tex>Q</tex> - количество запросов,
 
''без'' изменения элементов в оффлайн за время <tex>O(Q \cdot \log{Q} + (N + Q) \cdot \sqrt{N})</tex>, где <tex>Q</tex> - количество запросов,
 
а <tex>N</tex> - количество элементов в массиве. Характерными примерами задач на этот алгоритм являются: нахождение моды на отрезке (число, которое встречается больше всех остальных),  
 
а <tex>N</tex> - количество элементов в массиве. Характерными примерами задач на этот алгоритм являются: нахождение моды на отрезке (число, которое встречается больше всех остальных),  
Строка 5: Строка 5:
  
 
==Алгоритм==
 
==Алгоритм==
В каждый момент времени поддерживаем структуру данных, в которой хранится некоторый непрерывный отрезок <tex>[a \dots b]</tex> исходного массива (будем называть его рабочим отрезком),
+
В каждый момент времени поддерживаем структуру данных, в которой хранится некоторый непрерывный отрезок <tex>[a \ldots b]</tex> исходного массива (будем называть его рабочим отрезком),
 
которая поддерживает следующие операции:
 
которая поддерживает следующие операции:
 
* <tex>AddLeft</tex>, <tex>AddRight</tex> - операции, которые позволяют добавить элемент слева и справа соответственно.
 
* <tex>AddLeft</tex>, <tex>AddRight</tex> - операции, которые позволяют добавить элемент слева и справа соответственно.
Строка 15: Строка 15:
 
Запишем все запросы в массив, некоторым образом их отсортируем и будем их обрабатывать в том порядке, в котором они будут лежать в массиве после сортировки.
 
Запишем все запросы в массив, некоторым образом их отсортируем и будем их обрабатывать в том порядке, в котором они будут лежать в массиве после сортировки.
  
Допустим, что текущий рабочий отрезок — <tex>[a \dots b]</tex>, а первый необработанный запрос — <tex>[l_i, r_i]</tex> тогда сначала расширим наш отрезок,  
+
Допустим, что текущий рабочий отрезок — <tex>[a \ldots b]</tex>, а первый необработанный запрос — <tex>[l_i, r_i]</tex> тогда сначала расширим наш отрезок,  
используя только операции <tex>AddLeft</tex>, <tex>AddRight</tex> до отрезка <tex>[l \dots r]</tex>,
+
используя только операции <tex>AddLeft</tex>, <tex>AddRight</tex> до отрезка <tex>[l \ldots r]</tex>,
где <tex>l = min(a, l_i)</tex>, а <tex>r = max(b, r_i)</tex>, а затем удалим лишние элементы при помощи операций <tex>DelLeft</tex>, <tex>DelRight</tex>, чтобы получить отрезок <tex>[l_i \dots r_i]</tex>, после чего вызовем <tex>Answer</tex> и запомним ответ для этого запроса.
+
где <tex>l = \min(a, l_i)</tex>, а <tex>r = \max(b, r_i)</tex>, а затем удалим лишние элементы при помощи операций <tex>DelLeft</tex>, <tex>DelRight</tex>, чтобы получить отрезок <tex>[l_i \ldots r_i]</tex>, после чего вызовем <tex>Answer</tex> и запомним ответ для этого запроса.
  
 
Теперь разберём поподробнее, как именно следует сортировать запросы для достижения вышеназванной асимптотики по времени.
 
Теперь разберём поподробнее, как именно следует сортировать запросы для достижения вышеназванной асимптотики по времени.
  
Давайте разделим все запросы на блоки размера <tex>K</tex> по левой границе: те запросы, для которых <tex>1 \le l_i \le K</tex> - попадают в первую группу,  
+
Давайте разделим все запросы на блоки размера <tex>K</tex> по левой границе: те запросы, для которых <tex>1 \leqslant l_i \leqslant K</tex> - попадают в первую группу,  
те запросы, для которых <tex>K + 1 \le l_i \le 2 \cdot K</tex> - во вторую, <tex>2 \cdot K + 1 \le l_i \le 3 \cdot K</tex> - в третью, и так далее. Будем рассматривать все группы запросов независимо друг от друга. Если внутри каждой группы отсортировать запросы по правой границе, будет нетрудно заметить, что для всей группы суммарно будет выполнено не больше чем <tex>3 \cdot N + Q_i \cdot K</tex> операций <tex>Add</tex> и <tex>Del</tex> где <tex>Q_i</tex> - количество запросов, принадлежащих группе под номером <tex>i</tex>.
+
те запросы, для которых <tex>K + 1 \leqslant l_i \leqslant 2 \cdot K</tex> - во вторую, <tex>2 \cdot K + 1 \leqslant l_i \leqslant 3 \cdot K</tex> - в третью, и так далее. Будем рассматривать все группы запросов независимо друг от друга. Если внутри каждой группы отсортировать запросы по правой границе, будет нетрудно заметить, что для всей группы суммарно будет выполнено не больше чем <tex>3 \cdot N + Q_i \cdot K</tex> операций <tex>Add</tex> и <tex>Del</tex> где <tex>Q_i</tex> - количество запросов, принадлежащих группе под номером <tex>i</tex>.
  
 
Для доказательства этого давайте рассмотрим отдельно количество сделанных операций каждого из четырёх типов:
 
Для доказательства этого давайте рассмотрим отдельно количество сделанных операций каждого из четырёх типов:
* Изначально, до обработки группы, рабочий отрезок был <tex>[a \dots b]</tex>, для обработки первого запроса может потребоваться <tex>2 \cdot N</tex> операций <tex>Add</tex>, <tex>Del</tex>
+
* Изначально, до обработки группы, рабочий отрезок был <tex>[a \ldots b]</tex>, для обработки первого запроса может потребоваться <tex>2 \cdot N</tex> операций <tex>Add</tex>, <tex>Del</tex>
 
* <tex>DelRight</tex> не произойдёт ни разу, т.к. рабочий отрезок будет только расширяться в сторону правого конца
 
* <tex>DelRight</tex> не произойдёт ни разу, т.к. рабочий отрезок будет только расширяться в сторону правого конца
 
* <tex>AddRight</tex> произойдёт суммарно не больше чем <tex>N</tex> раз, так как минимальная правая граница - <tex>1</tex>, а максимальная - <tex>N</tex>
 
* <tex>AddRight</tex> произойдёт суммарно не больше чем <tex>N</tex> раз, так как минимальная правая граница - <tex>1</tex>, а максимальная - <tex>N</tex>
* Для оставшихся двух операций рассмотрим два последовательных запроса <tex>[l_i \dots r_i]</tex>, <tex>[l_j \dots r_j]</tex>. Нетрудно заметить, что так как отрезки принадлежат одной группе, то <tex>|l_i - l_j| < K</tex>, следовательно, количество операций <tex>AddLeft</tex> или <tex>DelLeft</tex> также не будет превосходить <tex>K</tex>
+
* Для оставшихся двух операций рассмотрим два последовательных запроса <tex>[l_i \ldots r_i]</tex>, <tex>[l_j \ldots r_j]</tex>. Нетрудно заметить, что так как отрезки принадлежат одной группе, то <tex>|l_i - l_j| < K</tex>, следовательно, количество операций <tex>AddLeft</tex> или <tex>DelLeft</tex> также не будет превосходить <tex>K</tex>
  
Таким образом, нетрудно видеть, все группы будут обработаны за время <tex>O(\frac{N^2}{K}  + K \cdot Q)</tex>.  
+
Таким образом, нетрудно видеть, все группы будут обработаны за время <tex>O(\dfrac{N^2}{K}  + K \cdot Q)</tex>.  
  
 
При выборе <tex>K = \sqrt{N}</tex> с учётом сортировки по правой границе получается асимптотика времени <tex>O(Q \log Q + (N + Q) \cdot \sqrt N)</tex>
 
При выборе <tex>K = \sqrt{N}</tex> с учётом сортировки по правой границе получается асимптотика времени <tex>O(Q \log Q + (N + Q) \cdot \sqrt N)</tex>
Строка 68: Строка 68:
 
Так как в данной задаче порядок чисел на отрезке не важен, важно лишь количество вхождений каждого, то реализация отдельных функций для добавления слева и справа нам не потребуется.
 
Так как в данной задаче порядок чисел на отрезке не важен, важно лишь количество вхождений каждого, то реализация отдельных функций для добавления слева и справа нам не потребуется.
  
Для простоты будем считать, что все числа '''не превышают <tex>N</tex>''', тогда будем хранить массив <tex>cnt[N + 1]</tex>, где <tex>cnt[value]</tex> - количество вхождений числа <tex>value</tex> в рабочем отрезке. Тогда операции будут иметь следующий вид:
+
Для простоты будем считать, что все числа '''не превышают <tex>N</tex>''', тогда будем хранить массив <tex>cnt[N + 1]</tex>, где <tex>cnt[value]</tex> - количество вхождений числа <tex>value</tex> в рабочем отрезке. Будем помимо этого массива хранить отсортированное множество <tex>current</tex>, в котором будут содержаться все пары вида <tex>\langle cnt[value], value \rangle</tex>, для ненулевых <tex>cnt[value]</tex>. Тогда операции будут иметь следующий вид:
 
  '''function''' Add('''int''' index):
 
  '''function''' Add('''int''' index):
 +
  '''int''' value = a[index]
 +
  '''if''' (cnt[value] != 0):
 +
    current.erase((cnt[value], value))
 
   cnt[a[index]] += 1
 
   cnt[a[index]] += 1
   update_best()
+
   current.insert((cnt[value], value))
 
   
 
   
 
   '''function''' Del('''int''' index):
 
   '''function''' Del('''int''' index):
 +
  '''int''' value = a[index]
 +
  current.erase((cnt[value], value))
 
   cnt[a[index]] -= 1
 
   cnt[a[index]] -= 1
   update_best()
+
   '''if''' (cnt[value] != 0):
 +
    current.insert((cnt[value], value))
 +
'''function''' Answer(): '''int'''
 +
  return <tex>\max(current).second</tex> <font color=green>//В данном случае просто требуется вернуть второй элемент из максимальной пары из текущего состояния массива <tex>current</tex></font>
  
В данном случае реализовать '''update_best''' будет проще всего используя <tex>TreeSet</tex> или его аналоги из стандартной библиотеки языка. Стоит отметить, что это добавляет множитель <tex>O(\log N)</tex> в асимптотике. Итоговая асимптотика тогда <tex>O(Q \cdot \log{Q} + (N + Q) \cdot \sqrt{N} \cdot \log N)</tex>
+
В данном случае реализовать '''update_best''' будет проще всего используя <tex>TreeSet</tex> или его аналоги из стандартной библиотеки языка. Стоит отметить, что это добавляет множитель <tex>O(\log N)</tex> в асимптотике. Итоговая асимптотика тогда <tex>O(Q \cdot \log Q + (N + Q) \cdot \sqrt{N} \cdot \log N)</tex>

Версия 19:50, 15 января 2017

Алгоритм Мо (англ. Mo's algorithm) — применяется для решения задач, в которых требуется отвечать на запросы [math]a[l \ldots r][/math] на массиве без изменения элементов в оффлайн за время [math]O(Q \cdot \log{Q} + (N + Q) \cdot \sqrt{N})[/math], где [math]Q[/math] - количество запросов, а [math]N[/math] - количество элементов в массиве. Характерными примерами задач на этот алгоритм являются: нахождение моды на отрезке (число, которое встречается больше всех остальных), вычисление количества инверсий на отрезке.

Алгоритм

В каждый момент времени поддерживаем структуру данных, в которой хранится некоторый непрерывный отрезок [math][a \ldots b][/math] исходного массива (будем называть его рабочим отрезком), которая поддерживает следующие операции:

  • [math]AddLeft[/math], [math]AddRight[/math] - операции, которые позволяют добавить элемент слева и справа соответственно.
  • [math]DelLeft[/math], [math]DelRight[/math] - операции, которые позволяют удалить элемент слева и справа соответственно.
  • [math]Answer[/math] - операция, которая позволяет получить ответ на запрос, если бы его границами был рабочий отрезок.

Изначально в качестве рабочего отрезка можно взять любой отрезок, если не не забыть

Запишем все запросы в массив, некоторым образом их отсортируем и будем их обрабатывать в том порядке, в котором они будут лежать в массиве после сортировки.

Допустим, что текущий рабочий отрезок — [math][a \ldots b][/math], а первый необработанный запрос — [math][l_i, r_i][/math] тогда сначала расширим наш отрезок, используя только операции [math]AddLeft[/math], [math]AddRight[/math] до отрезка [math][l \ldots r][/math], где [math]l = \min(a, l_i)[/math], а [math]r = \max(b, r_i)[/math], а затем удалим лишние элементы при помощи операций [math]DelLeft[/math], [math]DelRight[/math], чтобы получить отрезок [math][l_i \ldots r_i][/math], после чего вызовем [math]Answer[/math] и запомним ответ для этого запроса.

Теперь разберём поподробнее, как именно следует сортировать запросы для достижения вышеназванной асимптотики по времени.

Давайте разделим все запросы на блоки размера [math]K[/math] по левой границе: те запросы, для которых [math]1 \leqslant l_i \leqslant K[/math] - попадают в первую группу, те запросы, для которых [math]K + 1 \leqslant l_i \leqslant 2 \cdot K[/math] - во вторую, [math]2 \cdot K + 1 \leqslant l_i \leqslant 3 \cdot K[/math] - в третью, и так далее. Будем рассматривать все группы запросов независимо друг от друга. Если внутри каждой группы отсортировать запросы по правой границе, будет нетрудно заметить, что для всей группы суммарно будет выполнено не больше чем [math]3 \cdot N + Q_i \cdot K[/math] операций [math]Add[/math] и [math]Del[/math] где [math]Q_i[/math] - количество запросов, принадлежащих группе под номером [math]i[/math].

Для доказательства этого давайте рассмотрим отдельно количество сделанных операций каждого из четырёх типов:

  • Изначально, до обработки группы, рабочий отрезок был [math][a \ldots b][/math], для обработки первого запроса может потребоваться [math]2 \cdot N[/math] операций [math]Add[/math], [math]Del[/math]
  • [math]DelRight[/math] не произойдёт ни разу, т.к. рабочий отрезок будет только расширяться в сторону правого конца
  • [math]AddRight[/math] произойдёт суммарно не больше чем [math]N[/math] раз, так как минимальная правая граница - [math]1[/math], а максимальная - [math]N[/math]
  • Для оставшихся двух операций рассмотрим два последовательных запроса [math][l_i \ldots r_i][/math], [math][l_j \ldots r_j][/math]. Нетрудно заметить, что так как отрезки принадлежат одной группе, то [math]|l_i - l_j| \lt K[/math], следовательно, количество операций [math]AddLeft[/math] или [math]DelLeft[/math] также не будет превосходить [math]K[/math]

Таким образом, нетрудно видеть, все группы будут обработаны за время [math]O(\dfrac{N^2}{K} + K \cdot Q)[/math].

При выборе [math]K = \sqrt{N}[/math] с учётом сортировки по правой границе получается асимптотика времени [math]O(Q \log Q + (N + Q) \cdot \sqrt N)[/math]

Реализация

struct Query:
  int l, r, index 

int K = sqrt(N)

bool compare(Query a, Query b):
  if (a.l / K != b.l / K):
    return a.l < b.l
  return a.r < b.r 

function process(Query[Q] q):
  sort(q, compare) //сортируем запросы, используя функцию compare как оператор сравнения
  int a = 1, b = 0 //создаём пустой рабочий отрезок
  for i = 0 to Q - 1:
    while (a > q[i].l):
      AddLeft(a - 1)
      a -= 1
    while (b < q[i].r):
      AddRight(b + 1)
      b += 1
    while (a < q[i].l):
      DelLeft(a)
      a += 1
    while (b > q[i].r):
      DelRight(b)
      b -= 1
    result[q[i].id] = Answer()

Рассмотрим для наглядности решение задачи нахождения моды на отрезке:

Будем использовать код описанный выше, осталось только описать операции [math]AddLeft[/math], [math]AddRight[/math], [math]DelLeft[/math], [math]DelRight[/math]. Так как в данной задаче порядок чисел на отрезке не важен, важно лишь количество вхождений каждого, то реализация отдельных функций для добавления слева и справа нам не потребуется.

Для простоты будем считать, что все числа не превышают [math]N[/math], тогда будем хранить массив [math]cnt[N + 1][/math], где [math]cnt[value][/math] - количество вхождений числа [math]value[/math] в рабочем отрезке. Будем помимо этого массива хранить отсортированное множество [math]current[/math], в котором будут содержаться все пары вида [math]\langle cnt[value], value \rangle[/math], для ненулевых [math]cnt[value][/math]. Тогда операции будут иметь следующий вид:

function Add(int index):
  int value = a[index]
  if (cnt[value] != 0):
    current.erase((cnt[value], value))
  cnt[a[index]] += 1
  current.insert((cnt[value], value))

 function Del(int index):
  int value = a[index]
  current.erase((cnt[value], value))
  cnt[a[index]] -= 1
  if (cnt[value] != 0):
    current.insert((cnt[value], value))
function Answer(): int
  return [math]\max(current).second[/math] //В данном случае просто требуется вернуть второй элемент из максимальной пары из текущего состояния массива [math]current[/math]

В данном случае реализовать update_best будет проще всего используя [math]TreeSet[/math] или его аналоги из стандартной библиотеки языка. Стоит отметить, что это добавляет множитель [math]O(\log N)[/math] в асимптотике. Итоговая асимптотика тогда [math]O(Q \cdot \log Q + (N + Q) \cdot \sqrt{N} \cdot \log N)[/math]