Поиск k-ой порядковой статистики в двух массивах — различия между версиями

Версия 18:06, 18 апреля 2015

Задача:

Пусть даны два отсортированных массива и размерами и соответственно. Требуется найти -ый порядковый элемент после их слияния. Будем считать, что все элементы в массивах различны и нумеруются с нуля.

Варианты решения

Наивное решение

Сольем два массива и просто возьмем элемент с индексом [math]k - 1[/math]. Сливание будет выполнено за [math]O(n + m)[/math] c использованием дополнительной памяти, что является существенным недостатком.

Чуть менее наивное решение

Будем использовать два указателя, с помощью которых сможем обойти массивы не сливая их. Поставим указатели на начало каждого из массивов. Будем увеличивать на единицу тот из них, который указывает на меньший элемент. После [math](k - 1)[/math]-ого добавления сравним элементы, на которых стоят указатели. Меньший из них и будет ответом. Таким образом, мы получим [math]k[/math]-ый элемент за [math]O(k)[/math] шагов.

Еще одно решение

В первом массиве выберем серединный элемент [math](i = n / 2)[/math] и бинпоиском найдем во втором массиве позицию [math]j[/math], на котором стоит наибольший элемент, меньший [math]a[i][/math]. Если [math]i + j = k - 2[/math], то мы нашли [math]k[/math]-ую порядковую статистику — это элемент [math]a[i][/math]. Иначе, если [math]i + j \gt k - 2[/math], то далее тем же способом ищем в массиве [math]A[/math] в диапазоне индексов [math][0, i - 1][/math], а если [math]i + j \lt k - 2[/math], то в диапазоне индексов [math][i + 1, n - 1][/math]. Решая задачу таким способом, мы получим асимптотику [math]O(\log(n) \cdot \log(m))[/math].

Совсем не наивное решение

Оба решения, приведенные выше, работают за линейное время, то есть приемлемы только при небольших значениях [math]k[/math]. Следующее решение работает за [math]O(\log(\min(n, m)))[/math].

Чтобы получить логарифмическую сложность, будем использовать бинарный поиск, который сокращает область поиска с каждой итерацией. То есть для достижения нужной сложности мы должны на каждой итерации сокращать круг поиска в каждом из массивов.

Рассмотрим следующую ситуацию: пусть у нас есть элемент [math]a[i][/math] из массива [math]A[/math] и элемент [math]b[j][/math] из массива [math]B[/math] и они связаны неравенством . Тогда [math]a[i][/math] есть [math](j + i + 1)[/math]-ый порядковый элемент после слияния массивов. Это объясняется тем, что до [math]a[i][/math]-ого элемента идут [math](j - 1)[/math] элемент из массива [math]B[/math], [math]i[/math] элементов из массива [math]A[/math] (включая сам элемент [math]a[i][/math]). В итоге получаем [math]j + i + 1[/math]. Принимая это во внимание, будем выбирать [math]i[/math] и [math]j[/math] таким образом, чтобы [math]j + i + 1 = k[/math].

Подведем промежуточный итог:

Инвариант [math]j + i = k - 1[/math]
Если , то [math]a[i][/math] и есть [math]k[/math]-ая порядковая статистика
Если , то [math]b[j][/math] и есть [math]k[/math]-ая порядковая статистика

Итак, если одно из двух последних условий выполняется, то мы нашли нужный элемент. Иначе нам нужно сократить область поиска, как задумывалось в начале.

Будем использовать [math]i[/math] и [math]j[/math] как опорные точки для разделения массивов. Заметим, что если [math]a[i] \lt b[j][/math], то [math]a[i] \lt b[j - 1][/math] (иначе второе условие бы выполнялось). В таком случае на месте [math]i[/math]-го элемента может стоять максимум [math]i + (j - 2) + 2 = (i + j)[/math]-ый порядковый элемент после слияния массивов (так произойдет в случае, когда [math]a[i] \gt b[j - 2][/math]), а значит элемент с номером [math]i[/math] и все до него в массиве [math]A[/math] никогда не будут [math]k[/math]-ой порядковой статистикой. Аналогично элемент с индексом [math]j[/math] и все элементы, стоящие после него, в массиве [math]B[/math] никогда не будут ответом, так как на позиции [math]j[/math] будет стоять [math](i + j + 2)[/math]-ой порядковый элемент после слияния, порядковые номера остальных же будут еще больше. Таким образом, далее мы можем продолжать поиск в массиве [math]A[/math] только в диапазоне индексов [math][i + 1, n - 1][/math], а в массиве [math]B[/math] — [math][0, j - 1][/math]. По аналогии, если [math]b[j] \lt a[i][/math], то [math]b[j] \lt a[i - 1][/math] (иначе выполнялось бы третье условие). Аналогичными рассуждениями приходим к тому, что в таком случае дальнейший поиск нужно осуществлять в массиве [math]A[/math] в диапазоне [math][0, i - 1][/math], в массиве [math]B[/math] — [math][j + 1, m - 1][/math].

Стоит отметить, что еще нам не нужно рассматривать элементы, стоящие и в том, и в другом массивах на позициях от [math]k[/math]-ой до конца (если такие есть), так как они тоже никогда не будут ответом. Поэтому первый раз запускаем нашу функцию от параметров .

int findKthOrderStatistic(int* A, int n, int* B, int m, int k): 
  if (n == 1):
    if (A[0] > B[k - 1]):
      return  B[k - 1]
    else
      return A[0]
  if (m == 1):
    if (B[0] > A[k - 1]):
      return  A[k - 1]
    else
      return B[0]
  int i = n / 2
  int j = (k - 1) - i // j > 0, так как i <= (k / 2) 
  if (j >= m):
    return findKthOrderStatistic(A + i + 1, n - i - 1, B, m, k - i - 1)
  // чтобы сохранить инвариант, сделаем A[-1] = -INF и B[-1] = -INF 
  int Ai_left = ((i == 0) ? INT_MIN : A[i-1])
  int Bj_left = ((j == 0) ? INT_MIN : B[j-1])
  if (Bj_left < A[i] and A[i] < B[j]):
    return A[i]
  else if (Ai_left < B[j] and B[j] < A[i]):
    return B[j]
  if (A[i] < B[j]):
    return findKthOrderStatistic(A + i + 1, n - i - 1, B, j, k - i - 1)
  else
    return findKthOrderStatistic(A, i, B + j + 1, m - j - 1, k - j - 1)

Чтобы алгоритм работал за [math]O(\log(\min(n, m)))[/math], будем передавать первым массивом в функцию тот, длина которого меньше. Тогда первый массив на каждой итерации уменьшается в два раза, как только его размер становится равным единице, за несколько сравнений мы находим ответ. Таким образом мы получаем заявленную асимптотику.

См. также

Источники информации

@@ Строка 10: / Строка 10: @@
 В первом массиве выберем серединный элемент <tex>(i = n / 2)</tex> и бинпоиском найдем во втором массиве позицию <tex>j</tex>, на котором стоит наибольший элемент, меньший <tex>a[i]</tex>. Если <tex>i + j = k - 2</tex>, то мы нашли <tex>k</tex>-ую порядковую статистику {{---}} это элемент <tex>a[i]</tex>. Иначе, если <tex>i + j > k - 2</tex>, то далее тем же способом ищем в массиве <tex>A</tex> в диапазоне индексов <tex>[0, i - 1]</tex>, а если <tex>i + j < k - 2</tex>, то в диапазоне индексов <tex>[i + 1, n - 1]</tex>. Решая задачу таким способом, мы получим асимптотику <tex>O(\log(n) \cdot \log(m))</tex>.
 === Совсем не наивное решение ===
-Оба решения, приведенные выше, работают за линейное время, то есть приемлемы только при небольших значениях <tex>k</tex>. Следующее решение работает за <tex>O(\log(n) + \log(m))</tex>.
+Оба решения, приведенные выше, работают за линейное время, то есть приемлемы только при небольших значениях <tex>k</tex>. Следующее решение работает за <tex>O(\log(\min(n, m)))</tex>.
 Чтобы получить логарифмическую сложность, будем использовать [[Целочисленный двоичный поиск|бинарный поиск]], который сокращает область поиска с каждой итерацией. То есть для достижения нужной сложности мы должны на каждой итерации сокращать круг поиска в каждом из массивов.
@@ Строка 26: / Строка 26: @@
 Стоит отметить, что еще нам не нужно рассматривать элементы, стоящие и в том, и в другом массивах на позициях от <tex>k</tex>-ой до конца (если такие есть), так как они тоже никогда не будут ответом. Поэтому первый раз запускаем нашу функцию от параметров <tex>\mathtt{findKthOrderStatistic}(A, \min(n, k), B, \min(m, k), k)</tex>.
   '''int''' findKthOrderStatistic('''int*''' A, '''int''' n, '''int*''' B, '''int''' m, '''int''' k):
+   '''if''' (n == 1):
+     '''if''' (A[0] > B[k - 1]):
+       '''return'''  B[k - 1]
+     '''else'''
+       '''return''' A[0]
+   '''if''' (m == 1):
+     '''if''' (B[0] > A[k - 1]):
+       '''return'''  A[k - 1]
+     '''else'''
+       '''return''' B[0]
     '''int''' i = n / 2
     '''int''' j = (k - 1) - i <font color=green>// j > 0, так как i <= (k / 2) </font>
@@ Строка 35: / Строка 45: @@
     '''int''' Ai_left = ((i == 0) ? INT_MIN : A[i-1])
     '''int''' Bj_left = ((j == 0) ? INT_MIN : B[j-1])
-    '''if''' (Bj_left < Ai and Ai < Bj):
+    '''if''' (Bj_left < A[i] and A[i] < B[j]):
-      '''return''' Ai
+      '''return''' A[i]
-    '''else if''' (Ai_left < Bj and Bj < Ai):
+    '''else if''' (Ai_left < B[j] and B[j] < A[i]):
-      '''return''' Bj
+      '''return''' B[j]
-    '''if''' (Ai < Bj):
+    '''if''' (A[i] < B[j]):
       '''return''' findKthOrderStatistic(A + i + 1, n - i - 1, B, j, k - i - 1)
     '''else'''
       '''return''' findKthOrderStatistic(A, i, B + j + 1, m - j - 1, k - j - 1)
-Таким образом первый массив на каждой итерации уменьшается в два раза, и как только размер массива станет равен единице (это произойдет за <tex>O(\log(n))</tex> операций), мы найдем ответ за пару сравнений, так как <tex>j = k - 1</tex>. Если же размер второго массива станет равным единице раньше этого, то мы будем сокращать размер первого массива в два раза до тех пор, пока <tex>k - n / 2 \geqslant 0</tex>. Как только это условие перестанет выполняться, мы снова за несколько сравнений сможем найти ответ. Итоговая асимптотика {{---}} <tex>O(\log(n) + \log(m))</tex>.
+Чтобы алгоритм работал за <tex>O(\log(\min(n, m)))</tex>, будем передавать первым массивом в функцию тот, длина которого меньше. Тогда  первый массив на каждой итерации уменьшается в два раза, как только его размер становится равным единице, за несколько сравнений мы находим ответ. Таким образом мы получаем заявленную асимптотику.
 ==См. также==

Поиск k-ой порядковой статистики в двух массивах — различия между версиями

Версия 18:06, 18 апреля 2015

Содержание

Варианты решения

Наивное решение

Чуть менее наивное решение

Еще одно решение

Совсем не наивное решение

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты