Поиск k-ой порядковой статистики в двух массивах — различия между версиями
Shersh (обсуждение | вклад) м (→Совсем не наивное решение) |
Анна (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
{{Задача | {{Задача | ||
− | |definition = Даны два отсортированных массива <tex> | + | |definition = Даны два отсортированных массива <tex>a</tex> и <tex>b</tex> размерами <tex>n</tex> и <tex>m</tex> соответственно. Требуется [[Поиск k-ой порядковой статистики|найти <tex>k</tex>-ый порядковый элемент]] после их слияния. Будем считать, что все элементы в массивах различны и нумеруются с нуля.}} |
== Варианты решения == | == Варианты решения == | ||
Строка 10: | Строка 10: | ||
=== Еще одно решение === | === Еще одно решение === | ||
− | В первом массиве выберем элемент c индексом <tex>i = \dfrac{n}{2}</tex> и [[Целочисленный двоичный поиск|бинарным поиском]] найдем во втором массиве позицию <tex>j</tex>, на которой стоит наибольший элемент, меньший <tex>a[i]</tex>. Если <tex>i + j = k - 2</tex>, то мы нашли <tex>k</tex>-ую порядковую статистику {{---}} это элемент <tex>a[i]</tex>. Иначе, если <tex>i + j > k - 2</tex>, то далее тем же способом ищем в массиве <tex> | + | В первом массиве выберем элемент c индексом <tex>i = \dfrac{n}{2}</tex> и [[Целочисленный двоичный поиск|бинарным поиском]] найдем во втором массиве позицию <tex>j</tex>, на которой стоит наибольший элемент, меньший <tex>a[i]</tex>. Если <tex>i + j = k - 2</tex>, то мы нашли <tex>k</tex>-ую порядковую статистику {{---}} это элемент <tex>a[i]</tex>. Иначе, если <tex>i + j > k - 2</tex>, то далее тем же способом ищем в массиве <tex>a</tex> в диапазоне индексов <tex>[0, i - 1]</tex>, а если <tex>i + j < k - 2</tex>, то в диапазоне индексов <tex>[i + 1, n - 1]</tex>. Решая задачу таким способом, мы получим асимптотику <tex>O(\log(n) \cdot \log(m))</tex>. |
=== Совсем не наивное решение === | === Совсем не наивное решение === | ||
Приведём теперь решение, работающее за время <tex>O(\log(\min(n, m)))</tex>. | Приведём теперь решение, работающее за время <tex>O(\log(\min(n, m)))</tex>. | ||
− | Для начала рассмотрим следующую ситуацию: пусть у нас есть элемент <tex>a[i]</tex> из массива <tex> | + | Для начала рассмотрим следующую ситуацию: пусть у нас есть элемент <tex>a[i]</tex> из массива <tex>a</tex> и элемент <tex>b[j]</tex> из массива <tex>b</tex> и они связаны неравенством <tex>b[j - 1] < a[i] < b[j]</tex>. Тогда <tex>a[i]</tex> есть <tex>(j + i + 1)</tex>-ый порядковый элемент после слияния массивов. Это объясняется тем, что до <tex>a[i]</tex>-ого элемента идут <tex>j</tex> элементов из массива <tex>b</tex>, <tex>(i+1)</tex> элементов из массива <tex>a</tex> (включая сам элемент <tex>a[i]</tex>). В итоге получаем <tex>j + i + 1</tex>. Принимая это во внимание, будем выбирать <tex>i</tex> и <tex>j</tex> таким образом, чтобы <tex>j + i + 1 = k</tex>. |
Подведем промежуточный итог: | Подведем промежуточный итог: | ||
Строка 24: | Строка 24: | ||
Итак, если одно из двух последних условий выполняется, то мы нашли нужный элемент. Иначе нам нужно сократить область поиска, как задумывалось в начале. | Итак, если одно из двух последних условий выполняется, то мы нашли нужный элемент. Иначе нам нужно сократить область поиска, как задумывалось в начале. | ||
− | Будем использовать <tex>i</tex> и <tex>j</tex> как опорные точки для разделения массивов. Заметим, что если <tex>a[i] < b[j]</tex>, то <tex>a[i] < b[j - 1]</tex> (иначе второе условие бы выполнялось). В таком случае на месте <tex>i</tex>-го элемента может стоять максимум <tex>i + (j - 2) + 2 = (i + j)</tex>-ый порядковый элемент после слияния массивов (так произойдет в случае, когда <tex>a[i] > b[j - 2]</tex>), а значит элемент с номером <tex>i</tex> и все до него в массиве <tex> | + | Будем использовать <tex>i</tex> и <tex>j</tex> как опорные точки для разделения массивов. Заметим, что если <tex>a[i] < b[j]</tex>, то <tex>a[i] < b[j - 1]</tex> (иначе второе условие бы выполнялось). В таком случае на месте <tex>i</tex>-го элемента может стоять максимум <tex>i + (j - 2) + 2 = (i + j)</tex>-ый порядковый элемент после слияния массивов (так произойдет в случае, когда <tex>a[i] > b[j - 2]</tex>), а значит элемент с номером <tex>i</tex> и все до него в массиве <tex>a</tex> никогда не будут <tex>k</tex>-ой порядковой статистикой. Аналогично элемент с индексом <tex>j</tex> и все элементы, стоящие после него, в массиве <tex>b</tex> никогда не будут ответом, так как после слияния на позиции <tex>j</tex> будет стоять <tex>(i + j + 2)</tex>-ой порядковый элемент, порядковые номера остальных же будут еще больше. Таким образом, далее мы можем продолжать поиск в массиве <tex>a</tex> только в диапазоне индексов <tex>[i + 1, n - 1]</tex>, а в массиве <tex>b</tex> {{---}} <tex>[0, j - 1]</tex>. По аналогии, если <tex>b[j] < a[i]</tex>, то <tex>b[j] < a[i - 1]</tex> (иначе выполнялось бы третье условие). Аналогичными рассуждениями приходим к тому, что в таком случае дальнейший поиск нужно осуществлять в массиве <tex>a</tex> в диапазоне <tex>[0, i - 1]</tex>, в массиве <tex>b</tex> {{---}} <tex>[j + 1, m - 1]</tex>. |
− | Стоит отметить, что нам не нужно рассматривать элементы, стоящие и в том, и в другом массивах на позициях от <tex>k</tex>-ой до конца (если такие есть), так как они тоже никогда не будут ответом. Поэтому первый раз запускаем нашу функцию от параметров <tex>\mathtt{findKthOrderStatistic}( | + | Стоит отметить, что нам не нужно рассматривать элементы, стоящие и в том, и в другом массивах на позициях от <tex>k</tex>-ой до конца (если такие есть), так как они тоже никогда не будут ответом. Поэтому первый раз запускаем нашу функцию от параметров <tex>\mathtt{findKthOrderStatistic}(a, \min(n, k), b, \min(m, k), k)</tex>. |
− | '''int''' findKthOrderStatistic('''int*''' | + | '''int''' findKthOrderStatistic('''int*''' a, '''int''' n, '''int*''' b, '''int''' m, '''int''' k): |
'''if''' n == 1 <font color=green>// в этом случае можно сразу дать ответ </font> | '''if''' n == 1 <font color=green>// в этом случае можно сразу дать ответ </font> | ||
− | '''if''' | + | '''if''' b[k - 1] < a[0] |
− | '''return''' | + | '''return''' b[k - 1] |
− | '''else if ''' | + | '''else if ''' a[0] < b[k - 2] |
− | '''return''' | + | '''return''' b[k - 2] |
'''else''' | '''else''' | ||
− | '''return''' | + | '''return''' a[0] |
'''if''' m == 1 <font color=green>// симметричен случаю с n = 1 </font> | '''if''' m == 1 <font color=green>// симметричен случаю с n = 1 </font> | ||
− | '''return''' findKthOrderStatistic( | + | '''return''' findKthOrderStatistic(b, m, a, n, k) |
'''int''' i = n / 2 | '''int''' i = n / 2 | ||
'''int''' j = (k - 1) - i <font color=green>// j > 0, так как i <= (k / 2) </font> | '''int''' j = (k - 1) - i <font color=green>// j > 0, так как i <= (k / 2) </font> | ||
'''if''' j >= m | '''if''' j >= m | ||
− | '''return''' findKthOrderStatistic( | + | '''return''' findKthOrderStatistic(a + i + 1, n - i - 1, b, m, k - i - 1) |
− | <font color=green>// чтобы сохранить инвариант, сделаем | + | <font color=green>// чтобы сохранить инвариант, сделаем a[-1] = -INF и b[-1] = -INF </font> |
− | '''int''' AiLeft = ((i == 0) ? INT_MIN : | + | '''int''' AiLeft = ((i == 0) ? INT_MIN : a[i - 1]) |
− | '''int''' BjLeft = ((j == 0) ? INT_MIN : | + | '''int''' BjLeft = ((j == 0) ? INT_MIN : b[j - 1]) |
− | '''if''' BjLeft < | + | '''if''' BjLeft < a[i] '''and''' a[i] < b[j] |
'''return''' A[i] | '''return''' A[i] | ||
− | '''else if''' AiLeft < | + | '''else if''' AiLeft < b[j] '''and''' b[j] < a[i] |
− | '''return''' | + | '''return''' b[j] |
− | '''if''' | + | '''if''' a[i] < b[j] |
− | '''return''' findKthOrderStatistic( | + | '''return''' findKthOrderStatistic(a + i + 1, n - i - 1, b, j, k - i - 1) |
'''else''' | '''else''' | ||
− | '''return''' findKthOrderStatistic( | + | '''return''' findKthOrderStatistic(a, i, b + j + 1, m - j - 1, k - j - 1) |
Чтобы алгоритм работал за <tex>O(\log(\min(n, m)))</tex>, будем передавать первым массивом в функцию тот, длина которого меньше. Тогда длина рассматриваемой области первого массива на каждой итерации уменьшается в два раза. После того, как она станет равна единице, ответ можно будет получить за несколько сравнений. | Чтобы алгоритм работал за <tex>O(\log(\min(n, m)))</tex>, будем передавать первым массивом в функцию тот, длина которого меньше. Тогда длина рассматриваемой области первого массива на каждой итерации уменьшается в два раза. После того, как она станет равна единице, ответ можно будет получить за несколько сравнений. |
Версия 10:08, 19 апреля 2015
Задача: |
Даны два отсортированных массива найти после их слияния. Будем считать, что все элементы в массивах различны и нумеруются с нуля. -ый порядковый элемент | и размерами и соответственно. Требуется
Содержание
Варианты решения
Наивное решение
Сольем два массива и просто возьмем элемент с индексом
. Слияние будет выполнено за время , к тому же этот алгоритм использует дополнительной памяти.Чуть менее наивное решение
Будем использовать два указателя, с помощью которых сможем обойти массивы, не сливая их. Поставим указатели на начало каждого из массивов. Будем увеличивать на единицу тот из них, который указывает на меньший элемент. После
-ой итерации сравним элементы, на которых стоят указатели. Меньший из них и будет ответом. Таким образом, мы получим -ый элемент за шагов.Еще одно решение
В первом массиве выберем элемент c индексом бинарным поиском найдем во втором массиве позицию , на которой стоит наибольший элемент, меньший . Если , то мы нашли -ую порядковую статистику — это элемент . Иначе, если , то далее тем же способом ищем в массиве в диапазоне индексов , а если , то в диапазоне индексов . Решая задачу таким способом, мы получим асимптотику .
иСовсем не наивное решение
Приведём теперь решение, работающее за время
.Для начала рассмотрим следующую ситуацию: пусть у нас есть элемент
из массива и элемент из массива и они связаны неравенством . Тогда есть -ый порядковый элемент после слияния массивов. Это объясняется тем, что до -ого элемента идут элементов из массива , элементов из массива (включая сам элемент ). В итоге получаем . Принимая это во внимание, будем выбирать и таким образом, чтобы .Подведем промежуточный итог:
- Инвариант
- Если , то и есть -ая порядковая статистика
- Если , то и есть -ая порядковая статистика
Итак, если одно из двух последних условий выполняется, то мы нашли нужный элемент. Иначе нам нужно сократить область поиска, как задумывалось в начале.
Будем использовать
и как опорные точки для разделения массивов. Заметим, что если , то (иначе второе условие бы выполнялось). В таком случае на месте -го элемента может стоять максимум -ый порядковый элемент после слияния массивов (так произойдет в случае, когда ), а значит элемент с номером и все до него в массиве никогда не будут -ой порядковой статистикой. Аналогично элемент с индексом и все элементы, стоящие после него, в массиве никогда не будут ответом, так как после слияния на позиции будет стоять -ой порядковый элемент, порядковые номера остальных же будут еще больше. Таким образом, далее мы можем продолжать поиск в массиве только в диапазоне индексов , а в массиве — . По аналогии, если , то (иначе выполнялось бы третье условие). Аналогичными рассуждениями приходим к тому, что в таком случае дальнейший поиск нужно осуществлять в массиве в диапазоне , в массиве — .Стоит отметить, что нам не нужно рассматривать элементы, стоящие и в том, и в другом массивах на позициях от
-ой до конца (если такие есть), так как они тоже никогда не будут ответом. Поэтому первый раз запускаем нашу функцию от параметров .int findKthOrderStatistic(int* a, int n, int* b, int m, int k): if n == 1 // в этом случае можно сразу дать ответ if b[k - 1] < a[0] return b[k - 1] else if a[0] < b[k - 2] return b[k - 2] else return a[0] if m == 1 // симметричен случаю с n = 1 return findKthOrderStatistic(b, m, a, n, k) int i = n / 2 int j = (k - 1) - i // j > 0, так как i <= (k / 2) if j >= m return findKthOrderStatistic(a + i + 1, n - i - 1, b, m, k - i - 1) // чтобы сохранить инвариант, сделаем a[-1] = -INF и b[-1] = -INF int AiLeft = ((i == 0) ? INT_MIN : a[i - 1]) int BjLeft = ((j == 0) ? INT_MIN : b[j - 1]) if BjLeft < a[i] and a[i] < b[j] return A[i] else if AiLeft < b[j] and b[j] < a[i] return b[j] if a[i] < b[j] return findKthOrderStatistic(a + i + 1, n - i - 1, b, j, k - i - 1) else return findKthOrderStatistic(a, i, b + j + 1, m - j - 1, k - j - 1)
Чтобы алгоритм работал за
, будем передавать первым массивом в функцию тот, длина которого меньше. Тогда длина рассматриваемой области первого массива на каждой итерации уменьшается в два раза. После того, как она станет равна единице, ответ можно будет получить за несколько сравнений.