Поиск k-ой порядковой статистики — различия между версиями

Текущая версия на 19:43, 4 сентября 2022

Определение:

[math]k[/math]-ой порядковой статистикой набора элементов линейно упорядоченного множества называется такой его элемент, который является -ым элементом набора в порядке сортировки

Содержание

1 Модификация QuickSort
2 Ссылки

Модификация QuickSort

Описание алгоритма

Будем использовать процедуру рассечения массива элементов из алгоритма сортировки QuickSort. Пусть нам надо найти [math]k[/math]-ую порядковую статистику, а после рассечения опорный элемент встал на позицию [math]m[/math]. Возможно три случая:

k = m. Порядковая статистика найдена.
k < m. Рекурсивно ищем [math]k[/math]-ую статистику в первой части массива.
k > m. Рекурсивно ищем [math](k - m - 1)[/math]-ую статистику во второй части массива.

Код алгоритма

Ниже представлен код представленного алгоритма. При реализации, однако, вместо рекурсивных вызовов изменяются границы поиска статистики во внешнем цикле. В коде считаем, что процедура partition принимает массив и границы отрезка, который будет рассечён (причём правая граница отрезка не включается), и возвращает индекс опорного элемента. Также считается, что массив индексируется с нуля.

int findOrderStatistic(int[] array, int k) {
  int left = 0, right = array.length;
  while (true) {
    int mid = partition(array, left, right);

    if (mid == k) {
      return array[mid];
    }
    else if (k < mid) {
      right = mid;
    }
    else {
      left = mid + 1;
    }
  }
}

Анализ времени работы

Аналогично QuickSort, может возникнуть такой же худший случай (процедура partition возвращает каждый раз левую или правую границу рассматриваемой части), при котором время работы составит [math]\Omega(n^2)[/math]. Однако, если считать, что partition возвращает все элементы рассматриваемого отрезка с равной вероятностью, то можно оценить матожидание времени работы как [math]O(n)[/math].

Будем оценивать количество сравнений. При поиске статистики в массиве размера [math]n[/math] функция partition (точнее, одна из распространённых вариаций) совершает не более [math]n - 1[/math] сравнений. Далее, в зависимости от [math]k[/math] выбирается левая или правая половины (или вообще алгоритм завершает работу). Оценку проводим сверху, то есть, будем считать, что каждый раз выбирается большая половина.

Предположим, что [math]T(k) \le ck[/math] для некоторой константы [math]c[/math] и всех [math]k \lt n[/math] (будем доказывать оценку по индукции). Тогда верно неравенство:

Преобразуем сумму из правой части равенства по формуле суммы арифметической прогрессии и оценим преобразованное выражение:

Воспользуемся полученной оценкой для оценки исходного выражения. Также, предположим, что [math]c \ge 4[/math]:

Для довершения доказательства необходима проверка базы индукции, но она тривиальна: для выборки порядковой статистики из одного элемента сравнений не требуется: [math]T(1) = 0 \lt 4[/math]. Итого, мы доказали, что [math]T(n) \le 4n[/math], следовательно, [math]T(n) = O(n)[/math]

Ссылки

Selection algorithm — Wikipedia
Donald Knuth. The Art of Computer Programming, Volume 3: Sorting and Searching, Third Edition. Addison-Wesley, 1997. ISBN 0-201-89685-0. Section 5.3.3: Minimum-Comparison Selection, pp.207–219.

@@ Строка 1: / Строка 1: @@
-{{В разработке}}
 {{Определение
 |definition=
@@ Строка 9: / Строка 7: @@
 === Описание алгоритма ===
-Будем использовать процедуру рассечения массива элементов из алгоритма сортировки QuickSort. Пусть нам надо найти <tex>k</tex>-ую порядковую статистику, а после рассечения опорный элемент встал на позицию <tex>m</tex>. Возможно три случая:
+Будем использовать процедуру рассечения массива элементов из алгоритма сортировки [[Быстрая сортировка|QuickSort]]. Пусть нам надо найти <tex>k</tex>-ую порядковую статистику, а после рассечения опорный элемент встал на позицию <tex>m</tex>. Возможно три случая:
 * '''k = m'''. Порядковая статистика найдена.
-* '''k < m'''. Рекурсивно ищем <tex>k</tex>-ую статистику в первой половине массива.
+* '''k < m'''. Рекурсивно ищем <tex>k</tex>-ую статистику в первой части массива.
-* '''k > m'''. Рекурсивно ищем <tex>(k - m - 1)</tex>-ую статистику во второй половине массива.
+* '''k > m'''. Рекурсивно ищем <tex>(k - m - 1)</tex>-ую статистику во второй части массива.
 === Код алгоритма ===
-Ниже представлен код представленного алгоритма. При реализации, однако, вместо рекурсивных вызовов изменяются границы поиска статистики во внешнем цикле. В коде счититаем, что процедура '''partition''' принимает массив и границы отрезка, который будет рассечён (причём правая граница отрезка не включается) и возвращает индекс опорного элемента. Также, считается, что массив индексируется с нуля.
+Ниже представлен код представленного алгоритма. При реализации, однако, вместо рекурсивных вызовов изменяются границы поиска статистики во внешнем цикле. В коде считаем, что процедура '''partition''' принимает массив и границы отрезка, который будет рассечён (причём правая граница отрезка не включается), и возвращает индекс опорного элемента. Также считается, что массив индексируется с нуля.
   '''int''' findOrderStatistic('''int[]''' array, '''int''' k) {
@@ Строка 31: / Строка 29: @@
       }
       '''else''' {
-       k -= mid + 1;
         left = mid + 1;
       }
@@ Строка 39: / Строка 36: @@
 === Анализ времени работы ===
-Аналогично QuickSort, может возникнуть такой же худщий случай (процедура '''partition''' возвращает каждый раз левую или правую границу рассматриваемой части), при котором время работы составит <tex>\Omega(n^2)</tex>. Однако, если считать, что '''partition''' возвращает все элементы рассматриваемого отрезка с равной вероятностью, то можно оценить матожидание времени работы как <tex>O(n)</tex>.
+Аналогично QuickSort, может возникнуть такой же худший случай (процедура '''partition''' возвращает каждый раз левую или правую границу рассматриваемой части), при котором время работы составит <tex>\Omega(n^2)</tex>. Однако, если считать, что '''partition''' возвращает все элементы рассматриваемого отрезка с равной вероятностью, то можно оценить матожидание времени работы как <tex>O(n)</tex>.
 Будем оценивать количество сравнений. При поиске статистики в массиве размера <tex>n</tex> функция '''partition''' (точнее, одна из распространённых вариаций) совершает не более <tex>n - 1</tex> сравнений. Далее, в зависимости от <tex>k</tex> выбирается левая или правая половины (или вообще алгоритм завершает работу). Оценку проводим сверху, то есть, будем считать, что каждый раз выбирается большая половина.
@@ Строка 60: / Строка 57: @@
 Для довершения доказательства необходима проверка базы индукции, но она тривиальна: для выборки порядковой статистики из одного элемента сравнений не требуется: <tex>T(1) = 0 < 4</tex>. Итого, мы доказали, что <tex>T(n) \le 4n</tex>, следовательно, <tex>T(n) = O(n)</tex>
+== Ссылки ==
+* [http://en.wikipedia.org/wiki/BFPRT Selection algorithm — Wikipedia]
+* Donald Knuth. The Art of Computer Programming, Volume 3: Sorting and Searching, Third Edition. Addison-Wesley, 1997. ISBN 0-201-89685-0. Section 5.3.3: Minimum-Comparison Selection, pp.207–219.

Поиск k-ой порядковой статистики — различия между версиями

Текущая версия на 19:43, 4 сентября 2022

Содержание

Модификация QuickSort

Описание алгоритма

Код алгоритма

Анализ времени работы

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты