Поиск k-ой порядковой статистики за линейное время

Определение:

[math]k[/math]-ой порядковой статистикой набора элементов линейно упорядоченного множества называется такой его элемент, который является -ым элементом набора в порядке сортировки

Содержание

1 Историческая справка
2 Идея алгоритма
3 Описание алгоритма
- 3.1 Псевдокод
- 3.2 Пример
4 Анализ времени работы алгоритма
5 Литература
6 Ссылки

Историческая справка

Алгоритм Блюма-Флойда-Пратта-Ривеста-Тарьяна (BFPRT-алгоритм) создан Мануэлем Блюмом (Manuel Blum), Робертом Флойдом (Robert Floyd), Воганом Рональдом Праттом (Vaughan Ronald Pratt), Роном Ривестом (Ron Rivest) и Робертом Тарьяном (Robert Tarjan) в 1973 году.

Идея алгоритма

Этот алгоритм почти ни чем не отличается от алгоритма поиска k-ой порядковой статистики, но имеет важное отличие в том, что время работы алгоритма в наихудшем случае равно [math]O(n)[/math], что будет доказано ниже. Главная идея алгоритма заключается в том, чтобы гарантировать хорошее разбиение массива. Алгоритм выбирает такой рассекающий элемент, что количество чисел, которые меньше рассекающего элемента, не менее [math]\frac{3n}{10}[/math], где [math]n[/math] количество элементов в массиве, благодаря этому алгоритм работает за линейной время в любом случае.

Описание алгоритма

Все [math]n[/math] элементов входного массива разбиваются на группы по пять элементов, в последней группе будет [math]n[/math] [math] mod[/math] [math] 5[/math] элементов.
Сначала сортируется каждая группа, затем выбираем медиану в каждой из этих групп.
Путем рекурсивного вызова шага 1 определяется медиана [math]x[/math] из множества медиан, найденных на втором шаге. [math]x[/math] — рассекающий элемент, [math]i[/math] — индекс рассекающего элемента.Если медиан окажется четное количество, то на место рассекающего элемента будут претендовать две медианы, переменной [math]x[/math] будет присвоено значение большей из этих двух медиан.
Делим массив относительно рассекающего элемента [math]x[/math]. Все элементы меньшие [math]x[/math] будут находиться левее [math]x[/math] в массиве и будут иметь меньший индекс и наоборот, если элементы больше [math]x[/math].
Если [math]i[/math] [math]=[/math] [math]k[/math], то возвращается значение [math]x[/math]. Иначе вызывается рекурсивно шаг 1, и выполняется поиск [math]k[/math]-го в порядке возрастания элемента в левой части массива,если [math]i[/math] [math]\lt [/math] [math]k[/math], или в правой части, если [math]i[/math] [math]\gt [/math] [math]k[/math].

Псевдокод

   select(L,k)
   {
   if (length(L) <= 10)
   {
       sort L
       return the element in the kth position            // вернем элемент, находящийся на k-ой позиции;
   }
   partition L into subsets S[i] of five elements each   // разобьем L на подмножества S[i] размером 5 по 5 элементов;
       (there will be n/5 subsets total).
   for (i = 1 to n/5) do
       x[i] = select(S[i],3)                             //найдем медианы S[i];
   M = select({x[i]}, n/10)                              // M — рассекающий элемент;
   partition L into L1<M, L2=M, L3>M                     // разобьем L на подмножества L1, где все элементы меньше M;
   if (k <= length(L1))                                  // L3, где все элементы больше M и L2 равное M; 
       return select(L1,k)
   else if (k > length(L1)+length(L2))
       return select(L3,k-length(L1)-length(L2))
   else return M                                         // элемент на k-ой позиции в исходном массиве;
   }

Пример

На вход подается массив, разобьем элементы на группы по 5 элементов. Отсортируем элементы каждой группы и выберем медианы. Вызовемся рекурсивно от медиан.

Разобьем на группы по 5 медианы. Отсортируем элементы каждой группы и выберем медианы

Выберем медианы медиан. В итоге мы получили один элемент равный [math]40[/math]. Это и есть рассекающий элемент.

Анализ времени работы алгоритма

Пусть [math]T(n)[/math] — время работы алгоритма для [math]n[/math] элементов, тогда оно не больше, чем сумма:

времени работы на сортировку групп и разбиение по рассекающему элементу, то есть [math]Cn[/math];
времени работы для поиска медианы медиан, то есть [math]T(\frac{n}{5})[/math];
времени работы для поиска [math]k[/math]-го элемента в одной из двух частей массива, то есть [math]T(s)[/math], где [math]s[/math] — количество элементов в этой части. Но [math]s[/math] не превосходит [math]\frac{7n}{10}[/math], так как чисел, меньших рассекающего элемента, не менее [math]\frac{3n}{10}[/math] — это [math]\frac{n}{10}[/math] медиан, меньших медианы медиан, плюс не менее [math]\frac{2n}{10}[/math] элементов, меньших этих медиан. С другой стороны, чисел, больших рассекающего элемента, так же не менее [math]\frac{3n}{10}[/math], следовательно [math] s \le \frac{7n}{10}[/math], то есть в худшем случае [math] s = \frac{7n}{10}[/math].

Тогда получаем, что

Покажем, что для всех [math] n [/math] выполняется неравенство [math]T(n) \le 10Cn [/math].

Докажем по индукции:

Очевидно, что для малых [math] n [/math] выполняется неравенство [math]T(n) \le 10Cn [/math]
Тогда, по предположению индукции, и , тогда

Так как [math]T(n) \le 10Cn [/math], то время работы алгоритма [math]O(n)[/math]

Литература

Кормен, Т., Лейзерсон, Ч., Ривест, Р., Штайн, К. Алгоритмы: построение и анализ

Ссылки

Selection algorithm — Wikipedia

Поиск k-ой порядковой статистики за линейное время

Содержание

Историческая справка

Идея алгоритма

Описание алгоритма

Псевдокод

Пример

Анализ времени работы алгоритма

Литература

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты