Поиск k-ой порядковой статистики за линейное время

Определение:

[math]k[/math]-ой порядковой статистикой набора элементов линейно упорядоченного множества называется такой его элемент, который является -ым элементом набора в порядке сортировки

Содержание

1 Историческая справка
2 Идея алгоритма
3 Описание алгоритма
- 3.1 Псевдокод
- 3.2 Пример
4 Анализ времени работы алгоритма
5 Литература
6 Ссылки

Историческая справка

Алгоритм Блюма-Флойда-Пратта-Ривеста-Тарьяна (BFPRT-алгоритм) создан Мануэлем Блюмом (Manuel Blum), Робертом Флойдом (Robert Floyd), Воганом Рональдом Праттом (Vaughan Ronald Pratt), Роном Ривестом (Ron Rivest) и Робертом Тарьяном (Robert Tarjan) в 1973 году.

Идея алгоритма

Этот алгоритм почти ни чем не отличается от алгоритма поиска k-ой порядковой статистики, но имеет важное отличие в том, что время работы алгоритма в наихудшем случае равно [math]O(n)[/math], что будет доказано ниже. Главная идея алгоритма заключается в том, чтобы гарантировать хорошее разбиение массива. Алгоритм выбирает такой рассекающий элемент, что количество чисел, которые меньше рассекающего элемента, не менее [math]\frac{3n}{10}[/math], где [math]n[/math] количество элементов в массиве, благодаря этому алгоритм работает за линейной время в любом случае.

Описание алгоритма

Все [math]n[/math] элементов входного массива разбиваются на группы по пять элементов, в последней группе будет [math]n[/math] [math] mod[/math] [math] 5[/math] элементов. Эта группа может оказаться пустой при [math]n[/math] кратных [math]5[/math].
Сначала сортируется каждая группа, затем выбираем медиану в каждой из этих групп.
Путем рекурсивного вызова шага 1 определяется медиана [math]x[/math] из множества медиан, найденных на втором шаге. Где [math]x[/math] — рассекающий элемент, [math]i[/math] — индекс рассекающего элемента. Если медиан окажется четное количество, то на место рассекающего элемента будут претендовать две медианы, переменной [math]x[/math] будет присвоено значение большей из этих двух медиан.
Делим массив относительно рассекающего элемента [math]x[/math]. Все элементы меньшие [math]x[/math] будут находиться левее [math]x[/math] в массиве и будут иметь меньший индекс и наоборот, если элементы больше [math]x[/math].
Если [math]i[/math] [math]=[/math] [math]k[/math], то возвращается значение [math]x[/math]. Иначе вызывается рекурсивно шаг 1, и выполняется поиск [math]k[/math]-го в порядке возрастания элемента в левой части массива,если [math]i[/math] [math]\lt [/math] [math]k[/math], или в правой части, если [math]i[/math] [math]\gt [/math] [math]k[/math].

Псевдокод

   select(A, l, r, k)
   {
       if (r - l + 1 <= 5) {
           sort(A[l..r]);                            //если элементов не больше 5, сортируем их и возвращаем к-ый элемент
           return A[k];
       }
       for i = l..(r - 4)
           sort(A[i..i + 4];                        //сортируем каждую группу
           i += 5;
       n = r - l + 1;
       Medians[1..n/5] = A[(l + 2):5:(r - 2)];      //создаем массив медиан
       j = l + 2;
       for i = 1..n / 5
           Medians[i] = A[j]
           j += 5;
       x = select(Medians, 1, n/5, n/10);           //x - рассекающий элемент
       A = share(A, l, r, x);                       //делим массив относительно элемента x
       for i = l to r
           if (A[i] == x)
               m = i;                               //находим индекс элемента x в исходном  массиве
       if (m = k)
           return A[m];
       if (m > k)
           select(A, k, r, m - k + 1);              //делаем рекурсивный вызов от той части массива, где находится к-ый элемент
       else
           select(A, l, k, m);
   }

Пример

На вход подается массив, разобьем элементы на группы по 5 элементов. Отсортируем элементы каждой группы и выберем медианы. Вызовемся рекурсивно от медиан.

Разобьем на группы по 5 медианы. Отсортируем элементы каждой группы и выберем медианы

Выберем медианы медиан. В итоге мы получили один элемент равный [math]40[/math]. Это и есть рассекающий элемент.

Анализ времени работы алгоритма

Чтобы проанализировать время работы алгоритма, сначала определим нижнюю границу для количества элементов, превышающих по величине рассекающий элемент [math]x[/math]. В общем случае как минимум половина медиан, найденных на втором шаге, больше или равны медианы медиан [math]x[/math]. Таким образом, как минимум [math]n[/math] [math]/[/math] [math]10[/math] содержат по [math]3[/math] превышающих величину [math]x[/math], за исключение группы, в которой меньше [math]5[/math] элементов и ещё одной группы, содержащей сам элемент [math]x[/math]. Таким образом получаем, что количество элементов меньших элемента [math]x[/math], не менее [math]\frac{3n}{10}[/math], где [math]n[/math] это количество элементов в массиве. Проведя аналогичные рассуждения для элементов, которые меньше по величине, чем рассекающий элемент [math]x[/math], мы получим, что как минимум [math]\frac{3n}{10}[/math] меньше, чем элемент [math]x[/math]. Теперь проведем анализ времени работы алгоритма. Пусть [math]T(n)[/math] — время работы алгоритма для [math]n[/math] элементов, тогда оно не больше, чем сумма:

времени работы на сортировку групп и разбиение по рассекающему элементу, то есть [math]Cn[/math];
времени работы для поиска медианы медиан, то есть [math]T(\frac{n}{5})[/math];
времени работы для поиска [math]k[/math]-го элемента в одной из двух частей массива, то есть [math]T(s)[/math], где [math]s[/math] — количество элементов в этой части. Но [math]s[/math] не превосходит [math]\frac{7n}{10}[/math], так как чисел, меньших рассекающего элемента, не менее [math]\frac{3n}{10}[/math] — это [math]\frac{n}{10}[/math] медиан, меньших медианы медиан, плюс не менее [math]\frac{2n}{10}[/math] элементов, меньших этих медиан. С другой стороны, чисел, больших рассекающего элемента, так же не менее [math]\frac{3n}{10}[/math], следовательно [math] s \le \frac{7n}{10}[/math], то есть в худшем случае [math] s = \frac{7n}{10}[/math].

Тогда получаем, что

Покажем, что для всех [math] n [/math] выполняется неравенство [math]T(n) \le 10Cn [/math].

Докажем по индукции:

Очевидно, что для малых [math] n [/math] выполняется неравенство [math]T(n) \le 10Cn [/math]
Тогда, по предположению индукции, и , тогда

Так как [math]T(n) \le 10Cn [/math], то время работы алгоритма [math]O(n)[/math]

Литература

Кормен, Т., Лейзерсон, Ч., Ривест, Р., Штайн, К. Алгоритмы: построение и анализ

Ссылки

Selection algorithm — Wikipedia

Поиск k-ой порядковой статистики за линейное время

Содержание

Историческая справка

Идея алгоритма

Описание алгоритма

Псевдокод

Пример

Анализ времени работы алгоритма

Литература

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты