Поиск k-ой порядковой статистики за линейное время

Определение:

[math]k[/math]-ой порядковой статистикой набора элементов линейно упорядоченного множества называется такой его элемент, который является -ым элементом набора в порядке сортировки

Историческая справка

Алгоритм Блюма-Флойда-Пратта-Ривеста-Тарьяна (BFPRT-алгоритм) создан Мануэлем Блюмом (Manuel Blum), Робертом Флойдом (Robert Floyd), Воганом Рональдом Праттом (Vaughan Ronald Pratt), Роном Ривестом (Ron Rivest) и Робертом Тарьяном (Robert Tarjan) в 1973 году.

Идея алгоритма

Этот алгоритм почти ни чем не отличается от алгоритма поиска k-ой порядковой статистики, но имеет важное отличие в том, что время работы алгоритма в наихудшем случае [math]O(n)[/math], где [math]n[/math] количество элементов. Главная идея алгоритма заключается в том, чтобы гарантировать хорошее разбиение массива. Алгоритм выбирает такой рассекающий элемент, что количество чисел, которые меньше рассекающего элемента, не менее [math]\frac{3n}{10}[/math]. Элементов больших опорного элемента, также не менее [math]\frac{3n}{10}[/math],. Благодаря этому алгоритм работает за линейной время в любом случае.

Описание алгоритма

Все [math]n[/math] элементов входного массива разбиваются на группы по пять элементов, в последней группе будет [math]n[/math] [math]\bmod[/math] [math] 5[/math] элементов. Эта группа может оказаться пустой при [math]n[/math] кратных [math]5[/math].
Сначала сортируется каждая группа, затем выбираем медиану в каждой из этих групп.
Путем рекурсивного вызова шага 1 определяется медиана [math]x[/math] из множества медиан, найденных на втором шаге. Где [math]x[/math] — рассекающий элемент, [math]i[/math] — индекс рассекающего элемента. Если медиан окажется четное количество, то на место рассекающего элемента будут претендовать две медианы, переменной [math]x[/math] будет присвоено значение большей из этих двух медиан.
Делим массив относительно рассекающего элемента [math]x[/math]. Все элементы меньшие [math]x[/math] будут находиться левее [math]x[/math] в массиве и будут иметь меньший индекс и наоборот, если элементы больше [math]x[/math].
Если [math]i[/math] [math]=[/math] [math]k[/math], то возвращается значение [math]x[/math]. Иначе вызывается рекурсивно шаг 1, и выполняется поиск [math]k[/math]-го в порядке возрастания элемента в левой части массива,если [math]i[/math] [math]\lt [/math] [math]k[/math], или в правой части, если [math]i[/math] [math]\gt [/math] [math]k[/math].

Пример работы алгоритма

Мы разберем в данном данном случае, поиск рассекающего элемента. Рассмотрим работу алгоритма на массиве из [math] 25 [/math] элементов, обозначенных кружками.

На вход подается массив, разобьем элементы на группы по 5 элементов. Отсортируем элементы каждой группы и выберем медианы. Полученные медианы групп отмечены белыми кружками.

Рекурсивно вызовемся от медиан групп и получим рассекающий элемент. На рисунке он обозначен белым кружком, внутри которого изображен символ [math] x [/math].

Проведем анализ рассекающего элемента. На рисунке обозначены закрашенные области, в левом верхнем и в правом нижнем углах. В эти области попали все элементы, которые точно меньше или больше рассекающего элемента, соответственно. В каждой области по [math] 8 [/math] элементов, всего же в массиве [math] 25 [/math], то есть мы получили хорошее (то есть соответствующее нашему утверждению) разбиение массива относительно опорного элемента, так как [math] 8 \gt [/math] [math]\frac{3 \cdot 25}{10}[/math]. Теперь докажем, что алгоритм также хорошо выбирает опорный элемент и в общем случае. Доказательство представлено ниже.

Анализ времени работы алгоритма

Чтобы проанализировать время работы алгоритма, сначала определим нижнюю границу для количества элементов, превышающих по величине рассекающий элемент [math]x[/math]. В общем случае как минимум половина медиан, найденных на втором шаге, больше или равны медианы медиан [math]x[/math]. Таким образом, как минимум [math]n[/math] [math]/[/math] [math]10[/math] групп содержат по [math]3[/math] превышающих величину [math]x[/math], за исключение группы, в которой меньше [math]5[/math] элементов и ещё одной группы, содержащей сам элемент [math]x[/math]. Таким образом получаем, что количество элементов больших элемента [math]x[/math], не менее [math]\frac{3n}{10}[/math], где [math]n[/math] это количество элементов в массиве. Проведя аналогичные рассуждения для элементов, которые меньше по величине, чем рассекающий элемент [math]x[/math], мы получим, что как минимум [math]\frac{3n}{10}[/math] меньше, чем элемент [math]x[/math]. Теперь проведем анализ времени работы алгоритма.

Пусть [math]T(n)[/math] — время работы алгоритма для [math]n[/math] элементов, тогда оно не больше, чем сумма:

времени работы на сортировку групп и разбиение по рассекающему элементу, то есть [math]Cn[/math];
времени работы для поиска медианы медиан, то есть [math]T(\frac{n}{5})[/math];
времени работы для поиска [math]k[/math]-го элемента в одной из двух частей массива, то есть [math]T(s)[/math], где [math]s[/math] — количество элементов в этой части. Но [math]s[/math] не превосходит [math]\frac{7n}{10}[/math], так как чисел, меньших рассекающего элемента, не менее [math]\frac{3n}{10}[/math] — это [math]\frac{n}{10}[/math] медиан, меньших медианы медиан, плюс не менее [math]\frac{2n}{10}[/math] элементов, меньших этих медиан. С другой стороны, чисел, больших рассекающего элемента, так же не менее [math]\frac{3n}{10}[/math], следовательно [math] s \le \frac{7n}{10}[/math], то есть в худшем случае [math] s = \frac{7n}{10}[/math].

Тогда получаем, что

Покажем, что для всех [math] n [/math] выполняется неравенство [math]T(n) \le 10Cn [/math].

Докажем по индукции:

Предположим, что наше неравенство [math]T(n) \le 10Cn [/math] выполняется при малых [math] n [/math], для некоторой достаточно большой константы [math] C [/math].
Тогда, по предположению индукции, и , тогда

Так как [math]T(n) \le 10Cn [/math], то время работы алгоритма [math]O(n)[/math]

Литература

Кормен, Т., Лейзерсон, Ч., Ривест, Р., Штайн, К. Алгоритмы: построение и анализ

Ссылки

Selection algorithm — Wikipedia

Поиск k-ой порядковой статистики за линейное время

Историческая справка

Идея алгоритма

Описание алгоритма

Пример работы алгоритма

Анализ времени работы алгоритма

Литература

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты