Целочисленный двоичный поиск — различия между версиями
(Исправлена часть про бинарный поиск на неотсортированных массивах) |
(Исправления исправлений части про алгоритмы) |
||
Строка 10: | Строка 10: | ||
== Правосторонний/левосторонний целочисленный двоичный поиск == | == Правосторонний/левосторонний целочисленный двоичный поиск == | ||
− | Для простоты дальнейших определений будем считать, что <tex>a[0] = -\infty</tex> и что <tex>a[n] = +\infty</tex>. | + | Для простоты дальнейших определений будем считать, что <tex>a[0] = -\infty</tex> и что <tex>a[n+1] = +\infty</tex> (массив нумеруется с <tex>1</tex>). |
{{Определение|definition='''Правосторонний бинарный поиск''' (англ. <i>rightside binary search</i>) {{---}} бинарный поиск, с помощью которого мы ищем <tex> \max\limits_{i \in [0,n]} \{i \mid a[i] \leqslant x\} </tex>, где <tex>a</tex> {{---}} массив, а <tex>x</tex> {{---}} искомый ключ}} | {{Определение|definition='''Правосторонний бинарный поиск''' (англ. <i>rightside binary search</i>) {{---}} бинарный поиск, с помощью которого мы ищем <tex> \max\limits_{i \in [0,n]} \{i \mid a[i] \leqslant x\} </tex>, где <tex>a</tex> {{---}} массив, а <tex>x</tex> {{---}} искомый ключ}} | ||
Строка 18: | Строка 18: | ||
Использовав эти два вида двоичного поиска, мы можем найти отрезок позиций <tex>[l,r]</tex> таких, что <tex>\forall i \in [l,r] : a[i] = x</tex> и <tex> \forall i \notin [l,r] : a[i] \neq x </tex> | Использовав эти два вида двоичного поиска, мы можем найти отрезок позиций <tex>[l,r]</tex> таких, что <tex>\forall i \in [l,r] : a[i] = x</tex> и <tex> \forall i \notin [l,r] : a[i] \neq x </tex> | ||
− | + | ===Пример:=== | |
Задан отсортированный массив <tex>[1, 2, 2, 2, 2, 3, 5, 8, 9, 11], x = 2</tex>. | Задан отсортированный массив <tex>[1, 2, 2, 2, 2, 3, 5, 8, 9, 11], x = 2</tex>. | ||
Строка 34: | Строка 34: | ||
== Код == | == Код == | ||
− | '''int''' binSearch('''int[]''' a, '''int''' key) | + | '''int''' binSearch('''int[]''' a, '''int''' key): <font color="green">// Запускаем бинарный поиск</font> |
− | '''int''' l = 0 | + | '''int''' l = 0 <font color="green">// l, r {{---}} левая и правая границы</font> |
'''int''' r = len(a) + 1 | '''int''' r = len(a) + 1 | ||
− | '''while''' l < r - 1 <font color="green">// | + | '''while''' l < r - 1 <font color="green">// Запускаем цикл</font> |
m = (l + r) / 2 <font color="green">// m {{---}} середина области поиска</font> | m = (l + r) / 2 <font color="green">// m {{---}} середина области поиска</font> | ||
'''if''' a[m] < key | '''if''' a[m] < key | ||
l = m | l = m | ||
'''else''' | '''else''' | ||
− | r = m <font color="green">// | + | r = m <font color="green">// Сужение границ</font> |
'''return''' r | '''return''' r | ||
Строка 66: | Строка 66: | ||
== Применение двоичного поиска на некоторых неотсортированных массивах == | == Применение двоичного поиска на некоторых неотсортированных массивах == | ||
− | |||
− | Пусть отсортированный по возрастанию массив из <tex>n</tex> элементов <tex>a[0 \ldots n - 1]</tex>, все элементы которого различны, был циклически сдвинут, тогда полученный массив состоит из двух отсортированных частей. Используем двоичный поиск, чтобы найти индекс последнего элемента левой части массива. Для этого в реализации двоичного поиска заменим условие в <code>'''if'''</code> на <tex>a[m] > a[n-1]</tex>, тогда в <tex>l</tex> будет содержаться искомый индекс: | + | {{Задача |
+ | |definition = Пусть отсортированный по возрастанию массив из <tex>n</tex> элементов <tex>a[0 \ldots n - 1]</tex>, все элементы которого различны, был циклически сдвинут, требуется максимально быстро найти элемент в таком массиве. | ||
+ | }} | ||
+ | |||
+ | Если массив, отсортированный по возрастанию, был циклически сдвнут, тогда полученный массив состоит из двух отсортированных частей. Используем двоичный поиск, чтобы найти индекс последнего элемента левой части массива. Для этого в реализации двоичного поиска заменим условие в <code>'''if'''</code> на <tex>a[m] > a[n-1]</tex>, тогда в <tex>l</tex> будет содержаться искомый индекс: | ||
<code> | <code> | ||
'''int''' l = 0 | '''int''' l = 0 | ||
'''int''' r = n + 1 | '''int''' r = n + 1 | ||
− | '''while''' l < r - 1 <font color="green">// | + | '''while''' l < r - 1 <font color="green">// С помощью бинарного поиска найдем максимум на массиве</font> |
m = (l + r) / 2 <font color="green">// m {{---}} середина области поиска</font> | m = (l + r) / 2 <font color="green">// m {{---}} середина области поиска</font> | ||
'''if''' a[m] > a[n - 1] <font color="green">// Сужение границ</font> | '''if''' a[m] > a[n - 1] <font color="green">// Сужение границ</font> | ||
Строка 91: | Строка 94: | ||
Время выполнения данного алгоритма {{---}} <tex>O(2\log n)=O(\log n)</tex>. | Время выполнения данного алгоритма {{---}} <tex>O(2\log n)=O(\log n)</tex>. | ||
− | = | + | |
+ | {{Задача | ||
+ | |definition = Массив образован путем приписывания в конец массива, отсортированного по возрастанию, массива, отсортированного по убыванию. Требуется максимально быстро найти элемент в таком массиве. | ||
+ | }} | ||
Найдем индекс последнего элемента массива, отсортированного по возрастанию, воспользовавшись двоичным поиском, условие в <code>'''if'''</code> изменим на <tex>a[m] > a[m - 1]</tex>. Тогда в <tex>l</tex> будет содержаться искомый индекс: | Найдем индекс последнего элемента массива, отсортированного по возрастанию, воспользовавшись двоичным поиском, условие в <code>'''if'''</code> изменим на <tex>a[m] > a[m - 1]</tex>. Тогда в <tex>l</tex> будет содержаться искомый индекс: | ||
Строка 97: | Строка 103: | ||
'''int''' l = 0 | '''int''' l = 0 | ||
'''int''' r = n + 1 | '''int''' r = n + 1 | ||
− | '''while''' l < r - 1 <font color="green">// | + | '''while''' l < r - 1 <font color="green">// С помощью бинарного поиска найдем точку экстремума на массиве</font> |
m = (l + r) / 2 <font color="green">// m {{---}} середина области поиска</font> | m = (l + r) / 2 <font color="green">// m {{---}} середина области поиска</font> | ||
'''if''' a[m] > a[m - 1] <font color="green">// Проверяем, возрастает ли массив на данном участке</font> | '''if''' a[m] > a[m - 1] <font color="green">// Проверяем, возрастает ли массив на данном участке</font> | ||
Строка 110: | Строка 116: | ||
− | = | + | {{Задача |
+ | |definition = Два отсортированных по возрастанию массива записаны один в конец другого. Требуется максимально быстро найти элемент в таком массиве. | ||
+ | }} | ||
− | Мы имеем массив, образованный из двух отсортированных | + | Мы имеем массив, образованный из двух отсортированных подмассивов, записанных один в конец другого, запустить сразу бинарный поиск на таком массиве нельзя, так как массив не будет обязательно отсортированным. Также нельзя запустить другие поиски, работающие за <tex>O( \log n)</tex>, так как неизвестно количество точек экстремума, и нет никакой дополнительной информации об элементах в массивах. Поэтому попробуем найти индекс последнего элемента левого массива, чтобы потом запустить бинарный поиск два раза на отсортированных массивах. Рассмотрим массивы <tex> \{ 1,2,3 \mid 4,5,6 \}</tex> и <tex> \{ 1,2,3, 4 \mid \textbf{0} ,6 \}</tex> (вертикальная черта означает границу между левым и правым массивами): все элементы, кроме пятого не меняются, значит, по другим элементам невозможно определить, есть ли в правом массиве элемент, который меньше элементов левого массива, поэтому для нахождения конца левого массива придется сравнить все элементы с соседними за <tex>O(n)</tex>, тогда проще сразу искать нужный элемент, а не конец левого массива. |
− | |||
− | |||
− | |||
− | + | Для того, чтобы за <tex>O(n)</tex> найти элемент в массиве, нужно пройти по всем элементам массива и сравнить их с искомым, быстрее найти элемент в таком массиве нельзя. | |
− | |||
− | + | {{Задача | |
+ | |definition = Массив образован путем циклического сдвига массива, образованного приписыванием отсортированного по убыванию массива в конец отсортированного по возрастанию . Требуется максимально быстро найти элемент в таком массиве. | ||
+ | }} | ||
+ | После циклического сдвига мы получим массив <tex>a[0 \ldots n-1]</tex>, образованный из трех частей: отсортированных по возрастанию-убыванию-возрастанию (<tex>\nearrow \searrow \nearrow </tex>) или по убыванию-возрастанию-убыванию (<tex> \searrow \nearrow \searrow </tex>). Поэтому с помощью двоичного поиска мы ищем индексы максимального и минимального элементов массива, заменив условие в <code>'''if'''</code> на <tex>a[m] > a[m - 1]</tex> (ответ будет записан в <tex>l</tex>) или на <tex>a[m] > a[m + 1]</tex> (ответ будет записан в <tex>r</tex>) соответственно. | ||
− | + | Рассмотрим отдельно ситуацию, если наш массив вида возрастание-убывание-возрастание (<tex>\nearrow \searrow \nearrow </tex>). В таком случае может быть неправильно найдено значение максимума (<tex>max</tex>). В <tex>r</tex> будет храниться изначальное значение, то есть <tex>n+1</tex>. Тогда если последний элемент массива меньше первого, нужно еще раз запустить поиск максимума, но уже на промежутке от <tex>0</tex> до <tex>min</tex>. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | + | В случае же убывание-возрастание-убывание (<tex> \searrow \nearrow \searrow </tex>) мы неправильно найдем минимум. Найдем правильный минимум аналогично поиску максимума в предыдущем абзаце. | |
Затем, в зависимости от расположения частей (можно узнать, сравнив <tex>min</tex> и <tex>max</tex>), запустим двоичный поиск для каждой части отдельно аналогично задаче о поиске элемента на массиве, отсортированном по возрастанию, в конец которого приписан массив, отсортированный по убыванию. | Затем, в зависимости от расположения частей (можно узнать, сравнив <tex>min</tex> и <tex>max</tex>), запустим двоичный поиск для каждой части отдельно аналогично задаче о поиске элемента на массиве, отсортированном по возрастанию, в конец которого приписан массив, отсортированный по убыванию. | ||
Строка 166: | Строка 146: | ||
== Источники информации == | == Источники информации == | ||
− | * Д. Кнут - Искусство программирования (Том 3, 2-е издание) | + | * Д. Кнут {{---}} Искусство программирования (Том 3, 2-е издание) |
− | * [http://ru.wikipedia.org/wiki/%D0%94%D0%B2%D0%BE%D0%B8%D1%87%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA Википедия - двоичный поиск] | + | * [http://ru.wikipedia.org/wiki/%D0%94%D0%B2%D0%BE%D0%B8%D1%87%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA Википедия {{---}} двоичный поиск] |
* [http://habrahabr.ru/post/146228/| Интересная статья про типичные ошибки] | * [http://habrahabr.ru/post/146228/| Интересная статья про типичные ошибки] | ||
* [http://algolist.manual.ru/search/advbin.php| Бинарный поиск на algolist] | * [http://algolist.manual.ru/search/advbin.php| Бинарный поиск на algolist] |
Версия 23:50, 13 декабря 2015
Целочисленный двоичный поиск (бинарный поиск) (англ. binary search) — алгоритм поиска объекта по заданному признаку в множестве объектов, упорядоченных по тому же самому признаку, работающий за логарифмическое время.
Содержание
Формулировка задачи
Пусть нам дан упорядоченный массив, состоящий только из целочисленных элементов. Требуется найти позицию, на которой находится заданный элемент. Для этой задачи мы и можем использовать двоичный поиск.
Принцип работы
Двоичный поиск заключается в том, что на каждом шаге множество объектов делится на две части и в работе остаётся та часть множества, где находится искомый объект. Или же, в зависимости от постановки задачи, мы можем остановить процесс, когда мы получим первый или же последний индекс вхождения элемента. Последнее условие — это левосторонний/правосторонний двоичный поиск.
Правосторонний/левосторонний целочисленный двоичный поиск
Для простоты дальнейших определений будем считать, что
и что (массив нумеруется с ).
Определение: |
Правосторонний бинарный поиск (англ. rightside binary search) — бинарный поиск, с помощью которого мы ищем | , где — массив, а — искомый ключ
Определение: |
Левосторонний бинарный поиск (англ. leftside binary search) — бинарный поиск, с помощью которого мы ищем | , где — массив, а — искомый ключ
Использовав эти два вида двоичного поиска, мы можем найти отрезок позиций таких, что и
Пример:
Задан отсортированный массив
.Правосторонний поиск двойки выдаст в результате
, в то время как левосторонний выдаст (нумерация с единицы).От сюда следует, что количество подряд идущих двоек равно длине отрезка
, то есть .Если искомого элемента в массиве нет, то правосторонний поиск выдаст минимальный элемент, больший искомого, а левосторонний наоборот, максимальный элемент, меньший искомого.
Алгоритм двоичного поиска
Идея поиска заключается в том, чтобы брать элемент посередине, между границами, и сравнивать его с искомым. Если искомое больше(в случае правостороннего — не меньше), чем элемент сравнения, то сужаем область поиска так, чтобы новая левая граница была равна индексу середины предыдущей области. В противном случае присваиваем это значение правой границе. Проделываем эту процедуру до тех пор, пока правая граница больше левой более чем на
. В случае правостороннего бинарного поиска ответом будет индекс , а в случае левостороннего — .Код
int binSearch(int[] a, int key): // Запускаем бинарный поиск int l = 0 // l, r — левая и правая границы int r = len(a) + 1 while l < r - 1 // Запускаем цикл m = (l + r) / 2 // m — середина области поиска if a[m] < key l = m else r = m // Сужение границ return r
В случае правостороннего поиска изменится знак сравнения при сужении границ на .
Инвариант цикла: пусть левый индекс не больше искомого элемента, а правый — строго больше, тогда если
, то понятно, что — самое правое вхождение (так как следующее уже больше).Несколько слов об эвристиках
Эвристика с завершением поиска, при досрочном нахождении искомого элемента
Заметим, что если нам необходимо просто проверить наличие элемента в упорядоченном множестве, то можно использовать любой из правостороннего и левостороннего поиска. При этом будем на каждой итерации проверять "не попали ли мы в элемент, равный искомому", и в случае попадания заканчивать поиск.
Эвристика с запоминанием ответа на предыдущий запрос
Пусть дан отсортированный массив чисел, упорядоченных по неубыванию. Также пусть запросы приходят в таком порядке, что каждый следующий не меньше, чем предыдущий. Для ответа на запрос будем использовать левосторонний двоичный поиск. При этом после того как обработался первый запрос, запомним чему равно
, запишем его в переменную . Когда будем обрабатывать следующий запрос, то проинициализируем левую границу как . Заметим, что все элементы, которые лежат не правее , строго меньше текущего искомого элемента, так как они меньше предыдущего запроса, а значит и меньше текущего. Значит инвариант цикла выполнен.Применение двоичного поиска на некоторых неотсортированных массивах
Задача: |
Пусть отсортированный по возрастанию массив из | элементов , все элементы которого различны, был циклически сдвинут, требуется максимально быстро найти элемент в таком массиве.
Если массив, отсортированный по возрастанию, был циклически сдвнут, тогда полученный массив состоит из двух отсортированных частей. Используем двоичный поиск, чтобы найти индекс последнего элемента левой части массива. Для этого в реализации двоичного поиска заменим условие в if
на , тогда в будет содержаться искомый индекс:
int l = 0 int r = n + 1 while l < r - 1 // С помощью бинарного поиска найдем максимум на массиве m = (l + r) / 2 // m — середина области поиска if a[m] > a[n - 1] // Сужение границ l = m else r = m int x = l // x — искомый индекс.
Затем воспользуемся двоичным поиском искомого элемента
if key > a[0] // Если key в левой части l = 0 r = x + 1 if key < a[n] // Если key в правой части l = x + 1 r = n + 1
Время выполнения данного алгоритма —
.
Задача: |
Массив образован путем приписывания в конец массива, отсортированного по возрастанию, массива, отсортированного по убыванию. Требуется максимально быстро найти элемент в таком массиве. |
Найдем индекс последнего элемента массива, отсортированного по возрастанию, воспользовавшись двоичным поиском, условие в if
изменим на . Тогда в будет содержаться искомый индекс:
int l = 0 int r = n + 1 while l < r - 1 // С помощью бинарного поиска найдем точку экстремума на массиве m = (l + r) / 2 // m — середина области поиска if a[m] > a[m - 1] // Проверяем, возрастает ли массив на данном участке l = m else r = m int x = l // x — искомый индекс.
Затем запустим левосторонний двоичный поиск для каждого массива отдельно: для элементов if
на .
Время выполнения алгоритма —
.
Задача: |
Два отсортированных по возрастанию массива записаны один в конец другого. Требуется максимально быстро найти элемент в таком массиве. |
Мы имеем массив, образованный из двух отсортированных подмассивов, записанных один в конец другого, запустить сразу бинарный поиск на таком массиве нельзя, так как массив не будет обязательно отсортированным. Также нельзя запустить другие поиски, работающие за , так как неизвестно количество точек экстремума, и нет никакой дополнительной информации об элементах в массивах. Поэтому попробуем найти индекс последнего элемента левого массива, чтобы потом запустить бинарный поиск два раза на отсортированных массивах. Рассмотрим массивы и (вертикальная черта означает границу между левым и правым массивами): все элементы, кроме пятого не меняются, значит, по другим элементам невозможно определить, есть ли в правом массиве элемент, который меньше элементов левого массива, поэтому для нахождения конца левого массива придется сравнить все элементы с соседними за , тогда проще сразу искать нужный элемент, а не конец левого массива.
Для того, чтобы за
найти элемент в массиве, нужно пройти по всем элементам массива и сравнить их с искомым, быстрее найти элемент в таком массиве нельзя.
Задача: |
Массив образован путем циклического сдвига массива, образованного приписыванием отсортированного по убыванию массива в конец отсортированного по возрастанию . Требуется максимально быстро найти элемент в таком массиве. |
После циклического сдвига мы получим массив , образованный из трех частей: отсортированных по возрастанию-убыванию-возрастанию ( ) или по убыванию-возрастанию-убыванию ( ). Поэтому с помощью двоичного поиска мы ищем индексы максимального и минимального элементов массива, заменив условие в if
на (ответ будет записан в ) или на (ответ будет записан в ) соответственно.
Рассмотрим отдельно ситуацию, если наш массив вида возрастание-убывание-возрастание (
). В таком случае может быть неправильно найдено значение максимума ( ). В будет храниться изначальное значение, то есть . Тогда если последний элемент массива меньше первого, нужно еще раз запустить поиск максимума, но уже на промежутке от до .В случае же убывание-возрастание-убывание (
) мы неправильно найдем минимум. Найдем правильный минимум аналогично поиску максимума в предыдущем абзаце.Затем, в зависимости от расположения частей (можно узнать, сравнив
и ), запустим двоичный поиск для каждой части отдельно аналогично задаче о поиске элемента на массиве, отсортированном по возрастанию, в конец которого приписан массив, отсортированный по убыванию.Время выполнения данного алгоритма —
.См. также
Источники информации
- Д. Кнут — Искусство программирования (Том 3, 2-е издание)
- Википедия — двоичный поиск
- Интересная статья про типичные ошибки
- Бинарный поиск на algolist