Изменения

Разрешение коллизий

17 536 байт добавлено, 23:30, 3 января 2019

→‎Линейное разрешение коллизий

'''~~Поиск свободного места при закрытом хешировании~~Разрешение [[Хеш-таблица|коллизий]]''' (англ. collision resolution) в [[Хеш-таблица|хеш- таблице]], задача, ~~возникающая при создании~~ решаемая несколькими способами: метод цепочек, открытая адресация и т.д. Очень важно сводить количество коллизий к минимуму, так как это увеличивает время работы с хеш-таблицы, использующей так называемое [[Открытое и закрытое хеширование#Закрытое хеширование|закрытое хеширование]]таблицами.

~~При использовании~~ == Разрешение коллизий с помощью цепочек ==[[~~Открытое и закрытое хеширование#Открытое хеширование~~Файл:open_hash.png|thumb|380px|right|Разрешение коллизий при помощи цепочек.]]Каждая ячейка <tex>i</tex> массива <tex>H</tex> содержит указатель на начало [[Список|~~открытого хеширования~~списка]] ~~такой проблемы не возникает, так как там в каждой ячейке хранится список~~ всех элементов, хеш-код которых равен <tex>i</tex>, либо указывает на их отсутствие. ~~При добавлении необходимо просто добавить элемент в начало списка~~Коллизии приводят к тому, что появляются списки размером больше одного элемента.

[[Открытое и закрытое хеширование#Закрытое хеширование|Закрытое хеширование]] работает иначе: в каждой ячейке хеш-таблицы хранится только один элементВ зависимости от того нужна ли нам уникальность значений операции вставки у нас будет работать за разное время. ~~Тогда при добавлении~~Если не важна, ~~если ячейка свободна~~то мы используем список, время вставки в который будет в худшем случае равна <tex>O(1)</tex>. Иначе мы ~~просто записываем добавляемый элемент~~ проверяем есть ли в ~~эту ячейку. Однако если эта ячейка занята - необходимо поместить добавляемый~~ списке данный элемент в какую-нибудь другую свободную ячейку. Такие ситуации нередки, так как невозможно использовать хеш-функцию, не дающую коллизий, а ~~каждой ячейке таблицы соответствует одно значение хеш-функции~~потом в случае его отсутствия мы его добавляем. ~~Далее мы рассмотрим несколько стратегий поиска свободного места~~ В таком случае вставка элемента в ~~данном~~ худшем случае.будет выполнена за <tex>O(n)</tex>

~~== Стратегии~~ Время работы поиска ==в наихудшем случае пропорционально длине списка, а если все <tex>n</tex> ключей захешировались в одну и ту же ячейку (создав список длиной <tex>n</tex>) время поиска будет равно <tex>\Theta(n)</tex> плюс время вычисления хеш-функции, что ничуть не лучше, чем использование связного списка для хранения всех <tex>n</tex> элементов.

Удаления элемента может быть выполнено за <tex>O(1)</tex>, как и вставка, при использовании двухсвязного списка. == Линейное разрешение коллизий ==[[Файл:close_hash.png|thumb|380px|right|Пример хеш-таблицы с открытой адресацией и линейным пробированием.]]Все элементы хранятся непосредственно в хеш-таблице, без использования связных списков. В отличие от хеширования с цепочками, при использовании этого метода может возникнуть ситуация, когда хеш-таблица окажется полностью заполненной, следовательно, будет невозможно добавлять в неё новые элементы. Так что при возникновении такой ситуации решением может быть динамическое увеличение размера хеш-таблицы, с одновременной её перестройкой. === Стратегии поиска === ''' Последовательный поиск '''

При попытке добавить элемент в занятую ячейку <tex>i</tex> начинаем последовательно просматривать ячейки <tex>i+1, i+2, i+3</tex> и так далее, пока не найдём свободную ячейку. В неё и запишем элемент.

[[Файл:hashtables1.png|400px|Последовательный поиск, частный случай линейного поиска.]] ''' Линейный поиск '''

Выбираем шаг <tex>q</tex>. При попытке добавить элемент в занятую ячейку <tex>i</tex> начинаем последовательно просматривать ячейки <tex>i+(1 \cdot q), i+(2 \cdot q), i+(3 \cdot q)</tex> и так далее, пока не найдём свободную ячейку. В неё и запишем элемент.

По сути последовательный поиск - частный случай линейного, где <tex>q=1</tex>.

[[Файл:Hashtables56.PNG|400px|Линейный поиск с шагом q.]] ''' Квадратичный поиск '''

Шаг <tex>q</tex> не фиксирован, а изменяется квадратично: <tex>q = 1,4,9,16...</tex>. Соответственно при попытке добавить элемент в занятую ячейку <tex>i</tex> начинаем последовательно просматривать ячейки <tex> i+1, i+4, i+9</tex> и так далее, пока не найдём свободную ячейку.

[[Файл:hashtables3.png|400px|Квадратичный поиск.]] === Проверка наличия элемента в таблице=== Проверка осуществляется аналогично добавлению: мы проверяем ячейку <tex>i</tex> и другие, в соответствии с выбранной стратегией, пока не найдём искомый элемент или свободную ячейку. При поиске элемента может получится так, что мы дойдём до конца таблицы. Обычно поиск продолжается, начиная с другого конца, пока мы не придём в ту ячейку, откуда начинался поиск. === Проблемы данных стратегий === Проблем две — крайне нетривиальное удаление элемента из таблицы и образование кластеров — последовательностей занятых ячеек. Кластеризация замедляет все операции с хеш-таблицей: при добавлении требуется перебирать всё больше элементов, при проверке тоже. Чем больше в таблице элементов, тем больше в ней кластеры и тем выше вероятность того, что добавляемый элемент попадёт в кластер.Для защиты от кластеризации используется двойное хеширование и [[Хеширование кукушки|хеширование кукушки]]. === Удаление элемента без пометок === Рассуждение будет описывать случай с линейным поиском хеша. Будем при удалении элемента сдвигать всё последующие на <tex>q</tex> позиций назад. При этом:* если в цепочке встречается элемент с другим хешем, то он должен остаться на своём месте (такая ситуация может возникнуть если оставшаяся часть цепочки была добавлена позже этого элемента)* в цепочке не должно оставаться "дырок", тогда любой элемент с данным хешем будет доступен из начала цепи Учитывая это будем действовать следующим образом: при поиске следующего элемента цепочки будем пропускать все ячейки с другим значением хеша, первый найденный элемент копировать в текущую ячейку, и затем рекурсивно его удалять. Если такой следующей ячейки нет, то текущий элемент можно просто удалить, сторонние цепочки при этом не разрушатся (чего нельзя сказать про случай квадратичного поиска). '' ~~Возможные проблемы~~ 'Псевдокод ''' '''function''' delete('''Item''' i): j = i + q '''while''' table[j] == ''null'' '''or''' table[j].key != table[i].key '''if''' table[j] == ''null'' table[i] = ''null'' '''return''' j += q table[i] = table[j] delete(j) Хеш-таблицу считаем зацикленной {{Утверждение|about=о времени работы|statement=Асимптотически время работы <tex>\mathrm{delete}</tex> и <tex>\mathrm{find}</tex> совпадают|proof=Заметим что указатель <tex>j</tex> в каждой итерации перемещается вперёд на <tex>q</tex> (с учётом рекурсивных вызовов <tex>\mathrm{delete}</tex>). То есть этот алгоритм последовательно пройдёт по цепочке от удаляемого элемента до последнего {{---}} с учётом вызова <tex>\mathrm{find}</tex> собственно для нахождения удаляемого элемента, мы посетим все ячейки цепи.}} Вариант с зацикливанием мы не рассматриваем, поскольку если <tex>q</tex> взаимнопросто с размером хеш-таблицы, то для зацикливания в ней вообще не должно быть свободных позиций Теперь докажем почему этот алгоритм работает. Собственно нам требуется сохранение трёх условий.* В редактируемой цепи не остаётся дырокДокажем по индукции. Если на данной итерации мы просто удаляем элемент (база), то после него ничего нет, всё верно. Если же нет, то вызванный в конце <tex>\mathrm{delete}</tex> (см. псевдокод) заметёт созданную дыру (скопированный элемент), и сам, по предположению, новых не создаст.* Элементы, которые уже на своих местах, не должны быть сдвинуты.Это учтено.* В других цепочках не появятся дырыПротивное возможно только в том случае, если какой-то элемент был действительно удалён. Удаляем мы только последнюю ячейку в цепи, и если бы на её месте возникла дыра для сторонней цепочки, это бы означало что элемент, стоящий на <tex>q</tex> позиций назад, одновременно принадлежал нашей и другой цепочкам, что невозможно. ==Двойное хеширование=='''Двойное хеширование''' (англ. double hashing) {{---}} метод борьбы с коллизиями, возникающими при открытой адресации, основанный на использовании двух хеш-функций для построения различных последовательностей исследования хеш-таблицы. ===Принцип двойного хеширования===При двойном хешировании используются две независимые хеш-функции <tex> h_1(k) </tex> и <tex> h_2(k) </tex>. Пусть <tex> k </tex> {{---}} это наш ключ, <tex> m </tex> {{---}} размер нашей таблицы, <tex>n \bmod m </tex> {{---}} остаток от деления <tex> n </tex> на <tex> m </tex>, тогда сначала исследуется ячейка с адресом <tex> h_1(k) </tex>, если она уже занята, то рассматривается <tex> (h_1(k) + h_2(k)) \bmod m </tex>, затем <tex> (h_1(k) + 2 \cdot h_2(k)) \bmod m </tex> и так далее. В общем случае идёт проверка последовательности ячеек <tex> (h_1(k) + i \cdot h_2(k)) \bmod m </tex> где <tex> i = (0, 1, \; ... \;, m - 1) </tex> Таким образом, операции вставки, удаления и поиска в лучшем случае выполняются за <tex>O(1)</tex>, в худшем {{---}} за <tex>O(m)</tex>, что не отличается от обычного [[Открытое_и_закрытое_хеширование#Линейное разрешение коллизий|линейного разрешения коллизий]].Однако в среднем, при грамотном выборе хеш-функций, двойное хеширование будет выдавать лучшие результаты, за счёт того, что вероятность совпадения значений сразу двух независимых хеш-функций ниже, чем одной. <center><tex>\forall x \neq y \; \exists h_1,h_2 : p(h_1(x)=h_1(y))> p((h_1(x)=h_1(y)) \land (h_2(x)=h_2(y)))</tex></center> ===Выбор хеш-функций===<tex> h_1 </tex> может быть обычной хеш-функцией. Однако чтобы последовательность исследования могла охватить всю таблицу, <tex> h_2 </tex> должна возвращать значения:*не равные <tex> 0 </tex>*независимые от <tex> h_1 </tex>*взаимно простые с величиной хеш-таблицы Есть два удобных способа это сделать. Первый состоит в том, что в качестве размера таблицы используется простое число, а <tex> h_2 </tex> возвращает натуральные числа, меньшие <tex> m </tex>. Второй {{---}} размер таблицы является степенью двойки, а <tex> h_2 </tex> возвращает нечетные значения. Например, если размер таблицы равен <tex> m </tex>, то в качестве <tex> h_2 </tex> можно использовать функцию вида <tex> h_2(k) = k \bmod (m-1) + 1 </tex> [[Файл: Вставка при двойном хэшировании.svg.jpeg|thumb|right|Вставка при двойном хешировании]] ===Пример=== Показана хеш-таблица размером 13 ячеек, в которой используются вспомогательные функции: <center><tex> h(k,i) = (h_1(k) + i \cdot h_2(k)) \bmod 13 </tex></center> <center><tex> h_1(k) = k \bmod 13 </tex></center> <center><tex> h_2(k) = 1 + k \bmod 11 </tex></center>

~~При поиске элемента может получится~~ Мы хотим вставить ключ 14. Изначально <tex> i = 0 </tex>. Тогда <tex> h(14,0) = (h_1(14) + 0\cdot h_2(14)) \bmod 13 = 1 </tex>. Но ячейка с индексом 1 занята, поэтому увеличиваем <tex> i </tex> на 1 и пересчитываем значение хеш-функции. Делаем так, ~~что мы дойдём~~ пока не дойдем до ~~конца таблицы~~пустой ячейки. ~~Обычно поиск продолжается~~При <tex> i = 2 </tex> получаем <tex> h(14, ~~начиная~~ 2) = (h_1(14) + 2\cdot h_2(14)) \bmod 13 = 9 </tex>. Ячейка с ~~другого конца. Однако~~номером 9 свободна, если мы придём в ту ячейку, откуда начинался поиск, то добавить элемент в текущую таблицу будет невозможно и необходимо провести операцию перехешированиязначит записываем туда наш ключ.

~~Если не осталось свободных~~ Таким образом, основная особенность двойного хеширования состоит в том, что при различных <tex> k </tex> пара <tex> (h_1(k),h_2(k)) </tex> дает различные последовательности ячеек ~~то требуется увеличить размер хеш таблицы~~для исследования.

== ~~Проверка наличия элемента в таблице~~=Простая реализация===Пусть у нас есть некоторый объект <tex> item </tex>, в котором определено поле <tex> key </tex>, от которого можно вычислить хеш-функции <tex> h_1(key)</tex> и <tex> h_2(key) </tex>

~~Проверка осуществляется аналогично добавлению~~Так же у нас есть таблица <tex> table </tex> величиной <tex> m </tex>, состоящая из объектов типа <tex> item </tex>. '''Вставка''' '''function''' add('''Item''' item): x = h1(item.key) y = h2(item.key) '''for''' (i = 0..m) '''if''' table[x] == ''null'' table[x] = item '''return''' x = (x + y) '''mod''' m table.resize()<span style="color: ~~мы проверяем ячейку~~ Green">// ошибка, требуется увеличить размер таблицы '''Поиск''' '''Item''' search('''Item''' key): x = h1(key) y = h2(key) '''for''' (i = 0..m) '''if''' table[x] != ''null'' '''if''' table[x].key == key '''return''' table[x] '''else''' '''return''' ''null'' x = (x + y) '''mod''' m '''return''' ''null'' ===Реализация с удалением===Чтобы наша хеш-таблица поддерживала удаление, требуется добавить массив <tex>deleted</tex> типов <tex>bool</tex>, равный по величине массиву <tex>itable</tex> . Теперь при удалении мы просто будем помечать наш объект ''как удалённый'', а при добавлении как ''не удалённый'' и ~~другие~~замещать новым добавляемым объектом. При поиске, помимо равенства ключей, мы смотрим, удалён ли элемент, если да, то идём дальше. '''Вставка''' '''function''' add('''Item''' item): x = h1(item.key) y = h2(item.key) '''for''' (i = 0..m) '''if''' table[x] == '''null''' '''or''' deleted[x] table[x] = item deleted[x] = '''false''' '''return''' x = (x + i * y) '''mod''' m table.resize()<span style="color:Green">// ошибка, требуется увеличить размер таблицы'''Поиск''' '''Item''' search('''Item''' key): x = h1(key) y = h2(key) '''for''' (i = 0..m) '''if''' table[x] != '''null''' '''if''' table[x].key == key '''and''' !deleted[x] '''return''' table[x] '''else''' '''return''' '''null''' x = (x + y) '''mod''' m '''return''' '''null''' '''Удаление''' '''function''' remove('''Item''' key): x = h1(key) y = h2(key) '''for''' (i = 0..m) '''if''' table[x] != '''null''' '''if''' table[x].key == key deleted[x] = '''true''' '''else''' '''return''' x = (x + y) '''mod''' m ==Альтернативная реализация метода цепочек==В Java 8 для разрешения коллизий используется модифицированный метод цепочек. Суть его заключается в ~~соответствии~~ том, что когда количество элементов в корзине превышает определенное значение, данная корзина переходит от использования связного списка к использованию [[АВЛ-дерево|сбалансированного дерева]]. Но данный метод имеет смысл лишь тогда, когда на элементах хеш-таблицы задан [[Отношение порядка|линейный порядок]]. То есть при использовании данный типа <tex>\mathbf{int}</tex> или <tex>\mathbf{double}</tex> имеет смысл переходить к дереву поиска, а при использовании каких-нибудь ссылок на объекты не имеет, так как они не реализуют нужный интерфейс. Такой подход позволяет улучшить производительность с ~~выбранной стратегией~~<tex>O(n)</tex> до <tex>O(\log(n))</tex>. Данный способ используется в таких коллекциях как HashMap, ~~пока не найдём искомый элемент или свободную ячейку~~LinkedHashMap и ConcurrentHashMap.

~~== Проблемы закрытого хеширования ==~~[[Файл:Hashing_in_Java8.png|500px|Хеширование в Java 8.]]

~~Проблем две - крайне нетривиальное удаление элемента из таблицы и образование кластеров~~==См.также==Кластер - последовательность занятых клеток. Их наличие замедляет все операции с хеш-таблицей: при добавлении требуется перебирать всё больше элементов, при проверке тоже. Чем больше в таблице элементов, тем больше в ней кластеры и тем выше вероятность того, что добавляемый элемент попадёт в кластер.* [[Хеширование]]~~Для защиты от кластеризации используется~~ * [[~~Двойное хеширование~~Хеширование_кукушки|~~двойное хеширование~~Хеширование кукушки]] и * [[~~Хеширование кукушки~~Идеальное_хеширование|Идеальное хеширование ~~кукушки~~]].

==~~Литература~~Источники информации ==* ТБакнелл Дж. М. «Фундаментальные алгоритмы и структуры данных в Delphi», 2003* Кормен, ЧТомас Х. , Лейзерсон, РЧарльз И. , Ривест, ~~Алгоритмы~~Рональд Л., Штайн Клиффорд «Алгоритмы: построение и ~~анализ~~анализ», 2-е издание, . Пер. с англ. — М.:Издательский дом "Вильямс", ~~2005 год~~2010.— Парал. тит. англ. — ISBN 978-5-8459-0857-5 (рус.)* Дональд Кнут. «Искусство программирования, том 3. Сортировка и поиск» {{---}} «Вильямс», 2007 г.{{---}} ISBN 0-201-89685-0* Седжвик Р. «Фундаментальные алгоритмы на C. Части 1-4. Анализ. Структуры данных. Сортировка. Поиск», ~~стр~~2003* [http://openjdk.java.net/jeps/180 Handle Frequent HashMap Collisions with Balanced Trees]* [http://en.wikipedia.org/wiki/Double_hashing Wikipedia {{---}} Double_hashing]* [http://ru.wikipedia.org/wiki/%D0%A5%D0%B5%D1%88-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0 Разрешение коллизий]* [http://rain.ifmo.ru/cat/view.php/vis/hashtables/hash-2001-2 Пример хеш таблицы]* [http://research.cs.vt.edu/AVresearch/hashing/double. ~~282~~php Пример хеш таблицы с двойным хешированием]

[[Категория: Дискретная математика и алгоритмы]]

[[Категория: Хеширование]]

[[Категория: Структуры данных]]

Zhelenskiy

1

правка

Изменения

Разрешение коллизий

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты