Изменения

Разрешение коллизий

5330 байт добавлено, 23:30, 3 января 2019

→‎Линейное разрешение коллизий

~~{{Определение~~'''Разрешение [[Хеш-таблица|коллизий]]''' (англ. collision resolution) в [[Хеш-таблица|~~definition=Коллизия~~ хеш-~~функции —~~ таблице]], задача, решаемая несколькими способами: метод цепочек, открытая адресация и т.д. Очень важно сводить количество коллизий к минимуму, так как это ~~равенство значений~~ увеличивает время работы с хеш-~~функции на двух различных блоках данных~~таблицами.}}

~~'''~~== Разрешение коллизий~~''' в~~ с помощью цепочек ==[[Файл:open_hash.png|thumb|380px|right|Разрешение коллизий при помощи цепочек.]]Каждая ячейка <tex>i</tex> массива <tex>H</tex> содержит указатель на начало [[Список|списка]] всех элементов, хеш-~~таблице~~код которых равен <tex>i</tex>, ~~задача~~либо указывает на их отсутствие. Коллизии приводят к тому, ~~решаемая несколькими способами. Можно использовать~~ что появляются списки~~, а можно открытую адресацию~~размером больше одного элемента.

~~При использовании списков особых проблем~~ В зависимости от того нужна ли нам уникальность значений операции вставки у нас будет работать за разное время. Если не ~~возникает~~важна, то мы используем список, ~~так как там~~ время вставки в который будет в ~~каждой ячейке хранится список всех элементов~~худшем случае равна <tex>O(1)</tex>. ~~При добавлении необходимо просто добавить~~ Иначе мы проверяем есть ли в списке данный элемент , а потом в ~~начало списка~~случае его отсутствия мы его добавляем.В таком случае вставка элемента в худшем случае будет выполнена за <tex>O(n)</tex>

~~При открытой адресации будет иначе:~~ Время работы поиска в ~~каждой ячейке хеш-таблицы хранится только один элемент. Тогда при добавлении~~наихудшем случае пропорционально длине списка, а если ~~ячейка свободна, мы просто записываем добавляемый элемент~~ все <tex>n</tex> ключей захешировались в ~~эту~~ одну и ту же ячейку. Однако если эта ячейка занята {{---}} необходимо поместить добавляемый элемент в какую-нибудь другую свободную ячейку. Такие ситуации нередки, так как невозможно использовать (создав список длиной <tex>n</tex>) время поиска будет равно <tex>\Theta(n)</tex> плюс время вычисления хеш-~~функцию~~функции, что ничуть не ~~дающую коллизий~~лучше, а каждой ячейке таблицы соответствует одно значение хеш-функции. Далее мы рассмотрим несколько стратегий поиска свободного места в данном случаечем использование связного списка для хранения всех <tex>n</tex> элементов.

Удаления элемента может быть выполнено за <tex>O(1)</tex>, как и вставка, при использовании двухсвязного списка. == Линейное разрешение коллизий ==[[Файл:close_hash.png|thumb|380px|right|Пример хеш-таблицы с открытой адресацией и линейным пробированием.]]Все элементы хранятся непосредственно в хеш-таблице, без использования связных списков. В отличие от хеширования с цепочками, при использовании этого метода может возникнуть ситуация, когда хеш-таблица окажется полностью заполненной, следовательно, будет невозможно добавлять в неё новые элементы. Так что при возникновении такой ситуации решением может быть динамическое увеличение размера хеш-таблицы, с одновременной её перестройкой. === Стратегии поиска ===

''' Последовательный поиск '''

[[Файл:hashtables3.png|400px|Квадратичный поиск.]]

=== Проверка наличия элемента в таблице===

Проверка осуществляется аналогично добавлению: мы проверяем ячейку <tex>i</tex> и другие, в соответствии с выбранной стратегией, пока не найдём искомый элемент или свободную ячейку.

При поиске элемента может получится так, что мы дойдём до конца таблицы. Обычно поиск продолжается, начиная с другого конца, пока мы не придём в ту ячейку, откуда начинался поиск.

=== Проблемы данных стратегий ===

Проблем две — крайне нетривиальное удаление элемента из таблицы и образование кластеров — последовательностей занятых ячеек.

Кластеризация замедляет все операции с хеш-таблицей: при добавлении требуется перебирать всё больше элементов, при проверке тоже. Чем больше в таблице элементов, тем больше в ней кластеры и тем выше вероятность того, что добавляемый элемент попадёт в кластер.

Для защиты от кластеризации используется ~~Двойное~~ двойное хеширование и [[Хеширование кукушки|хеширование кукушки]].

=== Удаление элемента без пометок ===

~~== Удаление элемента без пометок (в разработке) ==~~ Рассуждение будет описывать случай с линейным поиском хеша. Будем при удалении элемента сдвигать всё последующие на ~~шаг~~ <tex>q</tex> позиций назад. При этом ~~необходимо, чтобы~~:

* если в цепочке встречается элемент с другим хешем, то он должен остаться на своём месте (такая ситуация может возникнуть если оставшаяся часть цепочки была добавлена позже этого элемента)

* в цепочке не должно оставаться "дырок", тогда любой элемент с данным хешем будет доступен из начала цепи

Учитывая это будем действовать следующим образом: при поиске следующего элемента цепочки будем пропускать все ячейки с другим значением хеша, ~~копировать~~ первый найденный элемент копировать в текущую ячейку , и затем рекурсивно его удалять. Если такой следующей ячейки нет, то текущий элемент можно просто удалить, сторонние цепочки при этом не разрушатся (~~кстати это неверно для~~ чего нельзя сказать про случай квадратичного поиска). ''' Псевдокод ''' '''function''' delete('''Item''' i): j = i + q '''while''' table[j] == ''null'' '''or''' table[j].key != table[i].key '''if''' table[j] == ''null'' table[i] = ''null'' '''return''' j += q table[i] = table[j] delete(j)

~~Псевдокод~~ ~~delete(i)~~ ~~j = i + q~~ ~~while !isFree(table[j]) && table[j].key != table[i].key~~ ~~if (isFree(table[j]))~~ ~~table[i].makeFree()~~ ~~exit~~ ~~table[i] = table[j]~~ ~~delete(j);~~ Хеш-таблицу считаем зацикленной

~~Массив считаем зацикленным~~

~~Асимптотика~~{{Утверждение|about=о времени работы|statement=Асимптотически время работы <tex>\mathrm{delete}</tex> и <tex>\mathrm{find}</tex> совпадают|proof=Заметим что указатель <tex>j</tex> в каждой итерации перемещается вперёд на <tex>q</tex> (с учётом рекурсивных вызовов <tex>\mathrm{delete}</tex>). То есть этот алгоритм последовательно пройдёт по цепочке от удаляемого элемента до последнего {{---}} с учётом вызова <tex>\mathrm{find}</tex> собственно для нахождения удаляемого элемента, мы посетим все ячейки цепи.}}

Вариант с зацикливанием мы не рассматриваем, поскольку если <tex>q</tex> взаимнопросто с размером хеш-таблицы, то для зацикливания в ней вообще не должно быть свободных позиций

Теперь докажем почему этот алгоритм работает. Собственно нам требуется сохранение трёх условий.

* В редактируемой цепи не остаётся дырок

Докажем по индукции. Если на данной итерации мы просто удаляем элемент (база), то после него ничего нет, всё верно. Если же нет, то вызванный в конце <tex>\mathrm{delete}</tex> (см. псевдокод) заметёт созданную дыру (скопированный элемент), и сам, по предположению, новых не создаст.

* Элементы, которые уже на своих местах, не должны быть сдвинуты.

Это учтено.

* В других цепочках не появятся дыры

Противное возможно только в том случае, если какой-то элемент был действительно удалён. Удаляем мы только последнюю ячейку в цепи, и если бы на её месте возникла дыра для сторонней цепочки, это бы означало что элемент, стоящий на <tex>q</tex> позиций назад, одновременно принадлежал нашей и другой цепочкам, что невозможно.

==Двойное хеширование==

'''Двойное хеширование''' (англ. double hashing) {{---}} метод борьбы с коллизиями, возникающими при открытой адресации, основанный на использовании двух хеш-функций для построения различных последовательностей исследования хеш-таблицы.

===Принцип двойного хеширования===

При двойном хешировании используются две независимые хеш-функции <tex> h_1(k) </tex> и <tex> h_2(k) </tex>. Пусть <tex> k </tex> {{---}} это наш ключ, <tex> m </tex> {{---}} размер нашей таблицы, <tex>n \~~mod~~ bmod m </tex> {{---}} остаток от деления <tex> n </tex> на <tex> m </tex>, тогда сначала исследуется ячейка с адресом <tex> h_1(k) </tex>, если она уже занята, то рассматривается <tex> (h_1(k) + h_2(k)) \~~mod~~ bmod m </tex>, затем <tex> (h_1(k) + 2 \cdot h_2(k)) \~~mod~~ bmod m </tex> и так далее. В общем случае идёт проверка последовательности ячеек <tex> (h_1(k) + i \cdot h_2(k)) \~~mod~~ bmod m </tex> где <tex> i = (0, 1, \; ... \;, m - 1) </tex>

Таким образом, операции вставки, удаления и поиска в лучшем случае выполняются за <tex>O(1)</tex>, в худшем {{---}} за <tex>O(m)</tex>, что не отличается от обычного [[Открытое_и_закрытое_хеширование#Линейное разрешение коллизий|линейного разрешения коллизий]].

Есть два удобных способа это сделать. Первый состоит в том, что в качестве размера таблицы используется простое число, а <tex> h_2 </tex> возвращает натуральные числа, меньшие <tex> m </tex>. Второй {{---}} размер таблицы является степенью двойки, а <tex> h_2 </tex> возвращает нечетные значения.

Например, если размер таблицы равен <tex> m </tex>, то в качестве <tex> h_2 </tex> можно использовать функцию вида <tex> h_2(k) = k \~~mod~~ bmod (m-1) + 1 </tex>

[[Файл: Вставка при двойном хэшировании.svg.jpeg|thumb|right|Вставка при двойном хешировании]]

</center>

</center>

</center>

Мы хотим вставить ключ 14. Изначально <tex> i = 0 </tex>. Тогда <tex> h(14,0) = (h_1(14) + 0\cdot h_2(14)) \~~mod~~ bmod 13 = 1 </tex>. Но ячейка с индексом 1 занята, поэтому увеличиваем <tex> i </tex> на 1 и пересчитываем значение хеш-функции. Делаем так, пока не дойдем до пустой ячейки. При <tex> i = 2 </tex> получаем <tex> h(14,2) = (h_1(14) + 2\cdot h_2(14)) \~~mod~~ bmod 13 = 9 </tex>. Ячейка с номером 9 свободна, значит записываем туда наш ключ.

Таким образом, основная особенность двойного хеширования состоит в том, что при различных <tex> k </tex> пара <tex> (h_1(k),h_2(k)) </tex> дает различные последовательности ячеек для исследования.

'''Вставка'''

~~<pre>~~ '''function''' add('''Item''' item): x = h1(item.key) y = h2(item.key) '''for ''' (i = 0~~; i <~~ ..m~~; i++~~) '''if ''' table[x] == ''null'' table[x] = item '''return ''' x = (x + y) '''mod ''' m table.resize() <span style="color:Green">//ошибка, требуется увеличить размер таблицы~~</pre>~~

'''Поиск'''

~~<pre>~~ '''Item''' search('''Item''' key): x = h1(key) y = h2(key) '''for ''' (i = 0~~; i <~~ ..m~~; i++~~) '''if ''' table[x] != ''null'' '''if ''' table[x].key == key '''return ''' table[x] '''else''' '''return ''' ''null'' x = (x + y) '''mod ''' m '''return ''' ''null~~</pre>~~''

===Реализация с удалением===

~~Что бы~~ Чтобы наша хеш-таблица поддерживала удаление, требуется добавить массив <tex>deleted</tex> типов <tex>bool</tex>, равный по величине массиву <tex>table</tex>. Теперь при удалении мы просто будем помечать наш объект ''как удалённый'', а при добавлении как ''не удалённый'' и замещать новым добавляемым объектом. При поиске, помимо равенства ключей, мы смотрим, удалён ли элемент, если да, то идём дальше.

'''Вставка'''

~~<pre>~~ '''function''' add('''Item''' item): x = h1(item.key) y = h2(item.key) '''for ''' (i = 0~~; i <~~ ..m~~; i++~~) '''if ''' table[x] == '''null || ''' '''or''' deleted[x] table[x] = item deleted[x] = '''false''' '''return ''' x = (x + i * y) '''mod ''' m table.resize() <span style="color:Green">//ошибка, требуется увеличить размер таблицы~~</pre>~~

'''Поиск'''

~~<pre>~~ '''Item''' search('''Item''' key): x = h1(key) y = h2(key) '''for ''' (i = 0~~; i <~~ ..m~~; i++~~) '''if ''' table[x] != '''null''' '''if ''' table[x].key == key && '''and''' !deleted[x] '''return ''' table[x] '''else''' '''return ''' '''null''' x = (x + y) '''mod ''' m '''return ''' '''null~~</pre>~~'''

'''Удаление'''

~~<pre>~~ '''function''' remove('''Item''' key): x = h1(key) y = h2(key) '''for ''' (i = 0~~; i <~~ ..m~~; i++~~) '''if ''' table[x] != '''null''' '''if ''' table[x].key == key deleted[x] = '''true''' '''else ''' '''return''' x = (x + y) '''mod ''' m~~</pre>~~

== ~~Разрешение~~ Альтернативная реализация метода цепочек==В Java 8 для разрешения коллизий используется модифицированный метод цепочек. Суть его заключается в том, что когда количество элементов в корзине превышает определенное значение, данная корзина переходит от использования связного списка к использованию [[АВЛ-дерево|сбалансированного дерева]]. Но данный метод имеет смысл лишь тогда, когда на элементах хеш-таблицы задан [[Отношение порядка|линейный порядок]]. То есть при использовании данный типа <tex>\mathbf{int}</tex> или <tex>\mathbf{double}</tex> имеет смысл переходить к дереву поиска, а при использовании каких-нибудь ссылок на объекты не имеет, так как они не реализуют нужный интерфейс. Такой подход позволяет улучшить производительность с ~~помощью списков ==~~<tex>O(n)</tex> до <tex>O(\log(n))</tex>. Данный способ используется в таких коллекциях как HashMap, LinkedHashMap и ConcurrentHashMap.

Каждая ячейка <tex>i</tex> массива <tex>H</tex> содержит указатель на начало списка всех элементов, хеш-код которых равен <tex>i</tex>, либо указывает на их отсутствие. Коллизии приводят к тому, что появляются списки размером больше одного элемента. Время, необходимое для вставки в наихудшем случае равно <tex>O(1)</tex>. Это операция выполняет быстро, так как считается, что вставляемый элемент отсутствует в таблице, но если потребуется, то перед вставкой мы можем выполнить поиск этого элемента. [[Файл:~~open_hash~~Hashing_in_Java8.png|~~420px~~500px|~~Разрешение коллизий при помощи цепочек~~Хеширование в Java 8.]] Время работы поиска в наихудшем случае пропорционально длине списка, а если все <tex>n</tex> ключей захешировались в одну и ту же ячейку (создав список длиной <tex>n</tex>) время поиска будет равно <tex>\Theta(n)</tex> плюс время вычисления хеш-функции, что ничуть не лучше, чем использование связного списка для хранения всех <tex>n</tex> элементов. ~~Удаления элемента может быть выполнено за <tex>O(1)</tex>, как и вставка, при использовании двухсвязного списка.~~

==См. также==

* [[Хеширование]]

* [[Хеширование_кукушки|Хеширование кукушки]]

* [[Идеальное_хеширование|Идеальное хеширование]]

== ~~Литература~~ Источники информации ==* Бакнелл Дж. М. ~~'''Фундаментальные~~ «Фундаментальные алгоритмы и структуры данных в ~~Delphi'''~~Delphi», ''2003''* ~~Кнут Д~~Кормен, Томас Х. Э, Лейзерсон, Чарльз И. ~~'''Искусство программирования~~, ~~том 3~~Ривест, Рональд Л. ~~Сортировка~~ , Штайн Клиффорд «Алгоритмы: построение и ~~поиск'''~~анализ», ''2-е издание. Пер. с англ. — М.:Издательский дом "Вильямс", ~~2000''~~2010.— Парал. тит. англ. — ISBN 978-5-8459-0857-5 (рус.)* ~~Томас Кормен~~Дональд Кнут. «Искусство программирования, ~~Чарльз Лейзерсон, Рональд Ривест, Клиффорд Штайн~~том 3. ~~'''Алгоритмы. Построение~~ Сортировка и ~~анализ'''~~поиск» {{---}} «Вильямс», ~~''2010''~~2007 г.{{---}} ISBN 0-201-89685-0* Седжвик Р. ~~'''Фундаментальные~~ «Фундаментальные алгоритмы на C. Части 1-4. Анализ. Структуры данных. Сортировка. ~~Поиск'''~~Поиск», ''2003'' ~~==Ссылки==~~* [http://openjdk.java.net/jeps/180 Handle Frequent HashMap Collisions with Balanced Trees]

* [http://en.wikipedia.org/wiki/Double_hashing Wikipedia {{---}} Double_hashing]

* [http://ru.wikipedia.org/wiki/%D0%A5%D0%B5%D1%88-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0 Разрешение коллизий]

[[Категория: Дискретная математика и алгоритмы]]

[[Категория: Хеширование]]

[[Категория: Структуры данных]]

Zhelenskiy

1

правка

Изменения

Разрешение коллизий

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты