Изменения

← Предыдущая правка

Участник:Nechaev/Черновик

8245 байт добавлено, 17:25, 11 июня 2012

→‎Линейное разрешение коллизий

'''~~Сортировка подсчётом~~Хеш-табли́ца''' ~~— алгоритм сортировки~~ {{---}} структура данных, ~~в котором используется диапазон чисел сортируемого~~ реализующая интерфейс ассоциативного массива ~~или списка~~ . Представляет собой эффективную структуру данных для ~~подсчёта совпадающих элементов. Применение сортировки подсчётом целесообразно лишь тогда~~реализации словарей, а именно, ~~когда сортируемые числа имеют~~ она позволяет хранить пары (~~или их можно отобразить в~~ключ, значение) ~~диапазон возможных значений~~и выполнять три операции: операцию добавления новой пары, ~~который достаточно мал~~ операцию поиска и операцию удаления пары по сравнению с сортируемым множеством, например, миллион натуральных чисел меньших 1000. Эффективность алгоритма падает, если при попадании нескольких различных элементов в одну ячейку, их надо дополнительно сортироватьключу.

== ~~Простой алгоритм~~ =Введение ===Существует два основных вида хеш-таблиц: ''с цепочками'' и ''открытой адресацией''. Хеш-таблица содержит некоторый массив <tex>H</tex>, элементы которого есть пары (хеш-таблица с открытой адресацией) или списки пар (хеш-таблица с цепочками).

~~Это простейший вариант алгоритма. Создать вспомогательный массив <tex>C[0~~Выполнение операции в хеш-таблице начинается с вычисления хеш-функции от ключа..k Хеш- 1]код </tex>~~, состоящий из нулей, затем последовательно прочитать элементы входного массива <tex>A</tex>, для каждого <tex>A[~~i]= h(key)</tex> ~~увеличить~~ играет роль индекса в массиве <tex>~~C[A[i]]</tex> на единицу. Теперь достаточно пройти по массиву <tex>C~~H</tex>, ~~для каждого <tex>j \in \{0~~а зная индекс, ~~...~~мы можем выполнить требующуюся операцию (добавление, ~~k - 1\}</tex> в массив <tex>A</tex> последовательно записать число <tex>j</tex> <tex> C[j]</tex> раз~~удаление или поиск).~~<code>~~ ~~SimpleCountingSort~~ ~~for i = 0 to k - 1~~ ~~C[i] = 0;~~ ~~for i = 0 to n - 1~~ ~~C[A[i]] = C[A[i]] + 1;~~ ~~b = 0;~~ ~~for j = 0 to k - 1~~ ~~for i = 0 to C[j] - 1~~ ~~A[b] = j;~~ ~~b = b + 1;</code>~~

Количество коллизий зависит от хеш-функции; чем лучше используемая хеш-функция, тем меньше вероятность их возникновения. При вставке в хеш-таблицу размером 365 ячеек всего лишь 23-х элементов вероятность коллизии превышает 50%<ref>

<tex>p(n) = 1 - 1 \cdot \left(1-\frac{1}{len}\right) \cdot \left(1-\frac{2}{len}\right) \cdots \left(1-\frac{n-1}{len}\right) = { len \cdot len-1 \cdots (len-n+1) \over len^n } </tex> <tex> = { len! \over len^n \cdot (len-n)!},</tex><br>

где <tex>n</tex> {{---}} количество элементов в хеш-таблице, а <tex>len</tex> {{---}} её размер.</ref> (при равномерном распределении значений хеш-функции)<ref>[http://ru.wikipedia.org/wiki/Парадокс_дней_рождения Парадокс дней рождения {{---}} Википедия]</ref>. Способ разрешения коллизий — важная составляющая любой хеш-таблицы.

~~== Устойчивый алгоритм ==~~Полностью избежать коллизий для произвольных данных невозможно в принципе, и хорошая хеш-функция в состоянии только минимизировать их количество. Но, в некоторых специальных случаях их удаётся избежать. Если все ключи элементов известны заранее, либо меняются очень редко, то можно подобрать хеш-функцию, с помощью которой, все ключи будут распределены по хеш-таблице без коллизий. Это хеш-таблицы с ''прямой адресацией''; в них все операции, такие как: поиск, вставка и удаление работают за <tex>O(1)</tex>.

~~В этом варианте помимо входного~~ Если мы поделим число хранимых элементов на размер массива <tex>AH</tex> ~~потребуется два вспомогательных массива — <tex>C[0..k~~ (число возможных значений хеш- ~~1]</tex> для счётчика и <tex>B[0..n~~ функции), то узнаем коэффициент заполнения хеш- ~~1]</tex> для отсортированного массива~~таблицы (англ. Сначала следует заполнить массив <tex>C</tex> нулями, и для каждого <tex>A[i]</tex> увеличить <tex>C[A[i]]</tex> на 1. Далее подсчитывается число элементов меньше или равных текущему''load factor''). ~~Для~~ От этого каждый <tex>C[j]</tex>, начиная с <tex>C[1]</tex>, увеличивают на <tex>C[j - 1]</tex>. На последнем шаге алгоритма читается входной массив с конца, значение <tex>C[A[i]]</tex> уменьшается на 1 и в каждый <tex>B[C[A[i]]]</tex> записывается <tex>A[i]</tex>. Алгоритм устойчив. Устойчивость может потребоваться при [[Сортировка_подсчетом_сложных_объектов|сортировке сложных структур данных]]параметра зависит среднее время выполнения операций. ~~<code>~~ ~~StableCountingSort~~ ~~for i = 0 to k - 1~~ ~~C[i] = 0;~~ ~~for i = 0 to n - 1~~ ~~C[A[i]] = C[A[i]] + 1;~~ ~~for j = 1 to k - 1~~ ~~C[j] = C[j] + C[j - 1];~~ ~~for i = n - 1 to 0~~ ~~C[A[i]] = C[A[i]] - 1;~~ ~~B[C[A[i]]] = A[i];</code>~~

== ~~Обобщение на произвольный целочисленный диапазон~~ = Хеширование ===

~~Если диапазон значений~~ '''Хеширование''' {{---}} класс методов поиска, идея которого состоит в вычислении хеш-кода, однозначно определяемого элементом с помощью хеш-функции, и использовании его, как основы для поиска (индексирование в памяти по хеш-коду выполняется за <tex>O(~~min и max~~1)</tex>) ~~заранее не известен~~. В общем случае, ~~можно воспользоваться линейным поиском min~~ однозначного соответствия между исходными данными и ~~max~~хеш-кодом нет в силу того, что ~~не повлияет на асимптотику алгоритма~~количество значений хеш-функций меньше, чем вариантов исходных данных, поэтому существуют элементы, имеющие одинаковые хеш-коды — так называемые коллизии, но если два элемента имеют разный хеш-код, то они гарантированно различаются. Вероятность возникновения коллизий играет немаловажную роль в оценке качества хеш-функций.{{Определение|id=def1|definition=<tex>U </tex> {{---}} множество объектов (универсум).<br> <tex>h : U \rightarrow S = \mathcal {f} 0 ... ~~При работе с массивом~~ m - 1 \mathcal {g}</tex> {{---}} называется хеш-функцией, где множество <tex>CS</tex> хранит ключи из множества <tex>U</tex>.<br> Если <tex>x \in U</tex> значит <tex>~~A[i]~~h(x) \in S</tex> ~~необходимо вычитать min~~<br> '''Коллизия:''' <tex>\exists x \neq y : h(x) = h(y)</tex>}}==== Виды хеширования ====* По способу хранения:** Статическое {{---}} фиксированное количество элементов. Один раз заполняем хеш-таблицу и осуществляем только проверку на наличие в ней нужных элементов.** Динамическое {{---}} добавляем, ~~а при обратной записи прибавлять~~удаляем и смотрим на наличие нужных элементов.* По виду хеш-функции:** Детерминированная хеш-функция.** Случайная хеш-функция.

== ~~Анализ~~ = Свойства хеш-таблицы ===

~~В первом алгоритме первые два цикла работают за <tex>\Theta(k)</tex>~~ На поиск элемента в хеш-таблице в худшем случае, может потребоваться столько же времени, как и в списке, а именно <tex>\Theta(n)</tex>, ~~соответственно; двойной цикл за~~ но на практике хеширование более эффективно. При некоторых разумных допущениях математическое ожидание времени поиска элемента в хеш-таблице составляет <tex>~~\Theta~~O(~~n + k~~1)</tex>. ~~Во втором алгоритме циклы занимают <tex>\Theta~~А все операции (kпоиск, вставка и удаление элементов)в среднем выполняются за время </tex>~~, <tex>\Theta~~O(n1)</tex>.При этом не гарантируется, ~~<tex>\Theta(k)</tex> и <tex>\Theta(n)</tex>~~что время выполнения отдельной операции мало́, ~~соответственно~~так как при достижении некоторого значения коэффициента заполнения необходимо [[Перехеширование. ~~Итого оба алгоритма имеют линейную временную трудоёмкость~~ Амортизационный анализ|перехешировать]] таблицу: увеличить размер массива <tex>~~\Theta(n + k)~~H</tex>~~. Используемая память~~ и заново добавить в ~~первом алгоритме равна <tex>\Theta(k)</tex>, а во втором <tex>\Theta(n + k)</tex>~~новую хеш-таблицу все пары.

== Разрешение коллизий ==

=== Разрешение коллизий с помощью цепочек ===

[[Файл:open_hash.png|thumb|380px|right|Разрешение коллизий при помощи цепочек.]]

Каждая ячейка <tex>i</tex> массива <tex>H</tex> содержит указатель на начало списка всех элементов, хеш-код которых равен <tex>i</tex>, либо указывает на их отсутствие. Коллизии приводят к тому, что появляются списки размером больше одного элемента.

Время, необходимое для вставки в наихудшем случае равно <tex>O(1)</tex>. Это операция выполняет быстро, так как считается, что вставляемый элемент отсутствует в таблице, но если потребуется, то перед вставкой мы можем выполнить поиск этого элемента.

Время работы поиска в наихудшем случае пропорционально длине списка, а если все <tex>n</tex> ключей захешировались в одну и ту же ячейку (создав список длиной <tex>n</tex>) время поиска будет равно <tex>\Theta(n)</tex> плюс время вычисления хеш-функции, что ничуть не лучше, чем использование связного списка для хранения всех <tex>n</tex> элементов.

Удаления элемента может быть выполнено за <tex>O(1)</tex>, как и вставка, при использовании двухсвязного списка.

=== Линейное разрешение коллизий ===

[[Файл:close_hash.png|thumb|380px|right|Пример хеш-таблицы с открытой адресацией и линейным пробированием.]]

Все элементы хранятся непосредственно в хеш-таблице, без использования связных списков. В отличии от хеширования с цепочками, при использовании этого метода может возникнуть ситуация, когда хеш-таблица окажется полностью заполненной, следовательно будет невозможно добавлять в неё новые элементы. Так что при возникновении такой ситуации решением может быть динамическое увеличение размера хеш-таблицы, с одновременной её перестройкой.

Рассмотрим один из таких методов.<ref>Другой метод борьбы с коллизиями {{---}} [[Двойное хеширование | двойное хеширование]]</ref>

В массиве <tex>H</tex> хранятся сами пары ключ-значение. Алгоритм вставки элемента проверяет ячейки массива <tex>H</tex> в заданном порядке до тех пор, пока не будет найдена первая свободная ячейка, в неё и будет записан новый элемент. Это позволяет сэкономить память на хранение указателей.

Последовательность, в которой просматриваются ячейки хеш-таблицы, называется последовательностью проб. В общем случае, она зависит только от ключа элемента, то есть это последовательность <tex>h_0(x)</tex>, <tex>h_1(x)</tex>, ...,<tex>h_n</tex><tex>_-</tex><tex>_1</tex><tex>(x)</tex>, где <tex>x</tex> — ключ элемента, а <tex>h_i(x)</tex> — произвольные функции, сопоставляющие каждому ключу ячейку в хеш-таблице. Первый элемент в последовательности, как правило, равен значению некоторой хеш-функции от ключа, а остальные считаются от него каким-нибудь способом. Для успешной работы алгоритмов поиска последовательность проб должна быть такой, чтобы все ячейки хеш-таблицы оказались просмотренными ровно по одному разу.<ref>[[Поиск свободного места при закрытом хешировании | Поиск свободного места при закрытом хешировании]]</ref>

== Примечания ==

== Источники ==

* Томас Кормен, Чарльз Лейзерсон, Рональд Ривест, Клиффорд Штайн. «Алгоритмы. Построение и анализ» {{---}} «Вильямс», 2011 г. {{---}} 1296 стр. {{---}} ISBN 978-5-8459-0857-5, 5-8459-0857-4, 0-07-013151-1

* Дональд Кнут. «Искусство программирования, том 3. Сортировка и поиск» {{---}} «Вильямс», 2007 г. {{---}} 824 стр. {{---}} ISBN 0-201-89685-0* [http://ru.wikipedia.org/wiki/~~Сортировка_подсчётом Сортировка подсчетом~~ Хеш-таблица Хеш-таблица {{---}} Википедия]

[[Категория:Дискретная математика и алгоритмы]]

[[Категория:~~Сортировка~~Хеширование]]

Nechaev

277

правок

Изменения

Участник:Nechaev/Черновик

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты