Изменения

Перейти к: навигация, поиск

Quotient filter

37 байт добавлено, 21:29, 6 июня 2015
Нет описания правки
'''Quotient filter''' {{---}} вероятностная структура данных, позволяющая проверить принадлежность элемента множеству. При этом существует возможность получить ложноположительное срабатывание (элемента в множестве нет, но структура данных сообщает, что он есть), но не ложноотрицательное(элемент в множестве есть, но структура данных сообщает, что его нет).
Существует связь между размером хранилища и шансом ложноположительного срабатывания. Поддерживаются операции добавления нового элемента в множество. С увеличением размера хранимого множества повышается вероятность ложного срабатывания.
==Описание структуры данных==
Фильтр представляет собой [[:Хеш-таблица|хеш-таблицу]], в которой харанится часть ключа и <tex>3 </tex> бита дополнительной информации. Они используются для разрешения ситуации, когда хеш различных ключей указывает на одну ячейку в хеш таблице. В Quotient filter хеш функция возвращает <tex>p</tex> битовый хеш, последние r бит которого называются остатком, а <tex>q = p - r</tex> старших бит называются частным (англ. ''quotient''), отсюда название структуры Quotient filter<ref>Knuth, Donald (1973). The Art of Computer Programming:Searching and Sorting, volume 3. Section 6.4, exercise 13: Addison Wesley</ref>. Размер хеш таблицы составляет <tex>2^q</tex>.
Пусть у нас есть ключ <tex>DK</tex>, его хеш обозначим <tex>DhH(k)</tex>, остаток <tex>DrH_r</tex> и частное <tex>DqH_q</tex>. Попробуем поместить остаток в хеш таблицу в ячейку <tex>DqH_q</tex>, называемую канонической. Возможно, ячейка уже занята, так как существует шанс полных коллизий (остаток и частное разных ключей совпадают) или частичных коллизий (частное разных ключей совпадают). Когда каноническая ячейка занята, помещаем остаток в какую-то ячейку справа.
Последовательность ячеек, имеющих одинаковые частные называется пробегом (англ. ''run''). Возможно, что начало пробега не занимает канонический слот, если он уже занят каким-то другим пробегом.
=== Поиск ===
Пусть мы ищем ключ <tex>DK</tex>. Смотрим в его каноническую ячейку <tex>DqH_q</tex>. Если бит занятости не единица, то элемент точно не содержится в множестве.Если бит занятости единица, то нам нужно найти пробег для <tex>DqH_q</tex>. Так как начало нужного пробега может быть сдвинуто, найдем начало кластера. Идем влево от ячейки <tex>DqH_q</tex> и ищем первую с битом сдвига равным нулю, эта ячейка и будет началом кластера. Пока мы идем влево от <tex>DqH_q</tex> будем поддерживать счетчик, который бедет показывать сколько пробегов нам нужно будет пропустить от начала кластера. Каждая ячейка с битом занятости равным единице увеличивает счетчик на <tex>1</tex>. После того как мы нашли начало кластера, пойдем от него влево, каждая ячейка с битом продолжения равным нулю говорит о завершении пробега, когда счетчик станет равным нулю мы найдем нужный нам пробег для <tex>DqH_q</tex>. Если в этом пробеге содержится <tex>DrH_r</tex>, то <tex>DK</tex> ,вероятно, содержится в множестве, иначе <tex>DK</tex> точно не содержится в множестве.
=== Вставка ===
Аналогично с поиском: найдем позицию для <tex>DrH_r</tex>, сдвигаем на одну позицию влево все эллементы кластера, начиная с выбранного, обновляем дополнительные биты.
* Сдвиг не влияет на бит занятости. Выставляем бит занятости в ячейке <tex>DqH_q</tex> в единицу.* Если мы вставляем <tex>DrH_r</tex> в начало пробега, следовательно предыдущий элемент пробега стал вторым, у него нужно выставить бит продолжения.
* Мы выставляем бит сдвига в единицу для каждой ячейки, что мы сдвинули.
== Преимущества ==
* Последовательное расположение данных. Можно загружать только <tex>1 </tex> кластер, уменьшая количество кеш промахов.
* Простое увеличение или уменьшение хеш таблицы, достаточно перенести один бит из остатка в частное или наоборот.
* Простое слияние двух фильтров.
==См. Такжетакже==
*[[:Идеальное_хеширование|Идеальное хеширование]]
41
правка

Навигация