Фильтр Блума — различия между версиями
Warrior (обсуждение | вклад) (→Описание структуры данных) |
Warrior (обсуждение | вклад) (→Минимизация вероятности ложноположительного срабатывания) |
||
Строка 16: | Строка 16: | ||
== Минимизация вероятности ложноположительного срабатывания == | == Минимизация вероятности ложноположительного срабатывания == | ||
− | Пусть размер битового массива <tex> m </tex>, и заданы <tex> k </tex> хеш-функций, причем все хеш-функции являются независимыми случайными величинами. Тогда вероятность, что в <tex> j </tex>-ый бит не будет записана единица <tex> i </tex>-ой хеш-функцией при вставке очередного элемента, равна: | + | Пусть размер битового массива <tex> m </tex>, и заданы <tex> k </tex> хеш-функций, причем все хеш-функции являются [[Независимые случайные величины|независимыми случайными величинами]]. Тогда вероятность, что в <tex> j </tex>-ый бит не будет записана единица <tex> i </tex>-ой хеш-функцией при вставке очередного элемента, равна: |
<tex dpi = "150">p(h_i(x) \neq j) = 1 - \frac {1}{m} </tex> | <tex dpi = "150">p(h_i(x) \neq j) = 1 - \frac {1}{m} </tex> |
Версия 02:43, 30 апреля 2012
Фильтр Блума — это структура данных, придуманная Бёртоном Блумом в 1970 году, позволяющая компактно хранить множество элементов и проверять принадлежность заданного элемента к множеству. При этом существует возможность получить ложноположительное срабатывание(элемента в множестве нет, но структура данных сообщает, что он есть), но не ложноотрицательное.
Фильтр Блума может использовать любой объём памяти, заранее заданный пользователем, причем чем он больше, тем меньше вероятность ложного срабатывания. Поддерживается операция добавления новых элементов в множество, но не удаления существующих (если только не используется модификация со счётчиками). С увеличением размера хранимого множества повышается вероятность ложного срабатывания.
Содержание
Описание структуры данных
Фильтр Блума представляет собой битовый массив из
бит и различных хеш-функций , равновероятно отображающих элементы исходного множества во множество , соответствующее номерам битов в массиве. Изначально, когда структура данных хранит пустое множество, все бит обнулены.Для добавления элемента
необходимо записать единицы на каждую из позиций битового массива.Чтобы проверить, что элемент
принадлежит множеству хранимых элементов, необходимо проверить состояние битов . Если хотя бы один из них равен нулю, элемент не принадлежит множеству. Если все они равны единице, то структура данных сообщает, что элемент принадлежит множеству. При этом может возникнуть две ситуации: либо элемент действительно принадлежит к множеству, либо все эти биты оказались установлены по случайности при добавлении других элементов, что и является источником ложных срабатываний в этой структуре данных.Минимизация вероятности ложноположительного срабатывания
Пусть размер битового массива независимыми случайными величинами. Тогда вероятность, что в -ый бит не будет записана единица -ой хеш-функцией при вставке очередного элемента, равна:
, и заданы хеш-функций, причем все хеш-функции являются
Тогда вероятность, что в
-ый бит не будет записана единица во время операции вставки очередного элемента равна:для
А вероятность того, что
-ый бит останется равным нулю после вставки различных элементов:
В силу второго замечательного предела и достаточно большого
можем это записать как:
Ложноположительное срабатывание происходит тогда, когда для несуществующего элемента все
бит окажутся ненулевыми, и фильтр Блума ответит, что он входит в число вставленных элементов. Тогда вероятность такого события равна:
Для фиксированных
и , оптимальное число хеш-функций , минимизирующих вероятность ложноположительного срабатывания, равно:
Свойства
Фильтр Блума может хранить универсальное множество всех возможных элементов. При этом все ячейки битового массива будут содержать 1.
При существование двух фильтров Блума одинаковых размеров и с одинаковыми наборами хеш-функций, их объединение и пересечение может быть реализовано побитовыми операциями OR и AND.