Изменения

Приблизительный подсчет числа вхождений

86 байт добавлено, 18:03, 18 января 2022

Исправлены опечатки

<math> a_{i_t}(t) \leftarrow a_{i_t}(t-1) + c_t, </math>

<math> a_{i’}(t) \leftarrow a_{I’i’}(t-1) \:\:\: \forall i’ \neq i_t. </math>

В любой момент времени может поступить запрос о подсчете некоторой функции от <math>a(t)</math>. Для задачи о приблизительном подсчете числа вхождений нас интересует запрос об оценке значения <math>a_{i}(t)</math> для заданного <math>i</math> в момент времени <math>t</math> (англ. point query).

Для ~~задачи о приблизительном подсчете числа вхождений нас интересует запрос~~ удобства <math>~~Q(i)~~t</math> ~~об оценке значения~~ будет опущена и мы будем использовать <math>~~a_{i}(t)~~a_i</math> для ~~заданного <math>i</math> в момент времени <math>t</math> (англ. point query)~~обращения к текущему состоянию вектора.

Простым решением задачи может быть хранение вектора <math>a</math> в явном виде. Однако при больших <math>n</math> этот подход становится невыгодным из-за большего количества памяти, требуемого для хранения вектора <math>a</math>. Хорошее решение данной задачи должно обладать следующими свойствами:

* ~~он должен~~ оно должно требовать <math>O(polylog \: n)</math> памяти;

* обновление <math>a</math> и обработка запросов должны выполняться быстро и быть достаточно точными<ref name="smsketch">Graham Cormode, S. Muthukrishnan, "An Improved Data Stream Summary: The Count-Min Sketch and its Applications", 2003</ref>.

[[Файл:cm_sketch.png|thumb|500px| Рисунок 1 — Процедура обновления Count-Min Sketch.]]

'''Count-Min Sketch''' (CM Sketch) это вероятностная структура данных, предложенная Г. Кормоудом (англ. G. Cormode) и С. Мутукришнаном (англ. S. Muthukrishnan) в 2003 году. ~~Рассматриваемый~~ Рассмотренный в ~~данном~~ этом разделе ~~алгоритм~~ подход позволяет оценить <math>a_{i}~~(t)~~</math> при <math>c_j \geq 0 \:\: \forall j</math>. CM Sketch может также быть применен для оценки <math>a_{i}~~(t)~~</math> когда существуют <math>c_j < 0</math>, а также для алгоритмов оценки скалярного произведения (англ. inner product query) и суммы промежутка величин <math>a_{l}~~(t)~~, a_{l+1}~~(t)~~, \dots, a_{lr}~~(t)~~</math> (англ. range query)<ref name="smsketch">Graham Cormode, S. Muthukrishnan, "An Improved Data Stream Summary: The Count-Min Sketch and its Applications", 2003</ref>.

'''Структура данных.''' CM Sketch с параметрами <math>(\varepsilon, \delta)</math> — это структура данных, которая включает в себя двумерный массив шириной <math>w = \lceil \frac{e}{\varepsilon} \rceil</math> и глубиной <math>d = \lceil \ln \frac{1}{\delta} \rceil</math>: <math>count[1, 1], count[1, 2], \dots, count [d, w]</math>, а также <math>d</math> попарно независимых хэш-функций из универсального семейства:

В начале работы массив инициализируется нулями.

'''Обновление.''' При получении из потока пары <math>(i_t, c_t)</math>, т.е. при увеличении величины <math>a_{i_t}~~(t)~~</math> на значение <math>c_t</math>, для каждой строки <math>j</math> двумерного массива <math>count</math> мы увеличиваем значение соответствующего счетчика, заданного хэш-функцией <math>h_j</math>:

<math> count[j, h_j(i_t)] \leftarrow count[j, h_j(i_t)] + c_t \:\: \forall j. </math>

Данная процедура описывается на рис. 1.

'''Ответ на запрос.''' Оценка значения <math>a_{i}~~(t)~~</math> подсчитывается как <math>\hat{a}_i = \min_j count[j, h_j(i)]</math><ref name="smsketch">Graham Cormode, S. Muthukrishnan, "An Improved Data Stream Summary: The Count-Min Sketch and its Applications", 2003</ref>.

~~'''~~{{Теорема |author=1~~.'''~~ |statement=Оценка <math>\hat{a}_i</math> удовлетворяет <math>a_i \leq \hat{a}_i ~~\leq a_i(t)~~</math>, и с вероятностью как минимум <math>1 - \delta</math>~~<math> \hat{a}_i \leq a_i(t) + \varepsilon ||\mathbf{a}||_1. </math>~~удовлетворяет

'''Доказательство.''' Рассмотрим хэш-функцию <math>h_j</math> и счетчик <math>count[j, h_j(a_i)]</math>, в который записываются обновления для элемента <math>~~a_i</math>. Так как мы рассматриваем случай для <math>c_t~~ \~~geq 0~~ hat{a}_i \~~forall t</math> и так как может существовать <math>a_k: h_j(a_i) = h_j(a_k), k \neq i</math>, то <math>~~leq a_i + \~~leq~~ varepsilon ||\~~hat~~mathbf{a}_i||_1. </math>.

~~Оценим размер ошибки, накапливающийся в~~ |proof=Рассмотрим хэш-функцию <math>h_j</math> и счетчик <math>count[j, h_j(~~a_i~~i)]</math>~~. Зададимся индикаторной величиной~~ , в который записываются обновления для элемента <math>~~I_{i,j,k}~~a_i</math>~~, равной единице если~~ . Так как мы рассматриваем случай для <math>(i c_t \geq 0 \:\~~neq k)~~ :\~~land (~~forall t</math> и так как может существовать <math>a_k: h_j(~~a_i~~i) = h_j(~~a_k)~~k), k \neq i</math>, то <math>a_i \leq \hat{a}_i</math> ~~и нулю в противном случае~~. ~~Так как хэш-функции попарно независимы, получаем~~

Оценим размер ошибки, накапливающийся в <math> Ecount[j, h_j(i)]</math>. Зададимся индикаторной величиной <math>I_{i,j,k}</math>, равной единице если <math>(i \neq k) ~~= Pr[~~\land (h_j(~~a_i~~i) = h_j(~~a_k~~k)~~] \leq \frac{1}{range(h_j~~)~~} = \frac{\varepsilon}{e},~~ </math>и нулю в противном случае. Так как хэш-функции попарно независимы, получаем

~~где~~ <math>~~range~~E(~~h_j)</math> — размер интервала значений~~I_{i, ~~которые может принимать хэш-функция <math>h_j</math>. Обозначим размер ошибки~~j, ~~накапливающийся в <math>count~~k}) = Pr[j, h_j(~~a_i~~i) = h_j(k)]~~</math> как случайную величину <math>X_{i,j} =~~ \~~sum_~~leq \frac{k=1}^{nrange(h_j)} I_= \frac{~~i,j,k~~\varepsilon}~~a_k</math>, т.е. <math>count[j, h_j(a_i)] = a_i + X_~~{ie},j}</math>~~. В таком случае~~

где <math>range(h_j)</math> — размер интервала значений, которые может принимать хэш-функция <math>h_j</math>. Обозначим размер ошибки, накапливающийся в <math>count[j, h_j(i)]</math> как случайную величину <math>X_{i,j} = \sum_{k=1}^{n} I_{i,j,k}a_k</math>, т.е. <math>count[j, h_j(i)] = a_i + X_{i,j}</math>. В таком случае <math> E(X_{i,j}) = E(\sum_{k=1}^{n} I_{i,j,k}a_k) = \sum_{k=1}^{n} E(I_{i,j,k}a_k) = \sum_{k=1}^{n} a_k E(I_{i,j,k}) = \leq \frac{\varepsilon}{e} \sum_{k=1}^{n} a_k = \frac{\varepsilon}{e} || \mathbf{a} ||_1. </math>

Наконец, докажем что <math>Pr[\hat{a}_i > a_i + \varepsilon ||\mathbf{a}||_1]</math> не превышает <math>\delta</math>, из чего следует, что <math>Pr[\hat{a}_i \leq a_i + \varepsilon ||\mathbf{a}||_1] > 1 - \delta</math>.

<math>Pr[\hat{a}_i > a_i + \varepsilon ||\mathbf{a}||_1] = Pr[\forall j \: count[j, h_j(~~a_i~~i)] > a_i + \varepsilon ||\mathbf{a}||_1] = Pr[\forall j \: a_i + X_{i,j} > a_i + \varepsilon ||\mathbf{a}||_1] = Pr[\forall j \: X_{i,j} > e E(X_{i,j})] </math>

<math>= ^{(1)} Pr[X_{i,1} > e E(X_{i,1}) \times \dots \times X_{i,d} > e E(X_{i,d})] \leq ^{(2)} e^{-d} \leq \delta.,</math>

~~Последние два перехода вытекают~~ где <math>(1)</math> вытекает из попарной независимости хэш-функций и , а <math>(2)</math> {{---}} из неравенства Маркова ~~соответственно~~<ref name="smsketch_lecture">Barna Saha, "Algorithmic Techniques for Big Data. Lecture 2"</ref>.}}

== Count Sketch ==

'''Count Sketch''' — вероятностная структура данных, предложенная М. Чарикаром (англ. M. Charikar), К. Ченом (англ. K. Chen) и М. Фара-Колтоном (англ. M. Farach-Colton) в 2002 году. В отличие от Count-Min Sketch, эта структура данных позволяет оценивать <math>a_{i}~~(t)~~</math> даже для отрицательных <math>~~c_j~~c_t</math>.

'''Структура данных.''' Пусть <math>h_1, h_2, \dots, h_d</math> и <math>s_1, s_2, \dots, s_d</math> — это наборы хэш-функций, принадлежащие универсальному семейству и удовлетворяющие

<math> h_1, h_2, \dots, h_d : \{1, \dots, n\} \rightarrow \{1, \dots, w\}, </math>

<math> s_1, s_2, \dots, s_d : \{1, \dots, n\} \rightarrow \{+-1, -1\}. </math>

Count Sketch включает в себя двумерный массив шириной <math>w</math> и глубиной <math>d</math>: <math>count[1, 1], count[1, 2], \dots, count [d, w]</math>, а также хэш-функции <math>h_1, h_2, \dots, h_d</math> и <math>s_1, s_2, \dots, s_d</math>. В начале работы массив инициализируются нулями.

Обновление. При получении из потока пары <math>(i_t, c_t)</math>, для каждой строки <math>j</math> двумерного массива <math>count</math> мы обновляем значение соответствующего счетчика, заданного хэш-функцией <math>h_j</math>, следующим образом:

'''Обновление.''' При получении из потока пары <math>(i_t, c_t)</math>, для каждой строки <math>j</math> двумерного массива <math>count</math> мы обновляем значение соответствующего счетчика, заданного хэш-функцией <math>h_j</math>, следующим образом: <math> count[j, h_j(i_t)] \leftarrow count[j, h_j(i_t)] + c_t \cdot{} s_j(i_t) \: \forall j. </math>

'''Ответ на запрос.''' Оценка значения <math>a_{i}~~(t)~~</math> подсчитывается как

<math>\hat{a}_i = median_j \{count[j, h_j(i)] \cdot{} s_j(~~i_t~~i) \}</math><ref name="ssketch">Moses Charikar, Kevin Chen, Martin Farach-Colton, "Finding Frequent Items in Data Streams", 2002</ref>.

~~'''~~{{Теорема~~.'''~~ |author=2|statement=Оценка значения <math>a_{i}~~(t)~~</math> полученная с помощью Count Sketch удовлетворяет

<math> a_{i}~~(t)~~ - \sqrt{\frac{3}{R}} ||\mathbf{a}||_2 \leq \hat{a}_i \leq a_{i}~~(t)~~ + \sqrt{\frac{3}{R}} ||\mathbf{a}||_2. </math>

~~'''Доказательство.'''~~ |proof=Воспользуемся схемой доказательства, сходной с той, что была использована для Count-Min Sketch. С учетом коллизий хэш-функций получаем значение, хранимое в счетчике <math>count[j, h_j(~~a_i~~i)]</math>:

<math> count[j, h_j(~~a_i~~i)] = \sum_{k=1}^{n} \big(I_{h(i~~,j,~~)=h(k)} \cdot{} a_k \cdot{} s_j(~~a_k~~k)\big) = a_i~~(t)~~ \cdot{} s_j(~~a_i(t)~~i) + \sum_{k=1, k \neq i}^{n} \big(I_{h(i~~,j,~~)=h(k)} \cdot{} a_k \cdot{} s_j(~~a_k~~k)\big), </math>

из чего следует, что

<math> s_j(~~a_i(t)~~i) \cdot{} count[j, h_j(~~a_i~~i)] = a_i~~(t)~~ \cdot{} s_j(~~a_i(t)~~i)^2 + \sum_{k=1, k \neq i}^{n} \big(I_{h(i~~,j,~~)=h(k)} \cdot{} a_k \cdot{} s_j(~~a_k~~k) \cdot{} s_j(~~a_i(t)~~i) \big). </math>

~~Из предыдущего доказательства знаем, что~~Схоже с предыдущим доказательством

<math> E(I_{h(i~~,j,~~)=h(k)}) = \leq \frac{1}{range(h_j)} = \frac{1}{w}. </math>

Кроме того, очевидно, что

Найдем матожидание <math>E(s_j(~~a_i(t)~~i) \~~cdot{}~~ :count[j, h_j(~~a_i~~i)])</math>.:

<math> E(s_j(~~a_i(t)~~i) \~~cdot{}~~ :count[j, h_j(~~a_i~~i)]) = a_i~~(t)~~ \cdot{} E(s_j(~~a_i(t)~~i)^2) + \sum_{k=1, k \neq i}^{n} \big(E(I_{h(i~~,j,~~)=h(k)}) \cdot{} a_k \cdot{} E(s_j(~~a_k~~k)) \cdot{} E(s_j(~~a_i(t)~~i)) \big) = a_i~~(t)~~ \cdot{} E(s_j(~~a_i(t)~~i)^2) = a_i~~(t)~~. </math>

Так как в отличие от Count-Min Sketch, Count Sketch может работать при <math>c_t < 0</math>, мы не можем использовать неравенство Маркова. Вместо этого воспользуемся неравенством Чебышёва, для чего подсчитаем дисперсию:

<math> Var(s_j(i) \:count[j, h_j(~~a_i~~i)]) = E\Big[(s_j(~~a_i(t)~~i) \cdot{} count[j, h_j(~~a_i~~i)] - a_i~~(t)~~)^ 2\Big] </math>

<math> = E\Big[\sum_{k=1, k \neq i}^{n} \big(I_{h(i~~,j,~~)=h(k)} \cdot{} a_k^2 \big)\Big] = \frac{1}{w} \sum_{k=1, k \neq i}^{n} a_k^2 = \frac{||\mathbf{a}||_2^2}{w}. </math>

Подставим полученную дисперсию в неравенство Чебышёва для <math>k = \sqrt{3}</math>:

<math> Pr\Big[~~Error~~ (s_j(i) \cdot{} count[j, h_j(i)] - a_i) > \sqrt{\frac{3}{w}}||\mathbf{a}||_2\Big] < \frac{1}{3}. </math><ref name="ssketch_lecture">Anshumali Shrivastava, "Probabilistic Algorithms and Data Structure. Lecture 10"</ref>}}

== Применение ==

С момента появления Count-Min Sketch и Count Sketch эти структуры данных стали широко использоваться для подсчета статистики, например, для отслеживания популярности контента среди разных групп пользователей. Рассмотрим пример с подсчетом числа просмотров для твита. Отслеживание всех просмотров на разных веб-сайтах результируется в большом потоке данных, которым сложно управлять. Кроме того, ситуация, когда твит наберет большое число просмотров на одной платформе и окажется незамеченным на других , маловероятна, поэтому разработчики могут не волноваться об излишней точности подсчетов. Использование скетча для каждого отдельного твита занимает ненамного больше места чем само сообщение и метаданные о нем, но при этом позволяет отслеживать, какие платформы привлекают больше всего читателей с хорошей точностью.

Кроме того, скетчи также популярны в телекоммуникационных сетях, через узлы которых проходит большое количество трафика, которое не может быть сохранено в явном виде. Сбор статистики о распределении трафика в сети позволяет эффективно управлять ею, снижая загруженность критических узлов.<ref name="use">Graham Cormode, "What is Data Sketching, and Why Should I Care?", 2017</ref>

Описанные выше скетчи также могут быть использованы для решения задачи выявления наиболее часто встречающихся элементов (англ. ~~Heavy Hitters~~heavy hitters). Это может быть актуально, например, для поисковых систем, таких как Google. Подробное описание решения этой задачи с помощью Count-Min Sketch и Count Sketch описано в оригинальных статьях<ref name="smsketch">Graham Cormode, S. Muthukrishnan, "An Improved Data Stream Summary: The Count-Min Sketch and its Applications", 2003</ref><ref name="ssketch">Moses Charikar, Kevin Chen, Martin Farach-Colton, "Finding Frequent Items in Data Streams", 2002</ref>.

== См. также ==

Анонимный участник

188.243.25.175

Изменения

Приблизительный подсчет числа вхождений

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты