Изменения

Арифметическое кодирование

118 265 байт убрано, 21:08, 31 октября 2019

Нет описания правки

~~Convex hull trick~~ {{Определение |definition='''Арифметическое кодирование''' (англ. ''Arithmetic coding'') {{---}} ~~один~~ алгоритм сжатия информации без потерь, который при кодировании ставит в соответствие тексту вещественное число из ~~методов оптимизации динамического программирования~~ отрезка <tex>[~~[http:~~0; 1)</~~/neerc~~tex>.~~ifmo.ru/wiki/index.php?title=Динамическое_программирование~~ Данный метод, как и [[Алгоритм Хаффмана|алгоритм Хаффмана]], является [[Энтропия случайного источника|энтропийным]], ~~использующий идею выпуклой оболочки~~то есть длина кода конкретного символа зависит от частоты встречаемости этого символа в тексте. ~~Позволяет улучшить ассимптотику решения некоторых задачь~~Арифметическое кодирование показывает более высокие результаты сжатия, ~~решемых методом динамического программирования~~ чем алгоритм Хаффмана, для данных с ~~<math>O~~неравномерными распределениями вероятностей кодируемых символов.}} == Принцип действия ==При арифметическом кодировании каждый символ кодируется нецелым числом бит, что эффективнее кода Хаффмана (~~n^2)~~теоретически, символу <tex>a</~~math~~tex> до с вероятностью появления <tex>Op(~~n\cdot\log(n)~~a)</tex>~~. Техника впервые появилась~~ допустимо ставить в ~~1995 году~~ соответствие код длины <tex>-\log_2 p(~~задачу на нее предложили в USACO {{---}} национальной олимпиаде США по программированию~~a)</tex>, следовательно, при кодировании алгоритмом Хаффмана это достигается только с вероятностями, равными обратным степеням двойки)~~. Массовую известность получила после IOI (международной олимпиады по программированию для школьников) 2002~~. ==~~Пример задачи, решаемой методом convex hull trick~~= Кодирование === На вход алгоритму передаются текст для кодирования и список частот встречаемости символов.# Рассмотрим ~~задачу на ДП:~~ ~~{{Задача~~ ~~|definition = Есть <math~~отрезок <tex>n[0; 1)</~~math> деревьев с высотами <~~tex>~~a_1~~на координатной прямой. # Поставим каждому символу текста в соответствие отрезок, ~~a_2~~длина которого равна частоте его появления.# Считаем символ из входного потока и рассмотрим отрезок, ~~\dots~~соответствующий этому символу. Разделим этот отрезок на части, ~~a_n~~пропорциональные частотам встречаемости символов.# Повторим пункт </tex> (~~в метрах~~3)</tex> до конца входного потока. ~~Требуется спилить их все, потратив минимальное количество монет на заправку~~ ~~бензопилы. Но пила устроена так~~# Выберем любое число из получившегося отрезка, ~~что она может спиливать только по 1 метру от дерева, к которому ее применили~~которое и будет результатом арифметического кодирования. ~~Также после~~ срубленного метра (любого дерева) пилу нужно заправлять, платя за бензин определенной кол-во монет. Причем стоимость бензина зависит от срубленных (полностью) деревьев. Если сейчас максимальный индекс срубленного дерева равен <tex=== Псевдокод === *<math>i\mathtt{s}\,</~~tex~~math>{{---}} текст, ~~то цена заправки~~подаваемый на вход; ~~равна~~ *<~~tex~~math>~~c_i~~\mathtt{n}\,</~~tex~~math>~~. Изначально пила заправлена.~~{{---}} длина исходного текста; ~~Также известны следующие ограничения :~~ *<~~tex~~math>~~c_n = 0~~\mathtt{m}\, ~~a_1 = 1, a_i~~</~~tex~~math> ~~возрастают,~~ {{---}} мощность алфавита исходного текста;*<~~tex~~math>~~c_i~~\mathtt{letters[m]}\,</~~tex~~math> ~~убывают. Изначально пила заправлена.~~ ~~(убывание и возрастание нестрогие)~~ {{---}}массив символов, составляющих алфавит исходного текста; ~~(Задача H с Санкт-Петербургских сборов к РОИ 2016~~*<math>\mathtt{probability[~~http:~~m]}\,</~~/neerc.ifmo.ru/school/camp~~math> {{---~~2016/problems/20160318a.pdf])~~}} массив вероятностей обнаружения символа в тексте; *<~~/noinclude~~math> \mathtt{Segment}\,<~~includeonly~~/math>{{~~#if: {{{neat|~~---}}}| структура, задающая подотрезок отрезка <~~div style="background-color: #fcfcfc; float:left;"~~tex> ~~<div style="background-color: #ddd~~[0;~~">'''Задача:'''~~1)</~~div~~tex>, соответствующего конкретному символу на основе частотного анализа. Имеет поля: **<~~div style="border:1px dashed #2f6fab; padding: 8px; font-style: italic;"~~math>\mathtt{left}\,</math>{{~~{definition}~~---}}левая граница подотрезка;**<~~/div~~math> \mathtt{right}\,</~~div~~math>|{{---}} правая граница подотрезка; *<~~table border="0" width="100%"~~math> \mathtt{left}\,<tr/math>, <~~td style="background-color: #ddd"~~math>~~'''Задача:'''~~\mathtt{right}\,</tdmath>~~</tr>~~ ~~<tr><td style="border:1px dashed #2f6fab; padding: 8px; background~~{{--~~color: #fcfcfc; font~~-~~style: italic;">{{{definition~~}}~~}</td></tr>~~границы отрезка, содержащего возможный результат арифметического кодирования. '''struct''' Segment: ~~</table>}}~~ '''double''' left ~~</includeonly>~~ '''double''' right ~~==Наивное решение==~~ ~~Сначала заметим важный факт : т.к. <tex>c~~ '''Segment'''[im]~~</tex> убывают~~ defineSegments(~~нестрого) и <tex>c~~letters: '''char'''[nm] ~~= 0</tex>~~, ~~то все <tex>c~~probability: '''double'''[im]~~</tex> неотрицательны.~~): Понятно, что нужно затратив минимальную стоимость срубить последнее (<tex>n</tex>-е) дерево, т.к. после него все деревья можно будет рубить бесплатно (т.к. <tex>c '''Segment'''[nm] segment '''double''' l = 0 '''for''' i = 0~~</tex>). Посчитаем следующую динамику : <tex>dp~~'''to''' m - 1 segment[letters[i]~~</tex> {{---}} минимальная стоимость, заплатив которую можно добиться того, что дерево номер <tex>~~].left = l segment[letters[i]].~~</tex> будет срублено.~~ ~~База динамики : <tex>dp~~right = l + probability[1i] l = ~~0</tex>, т.к. изначально пила заправлена и высота первого дерева равна 1, по условию задачи~~segment[letters[i]].right '''return''' segment ~~Переход динамики :~~ ~~понятно, что выгодно рубить сначала более дорогие и низкие деревья, а потом более высокие и дешевые~~ '''double''' arithmeticCoding(~~док-во этого факта оставляется читателям как несложное упражнение~~letters: '''char'''[m], ~~т.к. эта идея относится скорее к теме жадных алгоритмнов~~probability: '''double'''[m], ~~чем к теме данной статьи~~s: '''char'''[n]). Поэтому перед <tex>i</tex>-м деревом мы обязательно срубили какое-то <tex>j</tex>-е, причем <tex>j \leqslant i - 1</tex>. Поэтому чтобы найти <tex>dp: '''Segment'''[im]~~</tex> нужно перебрать все <tex>~~segment = defineSegments(letters, probability) '''double''' left = 0 '''double''' right = 1 ~~\leqslant j \leqslant~~ '''for''' i = 0 '''to''' n - 1~~</tex> и попытаться использовать ответ для дерева намер <tex>j</tex>. Итак, пусть перед <tex>~~ '''char''' symb = s[i~~</tex>-м деревом мы полностью срубили <tex>j</tex>~~] '''double''' newRight = left + (right -~~е, причем высота <tex>i</tex>-го дерева составляет <tex>a~~left) * segment[isymb]~~</tex>, а т~~.~~к. последнее дерево, которое мы срубили имеет индекс <tex>j</tex>, то стоимость каждого метра <tex>i</tex>~~right '''double''' newLeft = left + (right -~~го дерева составит <tex>c~~left) * segment[jsymb]~~</tex>~~. ~~Поэтому на сруб <~~left left = newLeft right = newRight '''return''' (left + right) / 2 '''Замечание:''' для оптимизации размера кода можно выбрать из полученного на последнем шаге диапазона <tex>i[left; right]</tex>~~-го дерева мы потратим <tex>a[i] \cdot c[j]</tex> монет~~число, содержащее наименьшее количество знаков в двоичной записи. === Декодирование ===Алгоритм по вещественному числу восстанавливает исходный текст. ~~Также не стоит забывать, ситуацию, когда~~ # Выберем на отрезке <tex>j[0; 1)</tex>~~-е дерево полностью срублено~~, ~~мы получили не бесплатно~~разделенном на части, длины которых равны вероятностям появления символов в тексте, подотрезок, содержащий входное вещественное число. Символ, соответствующий этому подотрезку, ~~а за~~ дописываем в ответ.# Нормируем подотрезок и вещественное число.# Повторим пункты <tex>~~dp[j]~~1</tex> ~~монет.~~ ~~Итогвая формула пересчета :~~ {{---}}<tex>2</tex>~~dp[i] = \min~~до тех пор, пока не получим ответ. === Псевдокод === *<math>\~~limits_~~mathtt{~~j=1...i-1~~code} ~~(dp[j] + a[i]~~ \~~cdot c[j])</tex~~,</math>. ~~Посмотрим~~ {{---}} вещественное число, подаваемое на ~~код выше описанного решения:~~вход; ~~'''int'''~~ *<~~tex~~math>\mathtt{~~simpleDP~~n}\,</~~tex~~math>~~('''int''' a[n]~~{{---}} длина восстанавливаемого текста;*<math>\mathtt{m}\, ~~'''int''' c[n])~~ ~~dp[1] = 0~~</math> {{---}} мощность алфавита исходного текста; dp*<math>\mathtt{letters[2m] ~~= dp[3] = ... = dp[n] = <tex>~~}\~~infty~~,</~~tex~~math> ~~'''for''' i = 1..n~~{{---1}} массив символов, составляющих алфавит исходного текста; dp*<math>\mathtt{probability[im] ~~= <tex>+~~}\~~infty~~,</~~tex~~math> ~~'''for''' j = 0..i~~{{---1}} массив вероятностей обнаружения символа в тексте; ~~'''if''' (dp[j] + a[i]~~ *<~~tex~~math>\~~cdot~~mathtt{segment}\,</math> {{---}} структура, задающая подотрезок отрезка <tex> c[~~j] < dp[i]~~0; 1) ~~dp[i] = dp[j] + a[i] <tex>\cdot~~</tex> ~~c[j]~~, соответствующего конкретному символу на основе частотного анализа. Имеет поля: ~~'''return''' dp[n]~~ ~~Нетрудно видеть, что такая динамика работает за~~ ** <~~tex~~math>~~O(n^2)~~\mathtt{left}\,</~~tex~~math>. {{---}} левая граница подотрезка; ~~==Ключевая идея оптимизации==~~ ~~Для начала сделаем замену обозначений. Давайте обозначим~~ ** <~~tex~~math>~~dp[j]~~\mathtt{right}\,</~~tex~~math> за {{---}} правая граница подотрезка;** <~~tex>b[j]</tex~~math>\mathtt{character}\, ~~<tex>a[i]~~</~~tex~~math> ~~за <tex>x[i]</tex>, а <tex>c[j]</tex> за <tex>k[j]</tex>.~~{{---}} значение символа. '''struct''' Segment: '''double''' left ~~Теперь формула приняла вид <tex>dp~~ '''double''' right '''char''' character '''Segment'''[im] ~~= \min\limits_{j=0...i-1}~~defineSegments(~~k[j] \cdot x~~letters: '''char'''[in] ~~+ b~~, probability: '''double'''[jn])~~</tex>. Выражение <tex>k~~: '''Segment'''[jm] ~~\cdot x~~ segment '''double''' l = 0 '''for''' i = 0 '''to''' m - 1 segment[i].left = l segment[i].right = l + bprobability[ji]~~</tex> {{---}} это в точности уравнение прямой вида <tex>y~~ segment[i].character = letters[i] l = ~~kx + b</tex>~~segment[i].right '''return''' segment ~~Сопоставим каждому <tex>j</tex>, обработанному ранее, прямую <tex>y~~ '''string''' arithmeticDecoding(letters: '''char'''[jm]~~(x) = k~~, probability: '''double'''[jm] ~~\cdot x + b~~, code: '''double''', n: '''int'''): '''Segment'''[jm]~~</tex>. Из условия «<tex>c[~~segment = defineSegments(letters, probability) '''string''' s = "" '''for''' i~~]</tex> убывают <tex>\Leftrightarrow k[~~= 0 '''to''' n - 1 '''for''' j]= 0 '''to''' m - 1 '''if''' code</tex> ~~уменьшаются с номером~~ \small{~\geqslant~}</tex>segment[j~~</tex>» следует то, что прямые, полученные ранее отсортированы в порядке убывания углового коэффициент~~].left '''and''' code < segment[j]. ~~Давайте нарисуем несколько таких прямых :~~right s += segment[~~[Файл:picture1convexhull~~j].~~png]]~~character ~~Выделим множество точек <tex>~~ code = (~~x0, y0~~code – segment[j].left)</tex> , таких что все они принадлежат одной из прямых и при этом нету ни одной прямой <tex>y’(x)</tex>, такой что <tex>y’(x0) < y0</tex>(segment[j].right – segment[j]. ~~Иными словами возьмем «выпуклую (вверх~~left) оболочку» нашего множества прямых (её еще называют нижней ошибающей множества прямых на плоскости). Назовем ее «<tex>y = convex(x)</tex>». Видно, что множество точек <math>(x, convex(x))</math> представляет собой выпуклую вверх функцию. '''break''' '''return''' s ~~==Цель нижней огибающей множества прямых==~~ ~~Пусть мы считаем динамику для <tex>i</tex>-го дерева~~'''Замечание:''' кодировщику и декодировщику должно быть известно, когда завершать работу. ~~Его задает <tex>x[i]</tex>~~Для этого можно передавать в качестве аргумента длину текста или символ конца файла, после которого процесс должен быть остановлен. ~~Итак, нам нужно для данного <~~ '''Замечание:''' Несмотря на преимущества арифметического кодирования, существует проблема при его практическом применении из-за несовершенства представления чисел с плавающей точкой в памяти компьютера {{---}} поскольку некоторые дробные числа не могут быть точно представлены в двоичном коде, используемом современными процессорами (например, <tex>~~x[i]~~\dfrac{1}{3}</tex> ~~найти <~~), границы символов будут округлены, что может повлечь за собой неверную работу алгоритма при больших объёмах данных. В общем случае, алгоритм можно модифицировать так, чтобы результатом было дробное число. В такой реализации вероятность встречи символа представляется в виде рационального числа. Поскольку в каждой итерации будет переход из текущего отрезка в один из его <tex>~~\min\limits_{j=0..i-1}(k[j] \cdot x[i] + b[i]) = \min\limits_{j=0..i-1}(y[j](x[i]))<~~m</tex>~~. Это выражение есть~~ подотрезков, кратных по длине <~~math~~tex>~~convex(x[i])~~n</~~math~~tex>~~. Из монотонности угловых коэффицентов отрезков~~, задающих выпуклую оболочку, и их расположения по координаты x следует то, что отрезок, который пересекает прямую а всего итераций <tex>~~x = x[i]~~n</tex>, ~~можно найти бинарным поиском. Это потребует~~ в конечном результате знаменатель дроби не превысит <tex>~~O(\log(~~n))^{n}</tex> ~~времени на поиск такого <~~, а поскольку сумма всех вероятностей встречи символов равна <tex>j1</tex>, ~~что~~ полученная дробь будет находиться в промежутке <tex>dp[~~i] = k[j] \cdot x[i] + b[j]~~0; 1)</tex>. ~~Теперь осталось научиться поддерживать множество прямых и быстро добавлять~~ == Пример работы ==Рассмотрим в качестве примера строку <tex>iabacaba</tex>~~-ю прямую после того, как мы посчитали~~ :=== Кодирование ==={|class="wikitable"!Символ||Частота появления|-|<tex>~~b[i] = dp[i]~~a</tex>. ~~Воспользуемся идеей алгоритма построения выпуклой оболочки множества точек. Заведем 2 стека <tex>k[]<~~</~~tex~~p> и ||<~~tex~~p style="text-align:center;">~~b[]~~</tex>~~, которые задают прямые в отсортированном порядке их угловыми коэффицентами и свободными членами~~0. ~~Рассмотрим ситуацию, когда мы хотим добавить новую (~~571429</tex>i</~~tex~~p>|-~~тую) прямую в множество. Пусть сейчас в множестве лежит~~ |<~~tex~~p style="text-align:center;">sz</tex> ~~прямых (нумерация с 1). Пусть~~ b</tex>~~(xL, yL)~~</~~tex~~p> {{||<tex>~~sz - 1~~0.285714</tex>|-|<tex>szc</tex>||<tex>~~(xR, yR)~~0.142857</tex> |}[[Файл:Code_png.png|thumb|right|200px|Пример работы кодировщика ]]{{|class="wikitable"!Считанный символ||Левая граница отрезка||Правая граница отрезка|-|||<tex>sz0</tex>||<tex>x1</tex>|-~~овые координаты~~ |<tex>xLa</tex> и <~~tex~~/p>||xR</tex>~~, соответственно. Если оказалось, что новая прямая пересекает~~ 0</tex>sz</~~tex~~p>||<tex>sz0.571429</tex>-я <~~tex~~/p>sz |- 1|</tex>~~-ю, т.е.~~ b</tex>~~(xL \geqslant xR)~~||<tex>~~, то~~ 0.326531</tex>sz</~~tex~~p>||<tex>xL0.489796</tex> ~~не станет меньше <tex>xR.~~</~~tex~~p> |- ~~Асимптотика~~ |<tex>a</tex>1</~~math~~p> ~~раз добавится в стек и максимум~~ ||<~~math~~p style="text-align:center;">1<~~/math~~tex> ~~раз удалится~~0. ~~Значит время работы перестройки выпуклой оболочки займет~~ 326531</tex>~~O(n)~~</~~tex~~p> ~~суммарно.~~ ~~[[Файл~~||<tex>0.~~png]]~~419825</tex> ~~[[Файл:picture3convexhull.png]]~~ ~~{{Теорема~~ |~~id=th1239.~~- |~~statement~~<p style=~~Алгоритм построения нижней огибающей множества прямых корректен.~~ |proof=Достаточно показать, что последнюю прямую нужно удалить из множества т.и т.т., когда она наша новая прямая пересекает ее в точке с координатой по оси X, меньшей, чем последняя {{"text-~~--}} предпоследнюю.~~ ~~Пусть~~ align:center;"><tex>~~Y(x) = Kx + B~~c</tex> {{||<tex>~~y[i](x) = K[i]x + B[i]~~0.406497</tex> ~~{{--~~||<tex>~~K < K[sz]~~0.419825</tex>~~, то при~~ <~~tex~~/p>~~x \in [~~|- ~~\infty; xR] : y[sz](x)~~ |<tex>a</tex>~~, а т.к.~~ <~~tex~~/p> ~~K[sz]~~ ||< ~~K[sz~~ p style="text- 1]align:center;"><tex>0.406497</tex>~~, то при~~ <~~tex~~/p>~~x \in [xL; + \infty]~~ ||</tex>0. ~~Если~~ 414113</tex>~~xL < xR~~</~~tex~~p>~~, то при~~ |-|<~~tex>x \in [xL~~p style="text-align:center; ~~xR] : y[sz - 1] \geqslant y[sz](x) и Y(x) \geqslant y[sz](x)</tex~~">~~, т.е. на отрезке~~ <tex>~~[xL; xR]~~b</tex> ~~прямая номер sz лежит ниже остальных и её нужно оставить в множестве. Если же~~ <~~tex~~/p>xL ||<tex> xR0.410849</tex>~~, то она ниже всех на отрезке~~ <~~tex~~/p>~~[xL~~||</tex>~~, т~~0.~~е. её можно удалить из множества~~413025</tex> }}|- |<tex>~~front[]~~a</tex> ~~{{---}}~~ <~~tex~~/p>x||<~~/tex>~~p style="text-~~координаты, начиная с которых прямые совпадают с выпуклой оболочкой (т~~align:center;"><tex>0.~~е. i-я прямая совпадает с выпуклой оболочкой текущего множества прямых при~~ 410849</tex>x</~~tex~~p>|| <tex>~~\in~~0.412093</tex> <~~tex~~/p>~~[front[i]; front[i + 1])~~|}Код: <tex>0.411471</tex> ~~) и~~ === Декодирование ===Код: <tex>~~st[]~~0.411471</tex> ~~{{---}} номера деревьев, соответствующих прямым (т.е~~[[Файл:decode1_png. png|thumb|right|200px|Пример работы декодировщика ]]{|class="wikitable"!Декодируемый символ||Код|-|<tex>ia</tex>~~-я прямая множества, где~~ <~~tex~~/p>i||<~~/tex~~p style="text-align:center;"> <tex>~~\in~~0.411471</tex> <~~tex~~/p>[1|-|</tex> ~~соответствует дереву номер~~ b</tex>~~sz[i]~~</~~tex~~p>~~). Также воспользуемся тем, что~~ ||<~~tex>x[i]~~ p style= ~~a[i]</tex~~"text-align:center;"> ~~возрастают (по условию задачи), а значит мы можем искать первое такое~~ <tex>j0.720074</tex>~~, что~~ <~~tex~~/p>~~x[i] \geqslant front[j]~~|-|<tex>a</tex> ~~не бинарным поиском, а методом двух указателей за~~ ||<tex>~~O(n)~~0.520259</tex> ~~операций суммарно. Также массив front[] можно хранить в целых числах, округляя х~~|-координаты в сторону лежащих правее по оси x до ближайшего целого (*), т.к. на самом деле мы, считая динамику, подставляем в уравнения прямых только целые |<~~tex~~p style="text-align:center;">~~x[i]~~</tex>~~, а значит если~~ c</tex>k</~~tex~~p>||~~-я прямая пересекается с~~ <tex>~~k+1~~0.910454</tex>~~-й в точке~~ <~~tex~~/p>~~z +~~|-|<~~/tex~~p style="text-align:center;"> <tex>~~\alpha~~a</tex> (<~~math~~/p>z||<~~/math~~p style="text-align:center;">~~-целое,~~ <tex>~~\alpha~~0.373178</tex> <~~tex~~/p>~~\in~~|-|<~~/tex~~p style="text-align:center;"> <tex>~~[0;1)~~b</tex>~~), то мы будем подставлять в их уравнения~~ <~~tex~~/p>z||<~~/tex~~p style="text-align:center;"> ~~или~~ <tex>~~z + 1~~0.653061</tex>~~. Поэтому можно считать, что новая прямая начинает совпадать с выпуклой оболочкой, начиная с <tex>x = z+1~~</~~tex~~p> |- ~~==Реализация~~|<tex>a</tex>||<tex>~~\mathtt{ConvexHullTrick}~~0.285714</tex>(|} '''~~int~~Замечание:''' ~~a[n]~~при декодировании текста можно не только нормализовывать рабочий отрезок и текущий код, ~~'''int''' c[n]~~но и уменьшать рабочий отрезок (аналогично кодированию), не изменяя значение кода. ~~st[1]~~ = 1== Декодирование (второй способ)=== ~~from[1] = -~~Код: <tex>~~\infty~~0.411471</tex~~>// первая прямая покрывает все x-ы, начиная с -∞ </font~~> ~~sz = 1 // текущий размер выпуклой оболочки ~~[[Файл:decode2_png.png|thumb|right|200px|Пример работы декодировщика (второй способ) ]]{|class="wikitable" ~~pos~~ !Декодируемый символ||colspan= 1 "4" |Границы отрезка|-|<~~font color~~p style=~~green~~"text-align:center;"><tex>a</~~/ текущая позиция первого такого j, что x[i] \geqslant front[st[j]]~~ tex></~~font~~ p> ~~'''for''' i~~ ||<tex>0</tex>< ~~x[i])~~ /p>||<~~font color~~p style=~~green~~"text-align:center;"><tex>0.571429</tex></ ~~метод 1 указателя (ищем первое pos, такое что x[i] покрывается~~ p>||<tex>0.857143</~~font~~ tex> ~~pos = pos + 1~~ ~~j = st[pos]~~ ~~dp[i] = K[j]~~<~~math~~/p>~~\cdot~~||<~~/math~~p style="text-align:center;">~~a[i] + B[j]~~ ~~'''if''' (i~~ < n) tex>1<~~font color=green~~/tex>~~// если у нас добавляется НЕ последняя прямая, то придется пересчитать выпуклую оболочку~~ </~~font~~ p> ~~K[i] = c[i]~~ |-|<~~font color~~p style=~~green~~"text-align:center;">~~// наши переобозначения переменных~~ <~~/font~~ tex> ~~B[i] = dp[i]~~ b<~~font color=green~~/tex>~~// наши переобозначения переменных~~ </~~font~~ p> x ||<tex>~~\infty~~0</tex> ~~'''while''' ''true''~~ j ||<~~font color=green~~tex>0.326531</tex></ xp>||<tex>0.489796 </~~font~~ tex> ~~'''if''' (x~~ ~~from[sz]) '''break'''~~ ||<~~font color~~p style=~~green~~"text-align:center;"><tex>0.571429<// перестаем удалять последнюю прямую из множества, если новая прямая пересекает ее позже, чем начинается ее "область действия" tex></~~font~~ p> ~~sz = sz~~ |- 1|<~~font color~~p style=~~green~~"text-align:center;">~~// удаляем последнюю прямую, если она лишняя~~ <~~/font~~ tex> ~~st[sz + 1] = i~~ ~~from[sz + 1] = x~~ a<~~font color=green~~/tex>~~// добавили новую прямую~~ </~~font~~ p> sz ||<tex>~~\mathtt{divide}~~0.326531 </tex>~~(a, b) возвращает нужное(*) округление a~~ </ ~~b. Приведем её код :~~ ~~'''int'''~~ p>||<tex>~~\mathtt{divide}~~0.419825 </tex>~~('''int''' a, '''int''' b)~~ ~~delta~~ ||<tex>0.466472 </tex>||<tex>0 ~~'''if''' (a '''mod''' b ≠ 0) delta = 1~~ ~~'''if''' ((a~~ .489796 </tex> ~~0 '''and''' b~~ |-| ~~0) '''or''' (a~~ < ~~0 '''and''' b~~ tex>c</tex>< ~~0)) '''return''' [a~~ / ~~b] + delta~~ ~~'''return''' -[~~p>|a| <tex>0.326531</tex>|b|] ~~Такая реализация будет работать за O(n).~~ <tex>~~k[i]~~0.379842</tex> ~~возрастает~~</~~убывает и <tex~~p>~~x[i]~~||<tex>0.406497</tex> ~~убывает~~</возрастает выглядят достаточно редкими для большинства задач. Пусть в задаче таких ограничений нет. Первый способ борьбы с этой проблемой {{p>||<p style="text-~~--}} отсортировать входные данные нужным образом, не испортив свойств задачи (пример~~ align: ~~задача G c Санкт-Петербургских сборов к РОИ 2016[http://neerc.ifmo.ru/school/camp-2016/problems/20160318a.pdf]).~~ ~~Но рассмотрим общий случай. По-прежнему у нас есть выпуклая оболочка прямых, имея которую мы за~~ center;"><tex>~~O(\log(n))~~0.419825</tex> ~~можем найти <tex>dp[i]~~</~~tex~~p>|-|~~, но теперь вставку~~ <tex>ia</tex>||<tex>~~O(1)~~0.406497</tex> в среднем. У нас есть выпуклая оболочка, наша прямая пересекает ее, возможно, «отсекая» несколько отрезков выпуклой оболочки в середине (рис. 4 : красная прямая {{||<tex>~~x \in [x1; x2]~~0.414113</tex>~~, где~~ <~~tex~~/p>||~~x1, x2 \in R~~</tex> ~~{{---}} точки пересечения с некоторыми прямыми, причем~~ 0.417921 </tex>x2||<tex> ~~не обязательно равно~~ 0.419825</tex>~~+ \infty~~</~~tex~~p> ~~[[Файл:picture4convexhull.png]]~~|- ~~Чтобы уметь вставлять прямую в множество будем хранить~~ |<~~math>std~~p style="text-align:~~:set</math~~center;"> ~~(или любой аналог в других языках программирования) пар~~ <tex>~~(k, st)~~b</tex> = <~~tex~~/p>||~~(коэффицент прямой, ее номер в глобальной нумерации)~~</tex>0. Когда приходит новая прямая, ищем последнюю прямую с меньшим угловым коэффицентом, чем у той прямой, которую мы хотим добавить в множество. Поиск такой прямой занимает 406497</tex>~~O(\log(n))~~</~~tex~~p>~~. Начиная с найденной прямой выполняем~~ ||<p style="~~старый~~text-align:center;" алгоритм (удаляем, пока текущая прямая множества бесполезна). И симметричный алгоритм применяем ко всем прямым справа от нашей (удаляем правого соседа нашей прямой, пока она пересекает нас позже, чем своего правого соседа)><tex>0. ~~Асимптотика решения составит~~ 410849</tex>~~O(\log(n))~~</~~tex~~p>|| ~~на каждый из~~ <tex>n0.413025</tex> ~~запросов «добавить прямую» +~~ <~~tex~~/p>~~O(n\cdot\log(n))~~||<~~/tex> суммарно на удаление прямых, т.к. по~~p style="text-~~прежнему каждая прямая не более одного раза удалится из множества, а каждое удаление из std~~align:~~:set занимает~~ center;"><tex>~~O(\log(n))~~0.414113</tex> ~~времени. Итого <math>O(n\cdot\log(n))~~</~~math~~p>. |- |<tex>a</tex>~~dp[i] = \min\limits_{j~~||<tex>0.~~..i-1}(c[j] \cdot a[i] + dp[j])~~410849</tex> ~~заключается в том, что мы будем пытаться свести задачу к стандартной выпуклой оболочке множества точек~~||<tex>0. ~~Перепишем выражение средующим образом~~ 412093</tex>||<tex>~~dp[j] + a[i] \cdot c[j] = (dp[j], c[j]) \cdot (1, a[i])<~~0.412714</tex>~~, т.е. запишем как скалярное произведение векторов~~ <~~tex~~/p>~~v[j]~~ || и <tex >~~u[i] = (1, a[i])~~0.413025</tex >~~. Вектора~~ <~~tex~~ /p>~~v[j]~~ |}== Оценка длины кодового слова =={{Теорема |statement=При арифметическом кодировании длина кодового слова не превышает энтропии исходного текста. ||proof= ~~(dp[j], c[j])~~Введём следующие обозначения: *<tex>l</tex> ~~хотелось бы организовать так~~{{---}} длина текста, ~~чтобы за~~ *<tex >~~O(\log(~~n))</tex> ~~находить вектор~~{{---}} размер алфавита, ~~максимизирующий выражение~~ *<tex>~~v[j] \cdot u[i]~~f_i</tex>~~. Посмотрим на рис. 5. Заметим интуитивно очевидный факт : красная точка (вектор)~~ {{---}} частота встречаемости символа,*<tex>jp_i</tex> ~~не может давать более оптимальное значение~~ {{---}} вероятность вхождения символа. Размер сообщения <tex>~~v[j] \cdot u[i]~~L</tex> ~~одновременно чем обе синие точки. По этой причине нам достаточно оставить выпуклую оболочку векторов~~ можно найти по формуле: <tex>~~v[j]</tex>, а ответ на запрос~~ L = \prod\limits_{i=1}^l p_{fi} = \prod\limits_{i=1}^n p_{i}^{f_{~~---~~i}} ~~это поиск~~ </tex>~~v[j]~~ Число бит в закодированном тексте: </tex>~~, максимизирующего проекцию на <tex>u[~~\log_2 L = -\sum\limits_{i]</tex>. Это задача поиска ближайшей точки выпуклого многоугольника (составленного из точек выпуклой оболочки) к заданной прямой (из <tex>=1}^n f_i\cdot \log_2 p_i = -l \cdot \sum\limits_{i=1}^n p_i\cdot \log_2 p_i = -l \cdot H(~~0, 0~~p_1 \ldots p_n)</tex> ~~в <tex>(1, a[i~~}} == См. также ==* [[Алгоритм_Хаффмана | Алгоритм Хаффмана]]~~)</tex>). Ее можно решить за <tex>O(\log(n))</tex> двумя бинарными или одним тернарным поиском~~ ~~Асимптотика алгоритма по-прежнему составит <tex>O(n \cdot \log(n))</tex>~~* [[Алгоритмы_LZ77_и_LZ78 | Алгоритмы LZ77 и LZ78]] * [[~~Файл:picture5convexhull.png~~Энтропия_случайного_источника | Энтропия случайного источника]] ~~Докажем то, что описанный выше алгоритм корректен~~== Источники информации ==* [http://ru.wikipedia. ~~Для этого достаточно показать, что если имеются <math>3<~~org/~~math> вектора <math>a, b, c<~~wiki/math>, расположенные как на рис. 5, т.е. точка <math>b</math> не лежит на выпуклой оболочке векторов <tex>0, a, b, c </tex> : <tex> \Leftrightarrow |[a%D0%90%D1%80%D0%B8%D1%84%D0%BC%D0%B5%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BA%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 Википедия {{--~~b, b~~-c}} Арифметическое кодирование]~~| < 0 <~~* [https://~~tex>, то либо <tex>(a, u~~en.wikipedia.org/wiki/Arithmetic_coding Wikipedia {{---}} Arithmetic coding]* [~~i])<~~http:/~~tex> оптимальнее, чем <tex>(b, u[i])<~~/~~tex>, либо <tex>(c, u[i])<~~www.sernam.ru/~~tex> оптимальнее, чем <tex>(b, u[i~~cod_3.php Арифметическое кодирование]~~)</tex>.~~ ~~{{Теорема~~ ~~|id=th12392~~* [http://rain.ifmo.ru/cat/view. ~~|statement=Если есть <tex>3<~~php/~~tex> вектора <tex>a, b, c<~~vis/~~tex>, таких что <tex>|[a~~data-compression/arithmetic-~~b, b~~coding-c2006 Визуализатор арифметического кодирования]~~| < 0</tex> то либо <math>(a, u) < (b, u)</math>, либо <math>(c, u) < (b, u)</math>, где вектор <math>u = (1; k)</math>.~~ |proof=По условию теоремы известно, что <tex>|[a-b, b-c]| < 0 \Leftrightarrow (a_{x} - b_{x})\cdot(b_{y} - c_{y}) < (a_{y} - b_{y}) \cdot (b_{x} - c_{x})</tex> (*). Предположим (от противного), что <tex>(b, u) < (a, u) \Leftrightarrow b_{x} + k \cdot b_{y} < c_{x} + k \cdot c_{y} \Leftrightarrow (b_{x} - c_{x}) < k \cdot (c_{y} - b_{y})</tex> и <tex>(b, u) < (c, u) \Leftrightarrow b_{x} + k \cdot b_{y} < a_{x} + k \cdot a_{y} \Leftrightarrow (a_{x} - b_{x}) > k \cdot (b_{y} - a_{y})</tex>. Подставим эти неравенства в (*). Получим цепочку неравенств : <tex>k \cdot (a_{y} - b_{y})</tex><tex> \cdot (c_{y} - b_{y}) = k</tex><tex> \cdot (b_{y} - a_{y}) \cdot </tex><tex>(b_{y} - c_{y})</tex> <tex> < (a_{x} - b_{x})</tex><tex> \cdot (b_{y} - c_{y})</tex><tex> < (a_{y} - b_{y}) \cdot </tex><tex>(b_{x} - c_{x})</tex> <tex>< k \cdot (a_{y} - b_{y})</tex><tex> \cdot (c_{y} - b_{y})</tex>. Получили противоречие : <tex>k \cdot (a_{y} - b_{y}) \cdot (c_{y} - b_{y}) < k \cdot (a_{y} - b_{y}) \cdot (c_{y} - b_{y})</tex>. Значит предположение неверно, чтд. }} ~~Из доказанной теоремы и следует корректность алгоритма.~~ ~~==См. также==~~ ~~1) http://neerc.ifmo.ru/wiki/index.php?title=Статические_выпуклые_оболочки:_Джарвис,_Грэхем,_Эндрю,_Чен,_QuickHull~~ ~~2) http://neerc.ifmo.ru/wiki/index.php?title=Динамическое_программирование~~ [[Категория:Дискретная математика и алгоритмы]] [[Категория: ~~Динамическое программирование~~Теория вероятности]] [[Категория: ~~Способы оптимизации методов динамического программирования~~Алгоритмы сжатия]]

Анонимный участник

185.159.156.19

Изменения

Арифметическое кодирование

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты