Задача об оптимальном префиксном коде с сохранением порядка. Монотонность точки разреза — различия между версиями

Текущая версия на 19:12, 4 сентября 2022

Определение:

Оптимальный префиксный код с сохранением порядка (англ. order-preserving code, alphabetic code).

Пусть у нас есть алфавит [math] \Sigma [/math]. Каждому символу [math]c_i [/math] сопоставим его код [math] p_i [/math]. Кодирование называется оптимальным префиксным с сохранением порядка (алфавитным), если соблюдаются:

Условие порядка — . То есть, если символ [math]c_i [/math] лексикографически меньше символа [math] c_j [/math], его код также будет лексикографически меньше, и наоборот.
Условие оптимальности — — минимально, где [math] f_i [/math] — частота встречаемости символа [math] c_i [/math] в тексте, а [math] |p_i| [/math] — длина его кода.

Алгоритм

Решим задачу, используя ДП на подотрезках. Пусть в ячейке [math] D[i][j] [/math] хранится минимальная стоимость кодового дерева для отрезка алфавита от [math] i [/math] до [math] j [/math].

Тогда пересчет [math] D[i][j] [/math] будет происходить так:

Базой динамики будет [math] D[i][i] = 0 [/math]

Добавочный член возникает от того что каждым объединением двух подотрезков мы увеличиваем высоту дерева на [math] 1 [/math], а значит, и длины всех кодов символов [math] c_i .. c_j [/math] также увеличиваются на [math] 1 [/math].

Тогда такое наибольшее [math] k [/math], на котором достигается этот минимум, называется точкой разреза для отрезка [math] i..j [/math]. Пусть в ячейке [math] R[i][j] [/math] хранится точка разреза на отрезке [math] i..j [/math].

Если разрез происходит по какому-то определенному индексу [math] q [/math] , такой разрез обозначим [math] D_q[i][j] [/math].

Таким образом, получили алгоритм, работающий за [math] O(n^3) [/math]. Коды каждого символа можно легко получить так же, как в алгоритме Хаффмана — обходом по построенному дереву.

Если доказать монотонность точки разреза, то можно уменьшить асимптотику алгоритма до [math] O(n^2) [/math].

Монотонность точки разреза

Для доказательства этого сперва докажем несколько лемм.

Определение:

Функция удовлетворяет неравенству четырехугольника (англ. quadrangle inequation), если

.

Лемма:

удовлетворяет неравенству четырехугольника.

Доказательство:

Заметим, что , так как [math] w[i][j] [/math] — простая арифметическая сумма. Тогда:

Получили .

Лемма:

Если удовлетворяет неравенству четырехугольника и монотонна по включению (то есть $w[i'][j] \le w[i][j']$ при $i \leqslant i' \leqslant j \leqslant j'$), то также удовлетворяет неравенству четырехугольника, то есть: .

Доказательство:

При [math] i = i' [/math] или [math] j = j' [/math], очевидно, неравенство выполняется.

Рассмотрим два случая:

[math] i' = j [/math]
[math] i \lt i' = j \lt j' [/math]. Тогда неравенство четырехугольника сводится к:

Пусть [math] k = R[i][j'] [/math]. Получили два симметричных случая:
1. [math] k \leqslant j [/math]
  — по определению [math] D[i][j] [/math]
  
  — так как по монотонности
  
  — по индукционному предположению для [math] D [/math]
  
  [math] \leqslant D[i][j'] [/math] — по определению [math] D[i][j'] [/math]
2. [math] k \geqslant j [/math] — аналогичный предыдущему случай.
[math] i' \lt j [/math]
[math] i \lt i' \lt j \lt j' [/math]

Пусть [math] y = R[i'][j] [/math] и [math] z = R[i][j'] [/math]. Получили два симметричных случая:
1. [math] z \leqslant y [/math]
  Получили . Запишем:
  
  — по неравенству четырехугольника для [math] w [/math]
  
  — по индукционному предположению для [math] D [/math]
  
  — по определению [math] D [/math]
2. [math] z \geqslant y [/math] доказывается аналогично.

Теорема (Монотонность точки разреза):

Если удовлетворяет неравенству четырехугольника, то: .

Доказательство:

В случае [math] i = j [/math] неравенство, очевидно, выполняется. Рассматриваем случай [math] i \lt j [/math] и только случай (вторая часть доказывается аналогично):

Так как [math] R[i][j] [/math] — максимальный индекс, в котором достигается минимум, достаточно показать, что:

— фактически, это означает что если на отрезке разрез оптимальнее по , чем по , то он также будет оптимальнее и на отрезке .

Докажем более сильное неравенство:

— по определению

— получили неравенство четырехугольника для , что является верным из предыдущей леммы.

Объяснение квадратичной асимптотики

Рассмотрим матрицу [math] R [/math]. Так как отрезки [math] i..j [/math], где [math] i \gt j [/math] мы не рассматриваем, она будет верхнетреугольной. Вначале она будет заполнена так, что [math] R[i][i] = i [/math] (так как для отрезка, состоящего из одного элемента, он же и является точкой разреза). Далее, для любого элемента [math] R[i][j] [/math] его значения лежат между [math] R[i][j-1] [/math] (левый элемент в матрице) и [math] R[i+1][j] [/math] (нижний элемент в матрице). Так как мы используем динамику по подотрезкам, то сначала мы рассчитаем [math] R [/math] для отрезков длины [math] 2 [/math], затем [math] 3 [/math], и так далее до [math] n [/math]. Фактически, мы будем обходить диагонали матрицы, количество которых равно [math] n [/math].

Рассмотрим элемент [math] R[i][j] [/math]. Для него выполняется . Следующий элемент, который мы будем пересчитывать — [math] R[i+1][j+1] [/math]. Для него выполняется . Таким образом, заполняя одну диагональ, алгоритм сделает не более [math] n [/math] шагов, а так как диагоналей [math] n [/math], получили асимптотику [math] O(n^2) [/math].

Источники информации

S.V. Nagaraj — Tutorial: Optimal binary search trees
Кнут Д.Э. — Искусство программирования, том 3. Сортировка и поиск. — М.: «Вильямс», 2005, стр. 486 - 488

@@ Строка 1: / Строка 1: @@
-{| class="wikitable" align="center" style="color: red; background-color: black; font-size: 56px; width: 800px;"
-|+
-|-align="center"
-|'''НЕТ ВОЙНЕ'''
-|-style="font-size: 16px;"
-|
-февраля 2022 года российское руководство во главе с Владимиром Путиным развязало агрессивную войну против Украины. В глазах всего мира это военное преступление совершено от лица всей страны, всех россиян.
-Будучи гражданами Российской Федерации, мы против своей воли оказались ответственными за нарушение международного права, военное вторжение и массовую гибель людей. Чудовищность совершенного преступления не оставляет возможности промолчать или ограничиться пассивным несогласием.
-Мы убеждены в абсолютной ценности человеческой жизни, в незыблемости прав и свобод личности. Режим Путина — угроза этим ценностям. Наша задача — обьединить все силы для сопротивления ей.
-Эту войну начали не россияне, а обезумевший диктатор. И наш гражданский долг — сделать всё, чтобы её остановить.
-''Антивоенный комитет России''
-|-style="font-size: 16px;"
-|Распространяйте правду о текущих событиях, оберегайте от пропаганды своих друзей и близких. Изменение общественного восприятия войны - ключ к её завершению.
-|-style="font-size: 16px;"
-|[https://meduza.io/ meduza.io], [https://www.youtube.com/c/popularpolitics/videos Популярная политика], [https://novayagazeta.ru/ Новая газета], [https://zona.media/ zona.media], [https://www.youtube.com/c/MackNack/videos Майкл Наки].
-|}
 {{Определение
 | definition =

Задача об оптимальном префиксном коде с сохранением порядка. Монотонность точки разреза — различия между версиями

Текущая версия на 19:12, 4 сентября 2022

Содержание

Алгоритм

Монотонность точки разреза

Объяснение квадратичной асимптотики

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты