Задача об оптимальном префиксном коде с сохранением порядка. Монотонность точки разреза — различия между версиями

Версия 20:39, 22 декабря 2010

Содержание

1 Определение
2 Алгоритм
3 Монотонность точки разреза

Определение

Определение:

Оптимальный префиксный код с сохранением порядка(англ. order-preserving code, alphabetic code).

Пусть у нас есть алфавит [math] \Sigma [/math]. Каждому символу [math]c_i [/math] сопоставим его код [math] p_i [/math]. Кодирование называется оптимальным префиксным с сохранением порядка, если соблюдаются:

Условие порядка - . То есть, если символ [math]c_i [/math] лексикографически меньше символа [math] c_j [/math], его код также будет лексикографически меньше, и наоборот.
Условие оптимальности - - минимально, где [math] f_i [/math] - частота встречаемости символа [math] c_i [/math] в тексте, а [math] |p_i| [/math] - длина его кода.

Алгоритм

Решим задачу, используя ДП на подотрезках. Пусть в ячейке [math] D[i][j] [/math] хранится минимальная стоимость кодового дерева для отрезка алфавита от i до j.

Тогда пересчет [math] D[i][j] [/math] будет происходить так:

Базой динамики будет [math] D[i][i] = 0 [/math]

Добавочный член возникает от того что каждым объединением двух подотрезков мы увеличиваем высоту дерева на 1, а значит, и длины всех кодов символов [math] c_i .. c_j [/math] также увеличиваются на 1.

Тогда такое наибольшее k, на котором достигается этот минимум, называется точкой разреза для отрезка [math] i..j [/math]. Пусть в ячейке [math] R[i][j] [/math] хранится точка разреза на отрезке [math] i..j [/math].

Если разрез происходит по какому - то определенному индексу [math] q [/math] , такой разрез обозначим [math] D_q[i][j] [/math].

Таким образом, получили алгоритм, работающий за [math] O(n^3) [/math]. Коды каждого символа можно легко получить так же, как в алгоритме Хаффмена - обходом по построенному дереву.

Если доказать монотонность точки разреза, то можно уменьшить асимптотику алгоритма до [math] O(n^2) [/math].

Монотонность точки разреза

Для доказательства этого сперва докажем несколько лемм.

Определение:

Функция a удовлетворяет неравенству четырехугольника(quadrangle inequation), если

Лемма:

w удовлетворяет неравенству четырехугольника.

Доказательство:

Заметим, что , так как [math] w[i][j] [/math] - простая арифметическая сумма. Тогда:

Получили , что является верным. Лемма доказана.

Лемма:

Если w удовлетворяет неравенству четырехугольника, то D также удовлетворяет неравенству четырехугольника, то есть:

Доказательство:

При [math] i = i' [/math] или [math] j = j' [/math], очевидно, неравенство выполняется.

Рассмотрим два случая:

[math] i' = j [/math]
[math] i \lt i' = j \lt j' [/math]. Тогда неравенство четырехугольника сводится к:

Пусть [math] k = R[i][j'] [/math]. Получили два симметричных случая:
1. [math] k \le j [/math]
  - по определению [math] D[i][j] [/math]
  
  - так как [math] w[i][j'] \gt = w[i][j] [/math]
  
  - по индукционному предположению для D
  
  [math] \le D[i][j'] [/math] - по определению [math] D[i][j'] [/math]
2. [math] k \ge j [/math] - аналогичный предыдущему случай.
[math] i' \lt j [/math]
[math] i \lt i' \lt j \lt j' [/math]

Пусть [math] y = R[i'][j] [/math] и [math] z = R[i][j'] [/math]. Получили два различных симметричных случая:
1. [math] z \le y [/math]
  Получили [math] z \le y \le j [/math] (по определению y) и [math] i \lt z [/math](по определению z). Получим:
  
  - по неравенству четырехугольника для [math] w [/math]
  
  - по индукционному предположению для D
  
  [math] \le D[i][j'] + D[i'][j] [/math] - по определению D.
2. [math] z \ge y [/math] доказывается аналогично

Лемма доказана.

Теорема (Монотонность точки разреза):

Если w удовлетворяет неравенству четырехугольника, то:

Доказательство:

В случае [math] i = j [/math] неравенство, очевидно, выполняется. Рассматриваем случай [math] i \lt j [/math] и только случай [math] R[i][j] \le R[i][j+1] [/math](вторая часть доказывается аналогично):

Так как [math] R[i][j] [/math] - максимальный индекс, в котором достигается минимум, достаточно показать, что:

- фактически, это означает что если на отрезке разрез оптимальнее по , чем по , то он также будет оптимальнее и на отрезке .

Докажем более сильное неравенство:

- по определению D

- получили неравенство четырехугольника для , что является верным из предыдущей леммы. Теорема доказана.

@@ Строка 7: / Строка 7: @@
 Пусть у нас есть алфавит <tex> \Sigma </tex>. Каждому символу <tex>c_i </tex> сопоставим его код <tex> p_i </tex>. Кодирование называется оптимальным префиксным с сохранением порядка, если соблюдаются:
 # Условие порядка - <tex> \forall i, j : c_i < c_j \iff p_i < p_j </tex>. То есть, если символ <tex>c_i </tex> лексикографически меньше символа <tex> c_j </tex>, его код также будет [[лексикографический порядок | лексикографически]] меньше, и наоборот.
-# Условие оптимальности - <tex> \sum\limits_{i = 1}^{|\Sigma|} f_i \cdot |p_i| </tex> - минимально, где <tex> f_i </tex> - частота встречаемости символа <tex> c_i </tex> в тексте, а <tex>|p_i| </tex> - длина его кода.
+# Условие оптимальности - <tex> \sum\limits_{i = 1}^{|\Sigma|} f_i \cdot |p_i| </tex> - минимально, где <tex> f_i </tex> - частота встречаемости символа <tex> c_i </tex> в тексте, а <tex> |p_i| </tex> - длина его кода.
 }}
 == Алгоритм ==
-Алгоритм нахождения оптимального префиксного кода с сохранением порядка.
 Решим задачу, используя ДП на подотрезках. Пусть в ячейке <tex> D[i][j] </tex> хранится минимальная стоимость кодового дерева для отрезка алфавита от i до j.
@@ Строка 22: / Строка 21: @@
 Добавочный член <tex>w[i][j] = \sum\limits_{t = i}^{j} f_t </tex> возникает от того что каждым объединением двух подотрезков мы увеличиваем высоту дерева на 1, а значит, и длины всех кодов символов <tex> c_i .. c_j </tex> также увеличиваются на 1.
-Тогда такое ''наибольшее'' k, на котором достигается этот минимум, называется точкой разреза для отрезка <tex> [i, j] </tex>. Пусть в ячейке <tex> R[i][j] </tex> хранится точка разреза на отрезке <tex> [i, j] </tex>.
+Тогда такое ''наибольшее'' k, на котором достигается этот минимум, называется точкой разреза для отрезка <tex> i..j </tex>. Пусть в ячейке <tex> R[i][j] </tex> хранится точка разреза на отрезке <tex> i..j </tex>.
 Если разрез происходит по какому - то определенному индексу <tex> q </tex> , такой разрез обозначим <tex> D_q[i][j] </tex>.
+Таким образом, получили алгоритм, работающий за <tex> O(n^3) </tex>. Коды каждого символа можно легко получить так же, как в алгоритме Хаффмена - обходом по построенному дереву.
+Если доказать монотонность точки разреза, то можно уменьшить асимптотику алгоритма до <tex> O(n^2) </tex>.
 == Монотонность точки разреза ==
@@ Строка 34: / Строка 37: @@
 : <tex>\forall i \le i' \le j \le j' : a[i][j] + a[i'][j'] \le a[i'][j] + a[i][j']</tex>
 }}
 {{Лемма
@@ Строка 52: / Строка 56: @@
 <tex>\forall i \le i' \le j \le j' : D[i][j] + D[i'][j'] \le D[i'][j] + D[i][j'] </tex>
 | proof=
-База индукции: при <tex> i = i' </tex> или <tex> j = j' </tex>, очевидно, неравенство выполняется.
+При <tex> i = i' </tex> или <tex> j = j' </tex>, очевидно, неравенство выполняется.
 Рассмотрим два случая:
@@ Строка 75: / Строка 79: @@
 ##: <tex> \le D[i][j'] + D[i'][j] </tex> - по определению D.
 ## <tex> z \ge y </tex> доказывается аналогично
-Индукционный шаг завершен, лемма доказана.
+Лемма доказана.
 }}
 {{Теорема

Задача об оптимальном префиксном коде с сохранением порядка. Монотонность точки разреза — различия между версиями

Версия 20:39, 22 декабря 2010

Содержание

Определение

Алгоритм

Монотонность точки разреза

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты