Представление чисел с плавающей точкой — различия между версиями

Текущая версия на 19:29, 4 сентября 2022

Эта статья находится в разработке!

Плавающая точка

Определение:

Плавающая точка (floating point) - метод представления действительных чисел, при котором число хранится в виде мантиссы и показателя степени, а значение числа вычисляется по формуле:
, где - число, - бит, отвечающий за знак числа, - мантисса, - основание степени, - показатель степени.

Такой метод является компромиссом между точностью и диапазоном представляемых значений. Представление чисел с плавающей точкой рассмотрим на примере чисел двойной точности (double precision). Такие числа занимают в памяти два машинных слова (8 байт на 32-битных системах). Наиболее распространенное представление описано в стандарте IEEE 754.

Кроме чисел двойной точности также используются следующие форматы чисел:

половинной точности (half precision) (16 бит),
одинарной точности (single precision) (32 бита),
четверной точности (quadruple precision) (128 бит),
расширенной точности (extended precision) (80 бит).

При выборе формата программисты идут на разумный компромисс между точностью вычислений и размером числа.

Нормальная и нормализованная формы

Определение:

Нормальной называется форма представления числа, при которой абсолютное значение мантиссы десятичного числа находится на полуинтервале .

Недостатком такой записи является тот факт, что числа нельзя записать однозначно: [math] 0.01 = 0.001 \times 10^1 [/math].

Определение:

Нормализованной называется форма представления числа, при которой абсолютное значение мантиссы десятичного числа лежит на полуинтервале , а двоичного на полуинтервале .

Числа двойной точности

Число с плавающей точкой хранится в нормализованной форме и состоит из трех частей (в скобках указано количество бит, отводимых на каждую секцию в формате double):

знак
экспонента (показатель степени) (в виде целого числа в коде со сдвигом)
мантисса (в нормализованной форме)

В качестве базы (основания степени) используется число [math] 2 [/math]. Экспонента хранится со сдвигом [math] -1023 [/math].

Знак
	Экспонента (11 бит)											Мантисса (52+1 бит)
0	0	0	0	0	0	0	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
	62				52								51																																																0

Утверждение:

Итоговое значение числа вычисляется по формуле:
.

Свойства чисел с плавающей точкой

В нормализованном виде любое отличное от нуля число представимо в единственном виде. Недостатком такой записи является тот факт, что невозможно представить число 0.
Так как старший бит двоичного числа, записанного в нормализованной форме, всегда равен 1, его можно опустить. Это используется в стандарте IEEE 754.
В отличие от целочисленных стандартов (например, integer), имеющих равномерное распределение на всем множестве значений, числа с плавающей точкой (double, например) имеют квазиравномерное распределение.
Вследствие свойства 3, числа с плавающей точкой имеют постоянную относительную погрешность (в отличие от целочисленных, которые имеют постоянную абсолютную погрешность).
Очевидно, не все действительные числа возможно представить в виде числа с плавающей точкой.
Точно в таком формате представимы только числа, являющиеся суммой некоторых обратных степеней двойки (не ниже -53). Остальные числа попадают в некоторый диапазон и округляются до ближайшей его границы. Таким образом, абсолютная погрешность составляет половину величины младшего бита.
В формате double представимы числа в диапазоне .

Особые значения чисел с плавающей точкой

Ноль (со знаком)

В нормализованной форме невозможно представить ноль. Для его представления в стандарте зарезервированы специальные значения мантиссы и экспоненты.

Знак
	Экспонента					Мантисса
⁰/₁	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0	= [math]\pm0[/math]

Согласно стандарту выполняются следующие свойства:

[math] +0 = -0 [/math]
(если [math]x\ne0[/math])
[math] (-0) \cdot (-0) = +0\,\![/math]
[math] x + (\pm 0) = x\,\![/math]
[math] (-0) + (-0) = -0\,\![/math]
[math] (+0) + (+0) = +0\,\![/math]
(если [math]x\ne0[/math])

Бесконечность (со знаком)

Для приближения ответа к правильному при переполнении, в double можно записать бесконечное значение. Так же, как и в случае с нолем, для этого используются специальные значение мантиссы и экспоненты.

Знак
	Экспонента					Мантисса
⁰/₁	1	1	1	1	1	1,	0	0	0	0	0	0	0	0	0	0	= [math]\pm\infty[/math]

Бесконечное значение можно получить при переполнении или при делении ненулевого числа на ноль.

Неопределенность

В математике встречается понятие неопределенности. В стандарте double предусмотрено псевдочисло, которое арифметическая операция может вернуть даже в случае ошибки.

Знак
	Экспонента					Мантисса
⁰/₁	1	1	1	1	1	1,	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	= [math]NaN[/math]

Неопределенность можно получить в нескольких случаях. Приведем некоторые из них:

[math] f(NaN) = NaN [/math], где [math] f [/math] - любая арифметическая операция
[math] \infty + (-\infty) = NaN [/math]
[math] 0 \times \infty = NaN [/math]
[math] \sqrt{x} = NaN [/math], где [math] x \lt 0 [/math]

Денормализованные числа

Денормализованные (denormalized numbers) - способ увеличить количество представимых числе в окрестности нуля. Каждое такое число по модулю меньше самого маленького нормализованного.< Согласно стандарту числа с плавающей точкой можно представить в следующем виде:

, в нормализованном виде если ,
, в денормализованном виде если [math] E = E_{min} - 1 [/math],

где [math] E_{min} [/math] - минимальное значение порядка, используемое для записи чисел (единичный сдвиг), [math] E_{min} - 1 [/math] - минимальное значение порядка, которое он может принимать - все биты нули, нулевой сдвиг.

Ввиду сложности, денормализованные числа обычно реализуют на программном уровне, а не на аппаратном. Из-за этого резко возрастает время работы с ними. Это недопустимо в областях, где требуется большая скорость вычислений (например, видеокарты). Так как денормализованные числа представляют числа мало отличные от нуля и мало влияют на результат, зачастую они игнорируются (что резко повышает скорость). При этом используются две концепции:

Flush To Zero (FTZ) - в качестве результата возвращается нуль, как только становится понятно, что результат будет представляться в денормализованном виде.
Denormals Are Zero (DAZ) - денормализованные числа, поступающие на вход, рассматриваются как нули.

Начиная с версии стандарта IEEE 754 2008 года денормализованные числа называются "субнормальными" (subnormal numbers), то есть числа, меньшие "нормальных".

Машинная эпсилон

Определение:

Машинная эпсилон - наибольшее положительное число , такое что, , где - машинное сложение.

Утверждение:

Таким образом, компьютер не различает числа и , если .

Утверждение:

Из свойств чисел двойной точности следует, что для них .

Unit in the last place (Unit of least precision)

Мера единичной точности используется для оценки точности вычислений.

Определение:

Пусть - число с плавающей точкой, мантисса которого имеет длину бит, а экспонента - бит. Тогда .

Приведем пример кода на Python, который показывает, при каком значении числа [math] x [/math] компьютер не различает числа [math] x [/math] и [math] x + 1 [/math].

>>> from math import *
>>> x = 1.0
>>> while (x != x + 1):
...   x *= 2
... 
>>> x
9007199254740992.0
>>> log(x) / log(2)
53.0

То есть [math] x = 2^{53} [/math], так как мантисса числа двойной точности содержит 53 бита (в памяти хранятся 52). В C++ для расчета расстояния между двумя числами двойной точности можно воспользоваться функцией .

Погрешность предиката "левый поворот"

Определения

Утверждение:

Пусть - множество всех чисел с плавающей точкой с операциями

,
,
.

Утверждение:

Расчет [math] \tilde{\epsilon} [/math]

Обозначим .

Теперь распишем это выражение в дабловой арифметике.

Заметим, что [math] v \approx \tilde{v} [/math]

Теперь оценим абсолютную погрешность

Пусть Получаем, что

Итого:

Ответ

Заметим, что это довольно грубая оценка. Вполне можно было бы написать или

Ссылки

en.wikipedia.org Floating point
en.wikipedia.org Half-precision floating point format
en.wikipedia.org Single precision floating point format
en.wikipedia.org Double precision floating point format
en.wikipedia.org Extended precision floating point format
en.wikipedia.org Quadruple precision floating point format
Goldberg, D. 1991 What every computer scientist should know about floating-point arithmetic
ieee.org IEEE 754
en.wikipedia.org Unit in the last place neerc.ifmo.ru/mediawiki Предикат "левый поворот"

@@ Строка 133: / Строка 133: @@
 # В формате double представимы числа в диапазоне <tex> [2.3 \times 10^{-308}, 1.7 \times 10^{308}] </tex>.
-== Особые значение чисел с плавающей точкой ==
+== Особые значения чисел с плавающей точкой ==
 === Ноль (со знаком) ===
 В нормализованной форме невозможно представить ноль. Для его представления в стандарте зарезервированы специальные значения мантиссы и экспоненты.
@@ Строка 272: / Строка 272: @@
 Из свойств чисел двойной точности следует, что для них <tex> \varepsilon_m = 2^{-54}</tex>.
 }}
+== Unit in the last place (Unit of least precision)==
+Мера единичной точности используется для оценки точности вычислений.
+{{Определение
+|definition=
+Пусть <tex> a </tex> - число с плавающей точкой, мантисса которого имеет длину <tex> m </tex> бит, а экспонента - <tex> e </tex> бит. Тогда <tex> ulp(a) = 2^{e - m} </tex>.
+}}
+Приведем пример кода на Python, который показывает, при каком значении числа <tex> x </tex> компьютер не различает числа <tex> x </tex> и <tex> x + 1 </tex>.
+ >>> from math import *
+ >>> x = 1.0
+ >>> while (x != x + 1):
+ ...   x *= 2
+ ...
+ >>> x
+ 9007199254740992.0
+ >>> log(x) / log(2)
+.0
+То есть <tex> x = 2^{53} </tex>, так как мантисса числа двойной точности содержит 53 бита (в памяти хранятся 52).
+В C++ для расчета расстояния между двумя числами двойной точности можно воспользоваться функцией <tex> \mathrm{boost::math::float\_distance(a, b)} </tex>.
 == Погрешность предиката "левый поворот" ==
+=== Определения ===
 {{Утверждение
 |statement=
@@ Строка 285: / Строка 307: @@
 {{Утверждение
 |statement=
-<tex> \forall a, b, c \in D^2, \tilde{v} = (b_x - a_x) \times (c_y - a_y) - (b_y - a_y) \times (c_x - a_x) </tex>
+<tex> \forall a, b, c \in D^2, \tilde{v} = (b_x \ominus a_x) \otimes (c_y \ominus a_y) \ominus (b_y \ominus a_y) \otimes (c_x \ominus a_x) </tex>
 <tex> \exists \tilde{\epsilon} \in D: </tex>
 # <tex> \tilde{v} > \tilde{\epsilon} \Rightarrow (b - a) \times (c - a) > 0 </tex>
@@ Строка 291: / Строка 313: @@
 }}
-=== Постановка задачи ===
+=== Расчет <tex> \tilde{\epsilon} </tex> ===
-Найти <tex> \varepsilon(a, b, c) = \varepsilon: |(b \ominus a) \otimes (c \ominus a)| > \varepsilon \Rightarrow a, b, c </tex> не лежат на одной прямой.
+Обозначим <tex> v = (b - a) \times (c - a) = (b_x - a_x) (c_y - a_y) - (b_y - a_y) (c_x - a_x)</tex>.
+Теперь распишем это выражение в дабловой арифметике.
+<tex>\tilde{v} = (b_x \ominus a_x) \otimes (c_y \ominus a_y) \ominus (b_y \ominus a_y) \otimes (c_x \ominus a_x) = \\
+ = [ (b_x - a_x) (c_y - a_y) (1 + \delta_1) (1 + \delta_2) (1 + \delta_3) - \\
+ - (b_y - a_y) (c_x - a_x) (1 + \delta_4) (1 + \delta_5) (1 + \delta_6) ] (1 + \delta_7),</tex>
+<tex> |\delta_i| \leq \varepsilon_m </tex>
+Заметим, что <tex> v \approx \tilde{v} </tex>
-=== Решение ===
+Теперь оценим абсолютную погрешность <tex> \epsilon = |v - \tilde{v}|. </tex>
-<tex> v = (b - a) \times (c - a) </tex>
-<tex> \tilde{v} = (b_x \ominus a_x) \otimes (c_y \ominus a_y) \ominus (b_y - a_y) \otimes (c_x \ominus a_x) = </tex>
+<tex> |v - \tilde{v}| = |(b_x - a_x) (c_y - a_y) - (b_y - a_y) (c_x - a_x) - \\
-<tex> = [ (b_x - a_x) (c_y - a_y) (1 + \delta_1) (1 + \delta_2) (1 + \delta_3) - </tex>
+- (b_x - a_x) (c_y - a_y) (1 + \delta_1) (1 + \delta_2) (1 + \delta_3) (1 + \delta_7) + \\
-<tex> - (b_y - a_y) (c_x - a_x) (1 + \delta_4) (1 + \delta_5) (1 + \delta_6) ] (1 + \delta_7), |\delta_i| \leq \varepsilon_m </tex>
++ (b_y - a_y) (c_x - a_x) (1 + \delta_4) (1 + \delta_5) (1 + \delta_6) (1 + \delta_7)| = \\
+= |(b_x - a_x) (c_y - a_y) (1 - (1 + \delta_1) (1 + \delta_2) (1 + \delta_3) (1 + \delta_7)) - \\
+- (b_y - a_y) (c_x - a_x) (1 - (1 + \delta_4) (1 + \delta_5) (1 + \delta_6) (1 + \delta_7))| \leq \\
+\leq |(b_x - a_x) (c_y - a_y) (1 - (1 + \delta_1) (1 + \delta_2) (1 + \delta_3) (1 + \delta_7))| + \\
++ |(b_y - a_y) (c_x - a_x) (1 - (1 + \delta_4) (1 + \delta_5) (1 + \delta_6) (1 + \delta_7))| = \\
+= |(b_x - a_x) (c_y - a_y)| \cdot |((1 + \delta_1) (1 + \delta_2) (1 + \delta_3) (1 + \delta_7) - 1)| + \\
++ |(b_y - a_y) (c_x - a_x)| \cdot |((1 + \delta_4) (1 + \delta_5) (1 + \delta_6) (1 + \delta_7) - 1)| = \\
+= |(b_x - a_x) (c_y - a_y)| \cdot |\delta_1 + \delta_2 + \delta_3 + \delta_7 + \delta_1 \delta_2 \ldots| + \\
++ |(b_y - a_y) (c_x - a_x)| \cdot |\delta_4 + \delta_5 + \delta_6 + \delta_7 + \delta_4 \delta_5 \ldots| \leq \\
+\leq |(b_x - a_x) (c_y - a_y)| \cdot (|\delta_1| + |\delta_2| + |\delta_3| + |\delta_7| + |\delta_1 \delta_2| \ldots) + \\
++ |(b_y - a_y) (c_x - a_x)| \cdot (|\delta_4| + |\delta_5| + |\delta_6| + |\delta_7| + |\delta_4 \delta_5| \ldots) \leq \\
+\leq |(b_x - a_x) (c_y - a_y)| \cdot (4 \varepsilon_m + 6 \varepsilon_m^2 + 4 \varepsilon_m^3 + \varepsilon_m^4) + \\
++ |(b_y - a_y) (c_x - a_x)| \cdot (4 \varepsilon_m + 6 \varepsilon_m^2 + 4 \varepsilon_m^3 + \varepsilon_m^4) = \\
+= (|(b_x - a_x) (c_y - a_y)| + |(b_y - a_y) (c_x - a_x)|)(4 \varepsilon_m + 6 \varepsilon_m^2 + 4 \varepsilon_m^3 + \varepsilon_m^4)</tex>
-<tex> v \approx \tilde{v} </tex>
+Пусть <tex> t = (|(b_x - a_x) (c_y - a_y)| + |(b_y - a_y) (c_x - a_x)|).</tex> Получаем, что
-<tex> e = (|(b_x - a_x) (c_y - a_y)| + |(b_y - a_y) (c_x - a_x)|) </tex>
+<tex> \epsilon = |v - \tilde{v}| \leq t \cdot (4 \varepsilon_m + 6 \varepsilon_m^2 + 4 \varepsilon_m^3 + \varepsilon_m^4). </tex>
-<tex> \epsilon = |v - \tilde{v}| \leq e \times (4 \varepsilon_m + 6 \varepsilon_m^2 + 4 \varepsilon_m^3 + \varepsilon_m^4) </tex>
+<tex>\tilde {t} = (|(b_x - a_x) (c_y - a_y) (1 + \delta_1) (1 + \delta_2) (1 + \delta_3)| + \\
++ |(b_y - a_y) (c_x - a_x) (1 + \delta_4) (1 + \delta_5) (1 + \delta_6)|) (1 + \delta_7) \geq \\
+\geq |(b_x - a_x) (c_y - a_y) (1 - \varepsilon_m)^3)|(1 - \varepsilon_m) + \\
++ |(b_y - a_y) (c_x - a_x) (1 - \varepsilon_m)^3)|(1 - \varepsilon_m) = \\
+= |(b_x - a_x) (c_y - a_y)| (1 - \varepsilon_m)^4 + |(b_y - a_y) (c_x - a_x)| (1 - \varepsilon_m)^4 = \\
+= (|(b_x - a_x) (c_y - a_y)| + |(b_y - a_y) (c_x - a_x)|) (1 - \varepsilon_m)^4 = t \cdot (1 - \varepsilon_m)^4</tex>
-<tex> e (1 - \varepsilon)^4 \leq |(b_x - a_x) \times (c_y - a_y) - (b_y - a_y) \times (c_x - a_x)| </tex>
+Итого:
-<tex> e \leq \tilde{e} \frac{1}{(1 - \varepsilon_m)^4} = \tilde{e} (1 + 4 \varepsilon_m + 10 \varepsilon_m^2 + 20 \varepsilon_m^3 + \cdots) </tex>
+<tex> t \leq \tilde{t} \frac{1}{(1 - \varepsilon_m)^4} = \tilde{t} (1 + 4 \varepsilon_m + 10 \varepsilon_m^2 + 20 \varepsilon_m^3 + \cdots) </tex>
-<tex> \epsilon \leq \tilde{\epsilon} \leq \tilde{\epsilon} (1 +  4 \varepsilon_m + 10 \varepsilon_m^2 + 20 \varepsilon_m^3 + \cdots) (4 \varepsilon_m + 6 \varepsilon_m^2 + 4 \varepsilon_m^3 + \varepsilon_m^4) </tex>
+<tex> \epsilon = |v - \tilde{v}| \leq \tilde{\epsilon} \leq \tilde{t} (1 +  4 \varepsilon_m + 10 \varepsilon_m^2 + 20 \varepsilon_m^3 + \cdots) (4 \varepsilon_m + 6 \varepsilon_m^2 + 4 \varepsilon_m^3 + \varepsilon_m^4) </tex>
 === Ответ ===
-<tex dpi="180"> \tilde{\epsilon} < 8 \varepsilon_m \tilde{\epsilon} </tex>
+<tex dpi="180"> \tilde{\epsilon} < 8 \varepsilon_m \tilde{t} </tex>
+Заметим, что это довольно грубая оценка. Вполне можно было бы написать <tex> \tilde{\epsilon} < 4.25 \varepsilon_m \tilde{t} </tex>
+или <tex> \tilde{\epsilon} < 4.5 \varepsilon_m \tilde{t}.</tex>
 == Ссылки ==
@@ Строка 325: / Строка 377: @@
 [http://citeseer.ist.psu.edu/viewdoc/download?doi=10.1.1.102.244&rep=rep1&type=pdf Goldberg, D. 1991 ''What every computer scientist should know about floating-point arithmetic'']<br>
 [http://grouper.ieee.org/groups/754 ieee.org ''IEEE 754'']<br>
+[http://en.wikipedia.org/wiki/Unit_in_the_last_place en.wikipedia.org ''Unit in the last place'']
 [http://neerc.ifmo.ru/mediawiki/index.php/%D0%9F%D1%80%D0%B5%D0%B4%D0%B8%D0%BA%D0%B0%D1%82_%22%D0%BB%D0%B5%D0%B2%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B2%D0%BE%D1%80%D0%BE%D1%82%22 neerc.ifmo.ru/mediawiki ''Предикат "левый поворот"'']
+[[Категория: Вычислительная геометрия]]

Представление чисел с плавающей точкой — различия между версиями

Текущая версия на 19:29, 4 сентября 2022

Плавающая точка

Нормальная и нормализованная формы

Числа двойной точности

Свойства чисел с плавающей точкой

Особые значения чисел с плавающей точкой

Ноль (со знаком)

Бесконечность (со знаком)

Неопределенность

Денормализованные числа

Машинная эпсилон

Unit in the last place (Unit of least precision)

Погрешность предиката "левый поворот"

Определения

Расчет [math] \tilde{\epsilon} [/math]

Ответ

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты