Представление вещественных чисел

Вещественные числа обычно представляются в виде чисел с плавающей запятой. Числа с плавающей запятой — один из возможных способов предсталения действительных чисел, который является компромиссом между точностью и диапазоном принимаемых значений, его можно считать аналогом экспоненциальной записи чисел, но только в памяти компьютера.

Число с плавающей запятой состоит из набора отдельных двоичных разрядов, условно разделенных на так называемые знак, порядок и мантиссу. В наиболее распространённом формате (стандарт IEEE 754) число с плавающей запятой представляется в виде набора битов, часть из которых кодирует собой мантиссу числа, другая часть — показатель степени, и ещё один бит используется для указания знака числа, 0 - если число положительное, 1 - если число отрицательное. Вот пример такого числа из 16 двоичных разрядов:

Знак
	Порядок					Мантисса
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
	14		10			9					0

Знак - один бит, указывающий знак всего числа с плавающей точкой. Порядок и мантисса — целые числа, которые вместе со знаком дают представление числа с плавающей запятой в следующем виде:

[math](-1)^s \times M \times B^E[/math], где s — знак, B-основание, E — порядок, а M — мантисса.

Порядок также иногда называют экспонентой или просто показателем степени.

Определение:

Плавающая запятая — форма представления дробных чисел, в которой число хранится в форме мантиссы и показателя степени.

При этом лишь некоторые из вещественных чисел могут быть представлены в памяти компьютера точным значением, в то время как остальные числа представляются приближёнными значениями. Попробуйте, скажем, перевести число [math]0.2[/math] в двоичную систему счисления - получится бесконечная запись [math]0,(0011)[/math]

Нормальная и нормализованная форма

Нормальной формой числа с плавающей запятой называется такая форма, в которой мантисса (без учёта знака) в десятичной системе находится на полуинтервале [0; 1). Такая форма записи имеет недостаток: некоторые числа записываются неоднозначно (например, 0,0001 можно записать в 4 формах — 0,0001×10⁰, 0,001×10⁻¹, 0,01×10⁻², 0,1×10⁻³), поэтому распространена также другая форма записи — нормализованная, в которой мантисса десятичного числа принимает значения от 1 (включительно) до 10 (не включительно), а мантисса двоичного числа принимает значения от 1 (включительно) до 2 (не включительно). То есть в мантиссе слева от запятой до применения порядка находится ровно один знак. В такой форме любое число (кроме 0) записывается единственным образом. Ноль же представить таким образом невозможно, поэтому стандарт предусматривает специальную последовательность битов для задания числа 0 (а заодно и некоторых других полезных чисел, таких как [math]-\infty[/math] и [math]+\infty[/math]). Так как старший двоичный разряд (целая часть) мантиссы двоичного числа в нормализованном виде всегда равен «1», то его можно не записывать, сэкономив таким образом один бит, что и используется в стандарте IEEE 754. В позиционных системах счисления с основанием большим, чем 2 (в троичной, четверичной и др.), этого замечательного свойства нет (ведь целая часть там может быть не только единицей).

Знак
	Порядок					Мантисса
0	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0
	14		10				9					0

Типы чисел с плавающей точкой (по IEEE 754)

Число половинной точности (Binary16, Half precision)

Число́ полови́нной то́чности — компьютерный формат представления чисел, занимающий в памяти половину машинного слова (в случае 32-битного компьютера — 16 бит или 2 байта). В силу невысокой точности этот формат представления чисел с плавающей запятой обычно используется в видеокартах, где небольшой размер и высокая скорость работы важнее точности вычислений.

Знак
	Порядок					Мантисса
0	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0
	14			10			9						0

Порядок записан со сдвигом -15. Это означает, что если дан порядок 01101₂ то он на самом деле равен не 13, а -2 (потому как [math]13-15=-2[/math]).

Ограничения точности

Целые от нуля до 2048 передаются как есть.
Целые от 2049 до 4096 округляются к ближайшему чётному целому.
Целые от 4097 до 8192 округляются до ближайшего целого, делящегося нацело на 4.
Целые от 8193 до 16384 округляются до ближайшего целого, делящегося на 8.
Целые от 16385 до 32768 округляются до ближайшего целого, делящегося на 16.
Целые от 32769 до 65535 округляются до ближайшего целого, делящегося на 32.

Число одинарной точности (Binary32, Single precision, float)

Число́ одина́рной то́чности — компьютерный формат представления чисел, занимающий в памяти одно машинное слово (в случае 32-битного компьютера — 32 бита или 4 байта). Используется для работы с вещественными числами везде, где не нужна очень высокая точность.

Знак
	Порядок (8 бит)								Мантисса (24+1 бита)
0	0	0	0	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
	30				24					23																				0

Порядок записан со сдвигом -127.

Число двойной точности (Binary64, Double precision, double)

Число́ двойно́й то́чности — компьютерный формат представления чисел, занимающий в памяти два машинных слова (в случае 32-битного компьютера — 64 бита или 8 байт). Часто используется благодаря своей неплохой точности, даже не смотря на двойной расход памяти и сетевого трафика относительно чисел одинарной точности.

Знак
	Порядок (11 бит)											Мантисса (52+1 бит)
0	0	0	0	0	0	0	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
	62				52								51																																																0

Порядок записан со сдвигом -1023.

Число четверной точности (Binary128, Quadruple precision)

Число́ четверно́й то́чности — компьютерный формат представления чисел, занимающий в памяти четыре машинных слова (в случае 32-битного компьютера — 128 бит или 16 байт). Используется в случае необходимости крайне высокой точности.

Знак
	Порядок (15 бит)															Мантисса (112+1 бит)
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
	126								112								111

Мантисса (112+1 бит)
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
0

Порядок записан со сдвигом -16383.

Обычно этот формат реализуется программно, случаи аппаратной реализации крайне редки. Также не гарантируется поддержка этого типа в языках программирования, хотя кое-где она и реализована (например, компилятор gcc для архитектуры x86 позволяет использовать тип __float128, являющийся программной реализацией числа с четверной точностью). В совокупности эти факторы делают Quadruple весьма экзотичным и редко встречающимся форматом чисел с плавающей запятой.

Особые значения чисел с плавающей точкой

Ноль (со знаком)

Как уже было оговорено выше, в нормализованной форме числа с плавающей точкой невозможно представить ноль. Поэтому для его представления зарезервированы специальные значения мантиссы и порядка. Число считается нулевым, если все биты порядка равны нулю и все биты мантиссы равны нулю. При этом в зависимости от значения одного бита знака ноль может быть быть как положительным, так и отрицательным.

Знак
	Порядок					Мантисса
⁰/₁	0	0	0	0	0	1,	0	0	0	0	0	0	0	0	0	0	= [math]\pm0[/math]
	14		10				9					0

Зачем нужен ноль со знаком?
Знак у нуля был оставлен умышленно, хотя при сравнении согласно стандарту [math]-0 = +0[/math]. Сделано это для того, чтобы получать всегда как можно более корректный результат, даже если считаемое значение выйдет за нижнюю или верхнюю границу точности (обернется в [math]0[/math] или [math]\infty[/math]). Кроме того, такой подход в некоторой мере отражает особенности, возникающие в математическом анализе, где, скажем, функция может стремиться к нулю "сверху" или "снизу". Также ноль со знаком находит применение в статистической механике и некоторых других дисциплинах.

Арифметика нуля со знаком
Арифметика отрицательного нуля аналогична таковой для любого отрицательного числа и понятна интуитивно. Вот несколько примеров:

(если [math]x\ne0[/math])

[math](-0) \cdot (-0) = +0\,\![/math]

[math]x + (\pm 0) = x\,\![/math]

[math](-0) + (-0) = -0\,\![/math]

[math](+0) + (+0) = +0\,\![/math]

(если [math]x\ne0[/math])

Неопределенность (NaN)

NaN - это аббревиатура от фразы 'not a number'. Специальное представление, этакое псевдочисло, придуманное для того, чтобы арифметическая операция могла всегда вернуть какое-то не бессмысленное значение. В IEEE 754 NaN представлен как число, в котором все двоичные разряды порядка - единицы, а мантисса не нулевая.

Знак
	Порядок					Мантисса
⁰/₁	1	1	1	1	1	1,	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	⁰/₁	= [math]NaN[/math]
	14		10				9					0

Любая операция с NaN возвращает NaN. При желании в мантиссу можно записывать информацию, которую программа сможет интерпретировать. Стандартом это не оговорено и мантисса чаще всего игнорируется.

Как можно получить NaN?

[math]\infty+(-\infty)= NaN[/math]
[math]0\times\infty= NaN[/math]
[math]\sqrt{x} = NaN[/math], где [math]x\lt 0[/math]

Есть и другие способы получить NaN, подробности можно найти по ссылкам в соответствующем разделе.

По определению NaN ≠ NaN, поэтому, для проверки значения переменной нужно просто сравнить ее с собой.

Диапазон значений чисел с плавающей запятой

Диапазон чисел, которые можно записать данным способом, зависит от количества бит, отведённых для представления мантиссы и показателя. Пара значений показателя (когда все разряды нули и когда все разряды единицы) зарезервирована для обеспечения возможности представления специальных чисел. К ним относятся ноль, значения NaN (Not a Number, "не число", получается как результат операций типа деления нуля на ноль) и [math]\pm\infty[/math].

Название (IEEE 754)	Тип (C)	Диапазон	Биты мантиссы	Биты
Half precision	Нет	6,10×10^-5..65504	10+1	16
Single precision	float	3,4×10^-38..3,4×10³⁸	23+1	32
Double precision	double	1,7×10^-308..1,7×10³⁰⁸	52+1	64
Extended precision	Нет, иногда long double	3,4×10^-4932..3,4×10⁴⁹³²	64+1	80

Действия с числами с плавающей запятой

Алгоритм получения представления вещественного числа в памяти ЭВМ

Покажем преобразование действительного числа для представления его в памяти ЭВМ на примере величины типа Double.

Как видно из таблицы, величина это типа занимает в памяти 8 байт. На рисунке ниже показано, как здесь представлены поля мантиссы и порядка (нумерация битов осуществляется справа налево):

S	Смещенный порядок	Мантисса
63	62..52	51..0

Можно заметить, что старший бит, отведенный под мантиссу, имеет номер 51, т.е. мантисса занимает младшие 52 бита. Черта указывает здесь на положение двоичной запятой. Перед запятой должен стоять бит целой части мантиссы, но поскольку она всегда равна 1, здесь данный бит не требуется и соответствующий разряд отсутствует в памяти (но он подразумевается). Значение порядка хранится здесь не как целое число, представленное в дополнительном коде. Для упрощения вычислений и сравнения действительных чисел значение порядка в ЭВМ хранится в виде смещенного числа, т.е. к настоящему значению порядка перед записью его в память прибавляется смещение. Смещение выбирается так, чтобы минимальному значению порядка соответствовал нуль. Например, для типа Double порядок занимает 11 бит и имеет диапазон от 2^-1023 до 2¹⁰²³, поэтому смещение равно 1023₍₁₀₎ = 1111111111₍₂₎. Наконец, бит с номером 63 указывает на знак числа.

Таким образом, из вышесказанного вытекает следующий алгоритм для получения представления действительного числа в памяти ЭВМ:

перевести модуль данного числа в двоичную систему счисления;
нормализовать двоичное число, т.е. записать в виде M × 2^p, где M  мантисса (ее целая часть равна 1₍₂₎) и p  порядок, записанный в десятичной системе счисления;
прибавить к порядку смещение и перевести смещенный порядок в двоичную систему счисления;
учитывая знак заданного числа (0  положительное; 1  отрицательное), выписать его представление в памяти ЭВМ.

Пример. Запишем код числа -312,3125.

Двоичная запись модуля этого числа имеет вид 100111000,0101.
Имеем 100111000,0101 = 1,001110000101 × 2⁸.
Получаем смещенный порядок 8 + 1023 = 1031. Далее имеем 1031₍₁₀₎ = 10000000111₍₂₎.
Окончательно

1 10000000111 0011100001010000000000000000000000000000000000000000

63 62..52 51..0

Очевидно, что более компактно полученный код стоит записать следующим образом: C073850000000000₍₁₆₎.

Другой пример иллюстрирует обратный переход от кода действительного числа к самому числу.

Пример. Пусть дан код 3FEC600000000000₍₁₆₎ или

0	01111111110	1100011000000000000000000000000000000000000000000000
63	62..52	51..0

Прежде всего замечаем, что это код положительного числа, поскольку в разряде с номером 63 записан нуль. Получим порядок этого числа: 01111111110₍₂₎ = 1022₍₁₀₎; 1022 - 1023 = -1.
Число имеет вид 1,1100011 × 2^-1 или 0,11100011.
Переводом в десятичную систему счисления получаем 0,88671875.

Ссылки

Представление вещественных чисел

Нормальная и нормализованная форма

Типы чисел с плавающей точкой (по IEEE 754)

Число половинной точности (Binary16, Half precision)

Число одинарной точности (Binary32, Single precision, float)

Число двойной точности (Binary64, Double precision, double)

Число четверной точности (Binary128, Quadruple precision)

Особые значения чисел с плавающей точкой

Ноль (со знаком)

Неопределенность (NaN)

Диапазон значений чисел с плавающей запятой

Действия с числами с плавающей запятой

Алгоритм получения представления вещественного числа в памяти ЭВМ

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты

Мантисса (112+1 бит)
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
0

1	10000000111	0011100001010000000000000000000000000000000000000000
63	62..52	51..0

Мантисса (112+1 бит)
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
0

Мантисса (112+1 бит)
0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
0