Представление вещественных чисел — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Внес косметические улучшения, сделал несколько перекрестных ссылок)
м (rollbackEdits.php mass rollback)
 
(не показаны 42 промежуточные версии 15 участников)
Строка 1: Строка 1:
Вещественные числа обычно представляются в виде чисел с плавающей запятой. Числа с плавающей запятой — один из возможных способов предсталения действительных чисел, который является компромиссом между точностью и диапазоном принимаемых значений, его можно считать аналогом экспоненциальной записи чисел, но только в памяти компьютера.
+
Вещественные числа обычно представляются в виде чисел с плавающей запятой. Числа с плавающей запятой — один из возможных способов представления действительных чисел, который является компромиссом между точностью и диапазоном принимаемых значений, его можно считать аналогом экспоненциальной записи чисел, но только в памяти компьютера.
  
Число с плавающей запятой состоит из набора отдельных двоичных разрядов, условно разделенных на так называемые '''знак''', '''порядок''' и '''мантиссу'''. В наиболее распространённом формате (стандарт IEEE 754) число с плавающей запятой представляется в виде набора битов, часть из которых кодирует собой мантиссу числа, другая часть — показатель степени, и ещё один бит используется для указания знака числа (0 - если число положительное, 1 - если число отрицательное). При этом порядок записывается как целое число в [[Представление целых чисел: прямой код, код со сдвигом, дополнительный код|коде со сдвигом]], а мантисса - в [[#Нормальная и нормализованная форма|нормализованном виде]], своей дробной частью в двоичной системе счисления. Вот пример такого числа из 16 двоичных разрядов:
+
Число с плавающей запятой состоит из набора отдельных двоичных разрядов, условно разделенных на так называемые '''знак''' (англ.'' sign''), '''порядок''' (англ. ''exponent'') и '''мантиссу''' (англ. ''mantis''). В наиболее распространённом формате (стандарт IEEE 754) число с плавающей запятой представляется в виде набора битов, часть из которых кодирует собой мантиссу числа, другая часть — показатель степени, и ещё один бит используется для указания знака числа (<tex>0</tex> {{---}} если число положительное, <tex>1</tex> {{---}} если число отрицательное). При этом порядок записывается как целое число в [[Представление целых чисел: прямой код, код со сдвигом, дополнительный код|коде со сдвигом]], а мантисса {{---}} в [[#Нормальная и нормализованная форма|нормализованном виде]], своей дробной частью в двоичной системе счисления. Вот пример такого числа из <tex>16</tex> двоичных разрядов:
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
|-
 
|-
Строка 35: Строка 35:
 
|}
 
|}
  
Знак - один бит, указывающий знак всего числа с плавающей точкой. Порядок и мантисса — целые числа, которые вместе со знаком дают представление числа с плавающей запятой в следующем виде:
+
Знак {{---}} один бит, указывающий знак всего числа с плавающей точкой. Порядок и мантисса — целые числа, которые вместе со знаком дают представление числа с плавающей запятой в следующем виде:
  
<tex>(-1)^s \times M \times B^E</tex>, где s — знак, B-основание, E порядок, а M мантисса.
+
<tex>(-1)^S \times M \times B^E</tex>, где <tex>S</tex> {{---}} знак, <tex>B</tex> {{---}} основание, <tex>E</tex> {{---}} порядок, а <tex>M</tex> {{---}} мантисса.
 +
Десятичное число, записываемое как <tex> ReE</tex>, где <tex>R</tex> {{---}} число в полуинтервале <tex>[1; 10)</tex>, <tex>E</tex> {{---}} степень, в которой стоит множитель <tex>10</tex>; в нормализированной форме модуль <tex>R</tex> будет являться мантиссой, а <tex>E</tex> {{---}} порядком, а <tex>S</tex> будет равно <tex>1</tex> тогда и только тогда, когда <tex>R</tex> принимает отрицательное значение.
 +
Например, в числе <tex>-2435e9</tex>
 +
* <tex>S</tex> <tex>=</tex> <tex>1</tex>
 +
* <tex>B</tex> <tex>=</tex> <tex>10</tex>
 +
* <tex>M</tex> <tex>=</tex> <tex>2435</tex>
 +
* <tex>E</tex> <tex>=</tex> <tex>9</tex>
  
 
Порядок также иногда называют '''экспонентой''' или просто '''показателем степени'''.
 
Порядок также иногда называют '''экспонентой''' или просто '''показателем степени'''.
  
 
<!-- TODO:Абзац ниже нужно перенести в раздел с проблемами чисел -->
 
<!-- TODO:Абзац ниже нужно перенести в раздел с проблемами чисел -->
При этом лишь некоторые из вещественных чисел могут быть представлены в памяти компьютера точным значением, в то время как остальные числа представляются приближёнными значениями. Попробуйте, скажем, перевести число <tex>0.2</tex> в двоичную систему счисления - получится бесконечная запись <tex>0,(0011)</tex>
+
При этом лишь некоторые из вещественных чисел могут быть представлены в памяти компьютера точным значением, в то время как остальные числа представляются приближёнными значениями.
  
 +
Более простым вариантом представления вещественных чисел является вариант с фиксированной точкой, когда целая и вещественная части хранятся отдельно. Например, на целую часть отводится всегда <tex>X</tex> бит и на дробную отводится всегда <tex>Y</tex> бит. Такой способ в архитектурах процессоров не присутствует. Отдаётся предпочтение числам с плавающей запятой, как компромиссу между диапазоном допустимых значений и точностью.
  
 
== Нормальная и нормализованная форма ==
 
== Нормальная и нормализованная форма ==
  
'''Нормальной формой''' числа с плавающей запятой называется такая форма, в которой мантисса (без учёта знака) в десятичной системе находится на полуинтервале [0; 1). Такая форма записи имеет недостаток: некоторые числа записываются неоднозначно (например, 0,0001 можно записать в 4 формах — 0,0001×10<sup>0</sup>, 0,001×10<sup>−1</sup>, 0,01×10<sup>−2</sup>, 0,1×10<sup>−3</sup>), поэтому распространена также другая форма записи — '''нормализованная''', в которой мантисса десятичного числа принимает значения от 1 (включительно) до 10 (не включительно), а мантисса двоичного числа принимает значения от 1 (включительно) до 2 (не включительно). То есть в мантиссе слева от запятой до применения порядка находится ровно один знак. В такой форме любое число (кроме 0) записывается единственным образом. Ноль же представить таким образом невозможно, поэтому стандарт предусматривает специальную последовательность битов для задания числа 0 (а заодно и некоторых других [[#Особые значения чисел с плавающей точкой|полезных чисел]], таких как <tex>-\infty</tex> и <tex>+\infty</tex>).
+
'''Нормальной формой''' (англ. ''normal form'') числа с плавающей запятой называется такая форма, в которой мантисса (без учёта знака) в десятичной системе находится на полуинтервале <tex>[0; 1)</tex>. Такая форма записи имеет недостаток: некоторые числа записываются неоднозначно (например, <tex>0{,}0001</tex> можно записать в 4 формах — <tex>0{,}0001 \times 10</tex><sup><tex>0</tex></sup>, <tex>0{,}001 \times 10</tex><sup><tex>−1</tex></sup>, <tex>0{,}01 \times 10</tex><sup><tex>−2</tex></sup>, <tex>0{,}1 \times 10</tex><sup><tex>−3</tex></sup>), поэтому распространена также другая форма записи — '''нормализованная''' (англ. ''normalized''), в которой мантисса десятичного числа принимает значения от <tex>1</tex> (включительно) до <tex>10</tex> (не включительно), а мантисса двоичного числа принимает значения от <tex>1</tex> (включительно) до <tex>2</tex> (не включительно). То есть в мантиссе слева от запятой до применения порядка находится ровно один знак. В такой форме любое число (кроме <tex>0</tex>) записывается единственным образом. Ноль же представить таким образом невозможно, поэтому стандарт предусматривает специальную последовательность битов для задания числа <tex>0</tex> (а заодно и некоторых других [[#Особые значения чисел с плавающей точкой|полезных чисел]], таких как <tex>-\infty</tex> и <tex>+\infty</tex>).
Так как старший двоичный разряд (целая часть) мантиссы вещественного числа в нормализованном виде всегда равен «1», то его можно не записывать, сэкономив таким образом один бит, что и используется в стандарте IEEE 754. В позиционных системах счисления с основанием большим, чем 2 (в троичной, четверичной и др.), этого замечательного свойства нет (ведь целая часть там может быть не только единицей).
+
Так как старший двоичный разряд (целая часть) мантиссы вещественного числа в нормализованном виде всегда равен «<tex>1</tex>», то его можно не записывать, сэкономив таким образом один бит, что и используется в стандарте IEEE 754. В позиционных системах счисления с основанием большим, чем <tex>2</tex> (в троичной, четверичной и др.), этого замечательного свойства нет (ведь целая часть там может быть не только единицей).
{|class="wikitable" style="border-collapse: collapse; border: none"
 
|-
 
!colspan=5 style="background-color: powderblue; border: thin solid black; border-bottom: none"|Знак
 
|-
 
!style="background-color: powderblue; border: thin solid black; border-top: none"|
 
!colspan=5 style="background-color: lightgreen; border: thin solid black"|Порядок
 
!colspan=11 style="background-color: lightcoral; border: thin solid black"|Мантисса
 
|-style="text-align: right"
 
!style="background-color: powderblue; border: thin solid black"|0
 
!style="background-color: lightgreen; border: thin solid black"|0
 
!style="background-color: lightgreen; border: thin solid black"|0
 
!style="background-color: lightgreen; border: thin solid black"|0
 
!style="background-color: lightgreen; border: thin solid black"|0
 
!style="background-color: lightgreen; border: thin solid black"|0
 
!style="border: none"|1,
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
<!-- 8 бит -->
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
!style="background-color: lightcoral; border: thin solid black"|0
 
|-
 
|style="border: none"|
 
|colspan=2 style="border: none; border-left: 1px solid gray; text-align: left"|14
 
|colspan=3 style="border: none; border-right: 1px solid gray; text-align: right"|10
 
|style="border: none"|
 
|colspan=5 style="border: none; border-left: 1px solid gray; text-align: left"|9
 
|colspan=5 style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|}
 
 
 
  
 
== Типы чисел с плавающей точкой (по IEEE 754) ==
 
== Типы чисел с плавающей точкой (по IEEE 754) ==
 
=== Число половинной точности (''Binary16'', ''Half precision'') ===
 
=== Число половинной точности (''Binary16'', ''Half precision'') ===
  
'''Число́ полови́нной то́чности'''  — компьютерный формат представления чисел, занимающий в памяти половину машинного слова (в случае 32-битного компьютера — 16 бит или 2 байта). В силу невысокой точности этот формат представления чисел с плавающей запятой обычно используется в видеокартах, где небольшой размер и высокая скорость работы важнее точности вычислений.
+
'''Число́ полови́нной то́чности'''  — компьютерный формат представления чисел, занимающий в памяти половину машинного слова (в случае 32-битного компьютера — <tex>16</tex> бит или <tex>2</tex> байта). В силу невысокой точности этот формат представления чисел с плавающей запятой обычно используется в видеокартах, где небольшой размер и высокая скорость работы важнее точности вычислений.
  
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
{|class="wikitable" style="border-collapse: collapse; border: none"
Строка 123: Строка 95:
 
|colspan=4 style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|colspan=4 style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|}
 
|}
Порядок записан [[Представление целых чисел: прямой код, код со сдвигом, дополнительный код|со сдвигом]] '''-15'''. Это означает, что если дан порядок 01101<sub>2</sub> то он на самом деле равен не 13, а -2 (потому как <tex>13-15=-2</tex>).  
+
Порядок записан [[Представление целых чисел: прямой код, код со сдвигом, дополнительный код|со сдвигом]] '''<tex>-15</tex>'''. То есть чтобы получить актуально значение порядка нужно вычесть из него сдвиг. Сдвиг можно получить по формуле <tex>2^{b-1}-1</tex>, где <tex>b</tex> {{---}} число бит, отведенное на хранение порядка (в случае числа половинной точности <tex>b=5</tex>).
  
 
'''Ограничения точности'''
 
'''Ограничения точности'''
* Целые от нуля до 2048 передаются как есть.
+
* Целые от нуля до <tex>2048</tex> передаются как есть.
* Целые от 2049 до 4096 округляются к ближайшему чётному целому.
+
* Целые от <tex>2049</tex> до <tex>4096</tex> округляются к ближайшему чётному целому.
* Целые от 4097 до 8192 округляются до ближайшего целого, делящегося нацело на 4.
+
* Целые от <tex>4097</tex> до <tex>8192</tex> округляются до ближайшего целого, делящегося нацело на четыре.
* Целые от 8193 до 16384 округляются до ближайшего целого, делящегося на 8.
+
* Целые от <tex>8193</tex> до <tex>16384</tex> округляются до ближайшего целого, делящегося на восемь.
* Целые от 16385 до 32768 округляются до ближайшего целого, делящегося на 16.
+
* Целые от <tex>16385</tex> до <tex>32768</tex> округляются до ближайшего целого, делящегося на шестнадцать.
* Целые от 32769 до 65535 округляются до ближайшего целого, делящегося на 32.
+
* Целые от <tex>32769</tex> до <tex>65535</tex> округляются до ближайшего целого, делящегося на тридцать два.
  
  
 
=== Число одинарной точности (''Binary32'', ''Single precision'', ''float'') ===
 
=== Число одинарной точности (''Binary32'', ''Single precision'', ''float'') ===
  
'''Число́ одина́рной то́чности''' — компьютерный формат представления чисел, занимающий в памяти одно машинное слово (в случае 32-битного компьютера — 32 бита или 4 байта). Используется для работы с вещественными числами везде, где не нужна очень высокая точность.
+
'''Число́ одина́рной то́чности''' — компьютерный формат представления чисел, занимающий в памяти одно машинное слово (в случае 32-битного компьютера — <tex>32</tex> бита или <tex>4</tex> байта). Используется для работы с вещественными числами везде, где не нужна очень высокая точность.
  
 
{|class="wikitable" style="background-color: transparent; border-collapse: collapse; border: none"
 
{|class="wikitable" style="background-color: transparent; border-collapse: collapse; border: none"
Строка 144: Строка 116:
 
!style="background-color: powderblue; border: thin solid black; border-top: none"|
 
!style="background-color: powderblue; border: thin solid black; border-top: none"|
 
!colspan=8 style="background-color: lightgreen; border: thin solid black"|Порядок (8 бит)
 
!colspan=8 style="background-color: lightgreen; border: thin solid black"|Порядок (8 бит)
!colspan=24 style="background-color: lightcoral; border: thin solid black"|Мантисса (24+1 бита)
+
!colspan=24 style="background-color: lightcoral; border: thin solid black"|Мантисса (23+1 бита)
 
|-style="text-align: right"
 
|-style="text-align: right"
 
!style="background-color: powderblue; border: thin solid black"|0
 
!style="background-color: powderblue; border: thin solid black"|0
Строка 183: Строка 155:
 
|style="border: none"|  
 
|style="border: none"|  
 
|colspan=4  style="border: none; border-left: 1px solid gray; text-align: left"|30
 
|colspan=4  style="border: none; border-left: 1px solid gray; text-align: left"|30
|colspan=4  style="border: none; border-right: 1px solid gray; text-align: right"|24
+
|colspan=4  style="border: none; border-right: 1px solid gray; text-align: right"|23
 
|style="border: none"|  
 
|style="border: none"|  
|colspan=20 style="border: none; border-left: 1px solid gray; text-align: left"|23
+
|colspan=20 style="border: none; border-left: 1px solid gray; text-align: left"|22
 
|colspan=3  style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|colspan=3  style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|}
 
|}
Порядок записан со сдвигом '''-127'''.
+
Порядок записан со сдвигом '''<tex>-127</tex>'''.  
  
  
Строка 194: Строка 166:
  
 
'''Число́ двойно́й то́чности''' —  
 
'''Число́ двойно́й то́чности''' —  
компьютерный формат представления чисел, занимающий в памяти два машинных слова (в случае 32-битного компьютера — 64 бита или 8 байт). Часто используется благодаря своей неплохой точности, даже не смотря на двойной расход памяти и сетевого трафика относительно чисел одинарной точности.
+
компьютерный формат представления чисел, занимающий в памяти два машинных слова (в случае 32-битного компьютера — <tex>64</tex> бита или <tex>8</tex> байт). Часто используется благодаря своей неплохой точности, даже несмотря на двойной расход памяти и сетевого трафика относительно чисел одинарной точности.
  
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
{|class="wikitable" style="border-collapse: collapse; border: none"
Строка 277: Строка 249:
 
|colspan=4  style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|colspan=4  style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|}
 
|}
Порядок записан со сдвигом '''-1023'''.
+
Порядок записан со сдвигом '''<tex>-1023</tex>'''.
 
 
  
 
=== Число четверной точности (''Binary128'', ''Quadruple precision'') ===
 
=== Число четверной точности (''Binary128'', ''Quadruple precision'') ===
  
 
'''Число́ четверно́й то́чности''' —  
 
'''Число́ четверно́й то́чности''' —  
компьютерный формат представления чисел, занимающий в памяти четыре машинных слова (в случае 32-битного компьютера — 128 бит или 16 байт). Используется в случае необходимости крайне высокой точности.
+
компьютерный формат представления чисел, занимающий в памяти четыре машинных слова (в случае 32-битного компьютера — <tex>128</tex> бит или <tex>16</tex> байт). Используется в случае необходимости крайне высокой точности.
  
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
{|class="wikitable" style="border-collapse: collapse; border: none"
Строка 437: Строка 408:
 
|colspan=66  style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|colspan=66  style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|}
 
|}
Порядок записан со сдвигом '''-16383'''.
+
Порядок записан со сдвигом '''<tex>-16383</tex>'''.
  
 
Обычно этот формат реализуется программно, случаи аппаратной реализации крайне редки. Также не гарантируется поддержка этого типа в языках программирования, хотя кое-где она и реализована (например, компилятор gcc для архитектуры x86 позволяет использовать тип __float128, являющийся программной реализацией числа с четверной точностью).
 
Обычно этот формат реализуется программно, случаи аппаратной реализации крайне редки. Также не гарантируется поддержка этого типа в языках программирования, хотя кое-где она и реализована (например, компилятор gcc для архитектуры x86 позволяет использовать тип __float128, являющийся программной реализацией числа с четверной точностью).
 
В совокупности эти факторы делают Quadruple весьма экзотичным и редко встречающимся форматом чисел с плавающей запятой.
 
В совокупности эти факторы делают Quadruple весьма экзотичным и редко встречающимся форматом чисел с плавающей запятой.
  
 +
 +
=== Диапазон значений чисел с плавающей запятой ===
 +
Диапазон чисел, которые можно записать данным способом, зависит от количества бит, отведённых для представления мантиссы и показателя. Пара значений показателя (когда все разряды нули и когда все разряды единицы) зарезервирована для обеспечения возможности представления специальных чисел. К ним относятся ноль, значения NaN (Not a Number, "не число", получается как результат операций типа деления нуля на ноль) и <tex>\pm\infty</tex>.
 +
 +
Данная таблица только лишь примерно указывает границы допустимых значений, без учета возрастающей погрешности с ростом абсолютного значения и существования [[#Денормализованные числа|денормализованных чисел]].
 +
 +
<!-- TODO: Выкинуть нафиг эту бессмысленную таблицу, переписать весь раздел, привести распределение значений и формулу для подсчета их количества -->
 +
{| class="wikitable"
 +
!Название в IEEE 754|| Название типа переменной в Си || Диапазон значений || Бит в мантиссе || Бит на переменную
 +
|-
 +
|Half precision||-||6,10&times;10<sup>-5</sup>..65504||11||16
 +
|-
 +
|Single presicion||float||-3,4&times;10<sup>38</sup>..3,4&times;10<sup>38</sup>||23||32
 +
|-
 +
|Double precision||double||-1,7&times;10<sup>308</sup>..1,7&times;10<sup>308</sup>||53||64
 +
|-
 +
|Extended precision||На некоторых архитектурах (например в сопроцессоре Intel) long double||-3,4&times;10<sup>4932</sup>..3,4&times;10<sup>4932||65||80
 +
|}
  
 
== Особые значения чисел с плавающей точкой ==
 
== Особые значения чисел с плавающей точкой ==
 
=== Ноль (со знаком) ===
 
=== Ноль (со знаком) ===
Как уже было оговорено выше, в нормализованной форме числа с плавающей точкой невозможно представить ноль. Поэтому для его представления зарезервированы специальные значения мантиссы и порядка. Число считается нулевым, если все биты порядка равны нулю и все биты мантиссы равны нулю. При этом в зависимости от значения одного бита знака ноль может быть быть как положительным, так и отрицательным.   
+
Как уже было оговорено выше, в нормализованной форме числа с плавающей точкой невозможно представить ноль. Поэтому для его представления зарезервированы специальные значения мантиссы и порядка {{---}} число считается нулём, если все его биты, кроме знакового, равны нулю. При этом в зависимости от значения бита знака ноль может быть как положительным, так и отрицательным.   
  
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
{|class="wikitable" style="border-collapse: collapse; border: none"
Строка 482: Строка 471:
 
|colspan=5 style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|colspan=5 style="border: none; border-right: 1px solid gray; text-align: right"|0
 
|}
 
|}
 
'''Зачем нужен ноль со знаком?'''
 
<br/>
 
Знак у нуля был оставлен умышленно, хотя при сравнении согласно стандарту <tex>-0 = +0</tex>. Сделано это для того, чтобы получать всегда как можно более корректный результат, даже если считаемое значение выйдет за нижнюю или верхнюю границу точности (обернется в <tex>0</tex> или <tex>\infty</tex>). Кроме того, такой подход в некоторой мере отражает особенности, возникающие в математическом анализе, где, скажем, функция может стремиться к нулю "сверху" или "снизу". Также ноль со знаком находит применение в статистической механике и некоторых других дисциплинах.
 
 
  
 
'''Арифметика нуля со знаком'''
 
'''Арифметика нуля со знаком'''
Строка 507: Строка 491:
  
 
* <tex>\frac{\left|x\right|}{-0} = -\infty\,\!</tex>  (если <tex>x\ne0</tex>)
 
* <tex>\frac{\left|x\right|}{-0} = -\infty\,\!</tex>  (если <tex>x\ne0</tex>)
 
  
 
=== Неопределенность (''NaN'') ===
 
=== Неопределенность (''NaN'') ===
'''NaN''' - это аббревиатура от фразы "''not a number''". Специальное представление, этакое псевдочисло, придуманное для того, чтобы арифметическая операция могла всегда вернуть какое-то не бессмысленное значение. В IEEE 754 NaN представлен как число, в котором все двоичные разряды порядка - единицы, а мантисса не нулевая.
+
'''NaN''' {{---}} это аббревиатура от фразы "''not a number''". NaN является результатом арифметических операций, если во время их выполнения произошла ошибка (примеры см. ниже). В IEEE 754 NaN представлен как число, в котором все двоичные разряды порядка {{---}} единицы, а мантисса не нулевая.
  
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
{|class="wikitable" style="border-collapse: collapse; border: none"
Строка 557: Строка 540:
 
* <tex>0\times\infty= NaN</tex>
 
* <tex>0\times\infty= NaN</tex>
  
* <tex>\frac{\pm0}{\pm0}=\frac{\pm\infty}{\pm\infty} = NaN</tex>
+
* <tex>\frac{\pm0}{\pm0} = NaN</tex>
 +
 
 +
* <tex>\frac{\pm\infty}{\pm\infty} = NaN</tex>
  
 
* <tex>\sqrt{x} = NaN</tex>, где <tex>x<0</tex>
 
* <tex>\sqrt{x} = NaN</tex>, где <tex>x<0</tex>
Строка 568: Строка 553:
  
 
=== Бесконечности ===
 
=== Бесконечности ===
В число с плавающей запятой можно записать значение <tex>+\infty</tex> или <tex>-\infty</tex>. Как и нули со знаком, бесконечности позволяют получить хотя бы близкий к правильному результат вычисления в случае переполнения. Согласно стандарту IEEE 754 число с плавающей запятой считается равным бесконечности, если все двоичные разряды его порядка - единицы, а мантисса равна нулю. Знак бесконечности определяется знаковым битом числа.
+
В число с плавающей запятой можно записать значение <tex>+\infty</tex> или <tex>-\infty</tex>. Как и нули со знаком, бесконечности позволяют получить хотя бы близкий к правильному результат вычисления в случае переполнения. Согласно стандарту IEEE 754 число с плавающей запятой считается равным бесконечности, если все двоичные разряды его порядка {{---}} единицы, а мантисса равна нулю. Знак бесконечности определяется знаковым битом числа.
  
 
{|class="wikitable" style="border-collapse: collapse; border: none"
 
{|class="wikitable" style="border-collapse: collapse; border: none"
Строка 606: Строка 591:
 
|}
 
|}
  
Получить бесконечность можно при переполнении и при делении ненулевого числа на ноль. Бесконечность при делении разработчики определили исходя из существования пределов, когда делимое и делитель стремиться к какому-то числу. Соответственно, <tex>\frac{c}{0}=\pm\infty</tex> (например,  <tex>\frac{7}{0}=+\infty</tex>, а  <tex>\frac{-7}{0}=-\infty</tex>), так как если делимое стремиться к константе, а делитель к нулю, предел равен бесконечности. При  <tex>\frac{0}{0}</tex> предел не существует, поэтому результатом будет NaN.
+
Получить бесконечность можно при переполнении и при делении ненулевого числа на ноль. При этом
 +
<tex dpi = "180">
 +
\frac{x}{0}
 +
</tex>
 +
<tex>=
 +
\begin{cases}
 +
+\infty,&\text{если $x>0$;}\\
 +
NaN,&\text{если $x=0$;}\\
 +
-\infty,&\text{если $x<0$.}
 +
\end{cases}
  
 +
</tex>
  
== Диапазон значений чисел с плавающей запятой ==
+
=== Денормализованные числа ===
Диапазон чисел, которые можно записать данным способом, зависит от количества бит, отведённых для представления мантиссы и показателя. Пара значений показателя (когда все разряды нули и когда все разряды единицы) зарезервирована для обеспечения возможности представления специальных чисел. К ним относятся ноль, значения NaN (Not a Number, "не число", получается как результат операций типа деления нуля на ноль) и <tex>\pm\infty</tex>.
+
'''Денормализованные числа''' (англ. ''denormalized/subnormal numbers'') - это способ увеличить количество представимых числом с плавающей запятой значений около нуля, дабы повысить точность вычислений. Каждое значение денормализованного числа меньше самого маленького '''нормализованного''' ("обычного") значения числа с плавающей запятой.
 +
Согласно стандарту, если порядок равен своему минимальному значению (все его биты {{---}} нули, а истинное значение порядка равно его сдвигу) и все биты мантиссы равны нулю, то это <tex>\pm0</tex>. Если же мантисса не равна нулю, то это число с порядком, на единицу большим минимального (все биты порядка, кроме младшего {{---}} нули) и данной мантиссой, '''целая часть которой считается равной нулю, а не единице'''.
  
<!-- TODO: Выкинуть нафиг эту бессмысленную таблицу, переписать весь раздел, привести распределение значений и формулу для подсчета их количества -->
+
То есть число с плавающей запятой, при учете вышесказанного, можно задать следующим образом:
 +
<br/>
 +
* <tex>(-1)^s\times1,M\times2^E</tex>, если <tex>E_{min} \le E \le E_{max}</tex> (''нормализованное число'')
  
<center>
+
* <tex>(-1)^s\times0,M\times2^{E_{min}}</tex>, если <tex>E=E_{min}-1</tex> (''денормализованное число'')
  
<table border=1 CellSpacing="0" CellPadding="2">
+
Где <tex>s</tex> {{---}} бит знака, <tex>M</tex> {{---}} последовательность битов мантиссы, <tex>E</tex> {{---}} значение порядка (с учетом сдвига), <tex>E_{min}</tex> {{---}} минимальное значение порядка, используемое для записи чисел (1 {{---}} ''сдвиг'') , <tex>E_{min}-1</tex> {{---}} минимальное значение порядка, которое он в принципе может принять (все биты нули, 0 {{---}} ''сдвиг'').
  
<tr><th>Название (IEEE 754)</th><th>Тип (C)</th><th>Диапазон</th><th>Биты мантиссы</th><th>Биты</th></tr>
+
Хоть денормализованные числа и позволяют бороться с погрешностями и обрабатывать очень маленькие значения, за эти возможности приходится дорого платить. Ввиду сложности денормализованные числа крайне редко реализуют на аппаратном уровне - вместо этого используются программные реализации, работающие значительно медленнее. <br/>
  
<tr><td>Half precision</td><td>Нет</td><td>6,10&times;10<sup>-5</sup>..65504</td><td>10+1</td><td>16</td></tr>
+
В современных процессорах обработка денормализованных чисел происходит в десятки раз медленнее, чем обработка нормализованных чисел. Ниже приведена часть таблицы из статьи Isaac Dooley, Laxmikant Kale "Quantifying the Interference Caused by Subnormal Floating-Point Values"<ref>[http://charm.cs.uiuc.edu/papers/SubnormalOSIHPA06.pdf Статья Isaac Dooley, Laxmikant Kale "Quantifying the Interference Caused by Subnormal Floating-Point Values" ''(англ.)'']</ref>
  
<tr><td>Single precision</td><td>float</td><td>3,4&times;10<sup>-38</sup>..3,4&times;10<sup>38</sup></td><td>23+1</td><td>32</td></tr>
+
{| class="wikitable"
 +
!Производитель||Процессор||Замедление (разы)
 +
|-
 +
|IBM||PowerPC 970||2,4
 +
|-
 +
|AMD||Athlon||6,0
 +
|-
 +
|Intel||Pentium 3||15,8
 +
|-
 +
|AMD||Athlon 64||21,4
 +
|-
 +
|AMD||Opteron64||23,8
 +
|-
 +
|Intel||Core Duo||44,2
 +
|-
 +
|Intel||P4 Xeon||97,9
 +
|-
 +
|Intel||Pentium 4||131,0
 +
|-
 +
|Intel||Itanium 2||183,2
 +
|-
 +
|Sun||UltraSPARC IV||520,0
 +
|}
  
<tr><td>Double precision</td><td>double</td><td>1,7&times;10<sup>-308</sup>..1,7&times;10<sup>308</sup></td><td>52+1</td><td>64</td></tr>
+
В таблице приведены наихудшие результаты тестирования среди всех использованных компиляторов (gcc, icc, xlc) со всеми доступными флагами оптимизации. Исследователи утверждают, что различие среднего случая с худшим незначительно.
  
<tr><td>Extended precision</td><td>Нет, иногда long double</td><td>3,4&times;10<sup>-4932</sup>..3,4&times;10<sup>4932</sup></td><td>64+1</td><td>80</td></tr>
+
Поскольку в стандартных форматах (одинарной и двойной точности) денормализованные числа получаются действительно ''очень'' маленькими и практически никак не влияют на результат некоторых вычислений (при этом заметно замедляя их скорость), то иногда они просто игнорируются. При этом используются два простых механизма, получивших называние ''Flush-to-zero'' (''FTZ'') и ''Denormals-are-zero'' (''DAZ''). Первый механизм заставляет операции возвращать ноль, как только становится ясно, что результат будет денормализованным. Второй механизм заставляет операции рассматривать поступающие на вход денормализованные числа как нули. <br/>
 +
Ярким  примером подобного "отсечения" денормализованных чисел могут послужить видеокарты, в которых резкое падение скорости вычислений в сотню раз недопустимо. Так же, например, в областях, связанных с обработкой звука, нет нужды в очень маленьких числах, поскольку они представляют столь тихий звук, что его не способно воспринять человеческое ухо.
  
</table>
+
В версии стандарта IEEE 754-2008 денормализованные числа (''denormal'' или ''denormalized numbers'') были переименованы в ''subnormal numbers'', то есть в числа, меньшие "нормальных". Поэтому их иногда еще называют "'''субнормальными'''".
  
</center>
 
  
 +
== Действия с числами с плавающей запятой ==
 +
=== Умножение и деление ===
 +
Самыми простыми для восприятия арифметическими операциями над числами с плавающей запятой являются умножение и деление. Для того, чтобы умножить два вещественных числа в нормализованной форме необходимо перемножить их мантиссы, сложить порядки, округлить и нормализовать полученное число.
 +
<!--
 +
Пример:
  
== Денормализованные числа ==
+
  e=<tex>3</tex>;  m=<tex>4.734612</tex>        (порядок и мантисса первого числа)
'''Денормализованные числа''' (''denormalized\subnormal numbers'') - это способ увеличить количество представимых числом с плавающей запятой значений около нуля, дабы повысить точность вычислений. Каждое значение денормализованного числа меньше самого маленького '''нормализованного''' ("обычного") значения числа с плавающей запятой.
+
× e=<tex>5</tex>;  m=<tex>5.417242</tex>        (порядок и мантисса второго числа)
Согласно стандарту, если порядок равен своему минимальному значению (все его биты - нули, а порядок формально равен своему сдвигу) и все биты мантиссы равны нулю, то это <tex>\pm0</tex>. Если же мантисса не равна нулю, то это число с порядком, на единицу большим минимального (все биты порядка, кроме младшего - нули) и данной мантиссой, целая часть которой считается равной нулю, а не единице.
+
-----------------------
 +
  e=<tex>8</tex>;  m=<tex>25.648538980104</tex> (произведение как оно есть)
 +
  e=<tex>8</tex>;  m=<tex>25.64854</tex>        (мантисса после округления)
 +
  e=<tex>9</tex>;  m=<tex>2.564854</tex>        (нормализованная форма)
 +
-->
  
То есть число с плавающей запятой, при учете вышесказанного, можно задать следующим образом:
+
Соответственно, чтобы произвести деление нужно разделить мантиссу делимого на мантиссу делителя и вычесть из порядка делимого порядок делителя. Затем точно так же округлить мантиссу результата и привести его к нормализованной форме.
<br/>
+
<!-- Всё это круто, но было бы еще круче написать, как оно на реальном железе умножается и делится. В двоичной системе, с учетом округления и всеми делами. Но это, пожалуй, будет уж слишком мощно для формата "вики-конспекта". лучше куда-нибудь сюда добавить внешнюю ссылку -->
* <tex>(-1)^s\times1.M\times2^E</tex>, если <tex>E_{min} \le E \le E_{max}</tex> (нормализованное число)
+
 
 +
=== Сложение и вычитание ===
 +
Идея метода сложения и вычитания чисел с плавающей точкой заключается в приведении их к одному порядку. Сначала выбирается оптимальный порядок, затем мантиссы обоих чисел представляются в соответствии с новым порядком, затем над ними производится сложение/вычитание, мантисса результата округляется и, если нужно, результат приводится к нормализированной форме. Пример:
  
* <tex>(-1)^s\times0.M\times2^{E_{min}}</tex>, если <tex>E=E_{min}-1</tex> (денормализованное число)
+
Выполним сложение чисел с плавающей точкой и смещенным порядком в 32-х разрядном формате <tex>-269</tex> <tex>7</tex><tex>/</tex><tex>32</tex> и <tex>405,875</tex>.
 +
Переведем <tex>-269</tex> <tex>7</tex><tex>/</tex><tex>32</tex> в машинный вид. Для этого сначала переведем его в двоичную систему счисления.
 +
<tex>-269</tex> <tex>7</tex><tex>/</tex><tex>32</tex> <tex>=</tex> <tex>-269{,}21875</tex>
 +
<tex>-269{,}21875</tex><sub><tex>10</tex></sub> <tex>=</tex> <tex>-100001101{,}00111</tex><sub><tex>10</tex></sub>
  
Где <tex>s</tex> - бит знака, <tex>M</tex> - последовательность битов мантиссы, <tex>E</tex> - значение порядка (с учетом сдвига), <tex>E_{min}</tex> - минимальное значение порядка, используемое для записи чисел (1-''сдвиг'') , <tex>E_{min}-1</tex> - минимальное значение порядка, которое он в принципе может принять (все биты нули, 0-''сдвиг'').
+
Нормализуем полученное двоичное число по правилам машинной арифметики.
 +
<tex>-100001101{,}00111</tex> <tex>=</tex> <tex>-1{,}0000110100111</tex><tex> \times</tex> <tex>2</tex><sup><tex>8</tex></sup>
  
<!-- Есть непроверенная информация, что денормализованные числа исключают ситуацию, при которой a+b=a, когда a и b - конечные числа отличные от нуля. Было бы неплохо сюда её добавить -->
+
Найдем смещенный порядок. Так как в условии говорится о 32-разрядном представлении, то смещение порядка равно <tex>127</tex><sub><tex>10</tex></sub>.
Хоть денормализованные числа и позволяют бороться с погрешностями и обрабатывать очень маленькие значения, за эти возможности приходится дорого платить. Ввиду сложности денормализованные числа крайне редко реализуют на аппаратном уровне - вместо этого используются программные реализации, работающие значительно медленнее. <br/>
+
<tex>E</tex> <tex>=</tex> <tex>8</tex><sub><tex>10</tex></sub> <tex>+</tex> <tex>127</tex><sub><tex>10</tex></sub> <tex>=</tex> <tex>1000</tex><sub><tex>2</tex></sub> <tex>+</tex> <tex>1111111</tex><sub><tex>2</tex></sub> <tex>=</tex> <tex>10000111</tex><sub><tex>2</tex></sub>
Поскольку в стандартных форматах (одинарной и двойной точности) денормализованные числа получаются действительно ''очень'' маленькими и практически никак не влияют на результат некоторых вычислений (при этом заметно замедляя их скорость), то иногда они просто игнорируются. При этом используются два простых механизма, получивших называние ''Flush-to-zero'' (''FTZ'') и ''Denormals-are-zero'' (''DAZ''). Первый механизм заставляет операции возвращать ноль, как только становится ясно, что результат будет денормализованным. Второй механизм заставляет операции рассматривать поступающие на вход денормализованные числа как нули. <br/>
 
Ярким  примером подобного "отсечения" денормализованных чисел могут послужить видеокарты, в которых резкое падение скорости вычислений в сотню раз недопустимо. Так же, например, в областях, связанных с обработкой звука, нет нужды в очень маленьких числах, поскольку они представляют столь тихий звук, что его не способно воспринять человеческое ухо.
 
  
В версии стандарта IEEE 754-2008 денормализованные числа (''denormal'' или ''denormalized numbers'') были переименованы в ''subnormal numbers'', то есть в числа, меньшие "нормальных". Поэтому их иногда еще называют "'''субнормальными'''".
+
Число отрицательное, следовательно, в бите знака будет стоять единица.
  
 +
Итак, первое число в машинном 32-разрядном представлении с плавающей точкой будет иметь вид:
 +
<tex>1</tex><strong>10000111</strong><tex>00001101001110000000000</tex> (жирным шрифтом выделен порядок числа, длина мантиссы {{---}} 23 бита).
  
== Действия с числами с плавающей запятой ==
+
Переведем второе число в машинный вид, совершая те же действия.
=== Умножение и деление ===
 
Самыми простыми для восприятия арифметическими операциями над числами с плавающей запятой являются умножение и деление. Для того, чтобы умножить два вещественных числа в нормализованной форме мы умножаем их мантиссы друг на друга, а порядки складываем. Затем округляем мантиссу, чтобы она поместилась в данное число бит и приводим результат к нормализованному виду. Вот простой пример:
 
  
  e=3; m=4.734612        (порядок и мантисса первого числа)
+
  <tex>405,87510</tex> = <tex>110010101</tex>,<tex>111000000000011010</tex>...<sub><tex>2</tex></sub> <tex>=</tex> <tex>1,10010101111000000000011010</tex>... <tex>\times</tex> <tex>10</tex><sup><tex>1000</tex></sup>
× e=5;  m=5.417242        (порядок и мантисса второго числа)
+
  В качестве мантиссы будут сохранены первые <tex>23</tex> бита после запятой т.е. <tex>10010101111000000000011</tex>.
  -----------------------
+
  Очевидно, что порядок со смещением у второго числа будет таким же, как и у первого.
  e=8;  m=25.648538980104 (произведение как оно есть)
 
  e=8;  m=25.64854        (мантисса после округления)
 
  e=9; m=2.564854        (нормализованная форма)
 
  
Соответственно, чтобы произвести деление нужно разделить мантиссу делимого на мантиссу делителя и вычесть из порядка делимого порядок делителя. Затем точно так же округлить мантиссу результата и привести его к нормализованной форме.
+
Второе число положительное, следовательно, бит знака будет содержать ноль.
<!-- Всё это круто, но было бы еще круче написать, как оно на реальном железе умножается и делится. В двоичной системе, с учетом округления и всеми делами. Но это, пожалуй, будет уж слишком мощно для формата "вики-конспекта". лучше куда-нибудь сюда добавить внешнюю ссылку -->
 
  
 +
Итак в машинном 32-разрядном представлении второе число будет иметь вид:
  
=== Сложение и вычитание ===
+
<tex>0</tex><strong>10000111</strong><tex>10010101111000000000011</tex>
Идея метода сложения и вычитания чисел с плавающей точкой заключается в приведении их к одному порядку. Сначала выбирается оптимальный порядок, затем мантиссы обоих чисел представляются в соответствии с новым порядком, затем над ними производится сложение/вычитание, мантисса результата округляется и, если нужно, результат приводится к нормализированной форме. Пример для десятичных чисел в экспоненциальной нормализированной форме:
+
Далее в арифметических операциях будет использоваться число <tex>110010101</tex>,<tex>111</tex><sub><tex>2</tex></sub>=<tex>405{,}875</tex><sub><tex>10</tex></sub>, а не <tex>110010101{,}111000000000011</tex><sub><tex>2</tex></sub>=<tex>405{,}87510</tex><sub><tex>10</tex></sub> видимо для упрощения(хотя это не совсем корректно).
  
  <tex>123456.7 = 1.234567 \times 10^5</tex><br/>
+
Порядки у слагаемых равны, поэтому пропускаем шаг выравнивания порядков и проводим вычитание мантисс по правилам двоичной арифметики. В
  <tex>101.7654 = 1.017654 \times 10^2 = 0.001017654 \times 10^5</tex>
+
компьютере этим занимается арифметический сопроцессор, встроенный в центральный процессор машины.
  
  Отсюда:
+
<tex>1</tex>,<tex>1001010111100</tex><sub><tex>2</tex></sub> <tex>-</tex> <tex>1{,}0000110100111</tex><sub><tex>2</tex></sub> <tex>=</tex> <tex>0{,}1000100010101</tex><sub><tex>2</tex></sub>
  <tex>
 
  123456.7 + 101.7654 = (1.234567 \times 10^5) + (1.017654 \times 10^2)
 
                      = (1.234567 \times 10^5) + (0.001017654 \times 10^5)
 
                      = (1.234567 + 0.001017654) \times 10^5
 
                      =  1.235584654 × 10^5
 
  </tex>  
 
  
По шагам:
+
Приводим полученный результат к машинному виду. Для этого мы должны внести поправку в порядок {{---}} уменьшить его на единицу.
 +
Знак результата {{---}}  положительный, следовательно, бит знака содержит ноль.
  
  e=5; m=1.234567    (123456.7)
+
  <tex>0</tex><strong>10000110</strong><tex>00010001010100000000000</tex>
+ e=2;  m=1.017654    (101.7654)
 
 
 
  e=5;  m=1.234567
 
+ e=5;  m=0.001017654  (Мантисса второго числа после сдвига)
 
--------------------
 
  e=5;  m=1.235584654 
 
  
Это настоящий результат. Его придется округлить до семи знаков после запятой и нормализировать, если понадобится.
+
  Проверим правильность наших вычислений. Переведем результат в десятичное представление.
  e=5; m=1.235585    (Это наш результат)
 
  
В этом примере видно, что последние три цифры результата были утеряны после округления. Это называется ошибкой округления, и в предельном случае она может вызвать ситуацию, когда сумма двух конечных ненулевых чисел равна одному из них:
+
Найдем реальный порядок результата, вычтя из него значение смещения <tex>127</tex><sub><tex>10</tex></sub>.
  
  e=5; m=1.234567
+
  <tex>E</tex> <tex>=</tex> <tex>10000110</tex><sub><tex>2</tex></sub> <tex>-</tex> <tex>1111111</tex><sub><tex>2</tex></sub> <tex>=</tex> <tex>134</tex><sub><tex>10</tex></sub> <tex>-</tex> <tex>127</tex><sub><tex>10</tex></sub> <tex>=</tex> <tex>7</tex><sub><tex>10</tex></sub> <tex>=</tex> <tex>111</tex><sub><tex>2</tex></sub>
+ e=−3; m=9.876543
 
 
 
  e=5;  m=1.234567
 
+ e=5;  m=0.00000009876543 (после сдвига)
 
----------------------
 
  e=5;  m=1.23456709876543 (настоящая сумма)
 
  e=5;  m=1.234567        (после округления и нормализации - равна первому числу)
 
  
Аналогичная ситуация возможна при вычитании чисел, поэтому к арифметическим операциям и сравнениям чисел с плавающей запятой нужно относиться очень осторожно. Проблема частично решаема с помощью [[#Денормализованные числа|денормализованных чисел]], но у них есть свои недостатки.
+
Следовательно, число результата будет иметь вид:
 +
<tex>A</tex> <tex>=</tex> <tex>1{,}000100010101</tex> <tex>\times</tex> <tex>10</tex><sup><tex>111</tex></sup> <tex>=</tex> <tex>10001000</tex>,<tex>10101</tex><sub><tex>2</tex></sub> <tex>=</tex> <tex>136{,}65625</tex><sub><tex>10</tex></sub>
  
 +
Результат наших вычислений верен, так как <tex>405{,}875</tex> - <tex>269{,}21875</tex> <tex>=</tex> <tex>136{,}65625</tex>.
  
 
=== Алгоритм получения представления вещественного числа в памяти ЭВМ ===
 
=== Алгоритм получения представления вещественного числа в памяти ЭВМ ===
Строка 715: Строка 728:
 
памяти ЭВМ на примере величины типа Double.</P>
 
памяти ЭВМ на примере величины типа Double.</P>
  
<P>Как видно из таблицы, величина это типа занимает в памяти 8 байт. На  
+
<P>Как видно из таблицы, величина этого типа занимает в памяти <tex>8</tex> байт. На  
  
 
рисунке ниже показано, как здесь представлены поля мантиссы и порядка (нумерация битов осуществляется справа налево):</P>
 
рисунке ниже показано, как здесь представлены поля мантиссы и порядка (нумерация битов осуществляется справа налево):</P>
  
<center>
+
{|class="wikitable"
 +
!Знак || Смещённый порядок || Мантисса
 +
|-
 +
|63 || 62..52 || 51..0
 +
|}
  
<table border=1 CellSpacing="0" CellPadding="2">
 
 
<tr><td>S</td><td>Смещенный порядок</td><td>Мантисса</td></tr>
 
 
<tr><td>63</td><td>62..52</td><td>51..0</td></tr>
 
 
</table>
 
 
</center>
 
  
 
<P>Можно заметить, что старший бит, отведенный под мантиссу, имеет номер  
 
<P>Можно заметить, что старший бит, отведенный под мантиссу, имеет номер  
  
51, т.е. мантисса занимает младшие 52 бита. Черта указывает здесь на  
+
<tex>51</tex>, т.е. мантисса занимает младшие <tex>52</tex> бита. Черта указывает здесь на  
  
 
положение двоичной запятой. Перед запятой должен стоять бит целой части  
 
положение двоичной запятой. Перед запятой должен стоять бит целой части  
  
мантиссы, но поскольку она всегда равна 1, здесь данный бит не требуется и  
+
мантиссы, но поскольку она всегда равна <tex>1</tex>, здесь данный бит не требуется и  
  
 
соответствующий разряд отсутствует в памяти (но он подразумевается).  
 
соответствующий разряд отсутствует в памяти (но он подразумевается).  
Строка 751: Строка 759:
 
смещение. Смещение выбирается так, чтобы минимальному значению порядка  
 
смещение. Смещение выбирается так, чтобы минимальному значению порядка  
  
соответствовал нуль. Например, для типа Double порядок занимает 11 бит и  
+
соответствовал нуль. Например, для типа Double порядок занимает <tex>11</tex> бит и  
  
имеет диапазон от 2<sup>-1023</sup> до 2<sup>1023</sup>, поэтому смещение равно 1023<sub>(10)</sub> =  
+
имеет диапазон от <tex>2</tex><sup><tex>-1023</tex></sup> до <tex>2</tex><sup><tex>1023</tex></sup>, поэтому смещение равно <tex>1023</tex><sub>(<tex>10</tex>)</sub> <tex>=</tex>
  
1111111111<sub>(2)</sub>. Наконец, бит с номером 63 указывает на знак числа.</P>
+
<tex>1111111111</tex><sub>(<tex>2</tex>)</sub>. Наконец, бит с номером <tex>63</tex> указывает на знак числа.</P>
  
 
<P>Таким образом, из вышесказанного вытекает следующий <strong>алгоритм</strong> для  
 
<P>Таким образом, из вышесказанного вытекает следующий <strong>алгоритм</strong> для  
Строка 765: Строка 773:
 
<LI>перевести модуль данного числа в двоичную систему счисления;</LI>
 
<LI>перевести модуль данного числа в двоичную систему счисления;</LI>
  
<LI>нормализовать двоичное число, т.е. записать в виде <I>M</I>&nbsp;&times;&nbsp;2<I><sup>p</sup></I>, где <I>M</I>&nbsp;&#151;  
+
<LI>нормализовать двоичное число, т.е. записать в виде <I>M</I> <tex> \times </tex>2<I><sup>p</sup></I>, где <I>M</I>&nbsp;&#151;  
  
мантисса (ее целая часть равна 1<sub>(2)</sub>) и <I>p</I>&nbsp;&#151; порядок, записанный в  
+
мантисса (ее целая часть равна <tex>1</tex><sub>(<tex>2</tex>)</sub>) и <I>p</I>&nbsp;&#151; порядок, записанный в  
  
 
десятичной системе счисления;</LI>
 
десятичной системе счисления;</LI>
Строка 781: Строка 789:
 
</OL>
 
</OL>
  
<P><B>Пример.</B> Запишем код числа -312,3125.</P>
+
<P><B>Пример.</B> Запишем код числа <tex>-312</tex>,<tex>3125</tex>.</P>
  
 
<OL>
 
<OL>
  
<LI>Двоичная запись модуля этого числа имеет вид 100111000,0101.</LI>
+
<LI>Двоичная запись модуля этого числа имеет вид <tex>100111000{,}0101</tex>.</LI>
  
<LI>Имеем 100111000,0101 =  
+
<LI>Имеем <tex>100111000{,}0101</tex> <tex>=</tex>
  
1,001110000101&nbsp;&times;&nbsp;2<sup>8</sup>.</LI>
+
<tex>1{,}001110000101</tex><tex>\times</tex><tex>2</tex><sup><tex>8</tex></sup>.</LI>
  
<LI>Получаем смещенный порядок 8 + 1023 = 1031. Далее имеем  
+
<LI>Получаем смещенный порядок <tex>8</tex> <tex>+</tex> <tex>1023</tex> <tex>=</tex> <tex>1031</tex>. Далее имеем  
  
1031<sub>(10)</sub> = 10000000111<sub>(2)</sub>.</LI>
+
<tex>1031</tex><sub>(<tex>10</tex>)</sub> <tex>=</tex> <tex>10000000111</tex><sub>(<tex>2</tex>)</sub>.</LI>
  
 
<LI>Окончательно
 
<LI>Окончательно
  
<center>
+
{|class="wikitable"
 
+
| 1 || 10000000111 || 0011100001010000000000000000000000000000000000000000
<table border=1 CellSpacing="0" CellPadding="2">
+
|-
 
+
| 63 || 62..52 || 51..0
<tr><td>1</td><td>10000000111</td><td>0011100001010000000000000000000000000000000000000000</td></tr>
+
|}
 
 
<tr><td>63</td><td>62..52</td><td>51..0</td></tr>
 
  
</table>
 
 
</center>
 
  
 
</LI>
 
</LI>
Строка 823: Строка 826:
 
<P><B>Пример.</B> Пусть дан код 3FEC600000000000<sub>(16)</sub> или
 
<P><B>Пример.</B> Пусть дан код 3FEC600000000000<sub>(16)</sub> или
  
<center>
+
<OL>
  
<table border=1 CellSpacing="0" CellPadding="2">
+
{|class="wikitable"
 +
| 0 || 01111111110 || 1100011000000000000000000000000000000000000000000000
 +
|-
 +
| 63 || 62..52 || 51..0
 +
|}
  
<tr><td>0</td><td>01111111110</td><td>1100011000000000000000000000000000000000000000000000</td></tr>
 
  
<tr><td>63</td><td>62..52</td><td>51..0</td></tr>
 
  
</table>
+
<LI>Прежде всего замечаем, что это код положительного числа, поскольку в
  
</center>
+
разряде с номером <tex>63</tex> записан нуль. Получим порядок этого числа:
  
<OL>
+
<tex>01111111110</tex><sub>(<tex>2</tex>)</sub> <tex>=</tex> <tex>1022</tex><sub>(<tex>10</tex>)</sub>; <tex>1022</tex> <tex>-</tex> <tex>1023</tex> <tex>=</tex> <tex>-1</tex>.</LI>
  
<LI>Прежде всего замечаем, что это код положительного числа, поскольку в
+
<LI>Число имеет вид <tex>1</tex>,<tex>1100011</tex><tex> \times </tex><tex>2</tex><sup><tex>-1</tex></sup> или
  
разряде с номером 63 записан нуль. Получим порядок этого числа:
+
<tex>0</tex>,<tex>11100011</tex>.</LI>
  
01111111110<sub>(2)</sub> = 1022<sub>(10)</sub>; 1022 - 1023 = -1.</LI>
+
<LI>Переводом в десятичную систему счисления получаем <tex>0</tex>,<tex>88671875</tex>.</LI>
  
<LI>Число имеет вид 1,1100011&nbsp;&times;&nbsp;2<sup>-1</sup> или
 
  
0,11100011.</LI>
+
</OL>
  
<LI>Переводом в десятичную систему счисления получаем 0,88671875.</LI>
+
== См. также ==
 +
* [[Представление символов, таблицы кодировок]]
 +
* [[Представление целых чисел: прямой код, код со сдвигом, дополнительный код]]
  
</OL>
+
== Примечания ==
 +
<references/>
  
 
== Ссылки ==
 
== Ссылки ==
 
=== Использованные материалы ===
 
=== Использованные материалы ===
 
'''На русском'''
 
'''На русском'''
* [http://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%B7%D0%B0%D0%BF%D0%B8%D1%81%D1%8C Википедия - Экспоненциальная запись]
+
* [http://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%B7%D0%B0%D0%BF%D0%B8%D1%81%D1%8C Википедия {{---}} Экспоненциальная запись]
* [http://ru.wikipedia.org/wiki/%D0%A7%D0%B8%D1%81%D0%BB%D0%BE_%D1%81_%D0%BF%D0%BB%D0%B0%D0%B2%D0%B0%D1%8E%D1%89%D0%B5%D0%B9_%D0%B7%D0%B0%D0%BF%D1%8F%D1%82%D0%BE%D0%B9 Википедия - Число с плавающей запятой]
+
* [http://ru.wikipedia.org/wiki/%D0%A7%D0%B8%D1%81%D0%BB%D0%BE_%D1%81_%D0%BF%D0%BB%D0%B0%D0%B2%D0%B0%D1%8E%D1%89%D0%B5%D0%B9_%D0%B7%D0%B0%D0%BF%D1%8F%D1%82%D0%BE%D0%B9 Википедия {{---}} Число с плавающей запятой]
* [http://ru.wikipedia.org/wiki/%D0%9E%D1%82%D1%80%D0%B8%D1%86%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B8_%D0%BF%D0%BE%D0%BB%D0%BE%D0%B6%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%BD%D0%BE%D0%BB%D1%8C Википедия - Отрицательный и положительный ноль]
+
* [http://ru.wikipedia.org/wiki/%D0%9E%D1%82%D1%80%D0%B8%D1%86%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B8_%D0%BF%D0%BE%D0%BB%D0%BE%D0%B6%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%BD%D0%BE%D0%BB%D1%8C Википедия {{---}} Отрицательный и положительный ноль]
*[http://habrahabr.ru/blogs/cpp/112953/ Хабрахабр - статья пользователя Yruslan "Что нужно знать про арифметику с плавающей запятой"]
+
*[http://habrahabr.ru/blogs/cpp/112953/ Хабрахабр {{---}} статья пользователя Yruslan "Что нужно знать про арифметику с плавающей запятой"]
 +
*[http://www.sgu.ru/prcnit/teach/3.php Статья Лапшевой Е.Е. "Машинная арифметика с вещественными числами"] <span style="color: red">Статья удалена</span>
  
 
'''На английском'''
 
'''На английском'''
*[http://en.wikipedia.org/wiki/NaN Wikipedia - NaN]
+
*[http://en.wikipedia.org/wiki/NaN Wikipedia {{---}} NaN]
*[http://en.wikipedia.org/wiki/Floating_point Wikipedia - Floating point]
+
*[http://en.wikipedia.org/wiki/Floating_point Wikipedia {{---}} Floating point]
*[http://en.wikipedia.org/wiki/IEEE_754-2008 Wikipedia - IEEE 754-2008]
+
*[http://en.wikipedia.org/wiki/IEEE_754-2008 Wikipedia {{---}} IEEE 754-2008]
  
 
=== Что стоит прочесть ===
 
=== Что стоит прочесть ===
 
* [http://grouper.ieee.org/groups/754 Материалы по стандарту IEEE 754 ''(англ.)'']
 
* [http://grouper.ieee.org/groups/754 Материалы по стандарту IEEE 754 ''(англ.)'']
 
* [http://softelectro.ru/ieee754.html Русский перевод стандарта IEEE 754]
 
* [http://softelectro.ru/ieee754.html Русский перевод стандарта IEEE 754]
 +
 +
 +
  
 
[[Категория: Дискретная математика и алгоритмы]]
 
[[Категория: Дискретная математика и алгоритмы]]
 
[[Категория: Представление информации]]
 
[[Категория: Представление информации]]

Текущая версия на 19:14, 4 сентября 2022

Вещественные числа обычно представляются в виде чисел с плавающей запятой. Числа с плавающей запятой — один из возможных способов представления действительных чисел, который является компромиссом между точностью и диапазоном принимаемых значений, его можно считать аналогом экспоненциальной записи чисел, но только в памяти компьютера.

Число с плавающей запятой состоит из набора отдельных двоичных разрядов, условно разделенных на так называемые знак (англ. sign), порядок (англ. exponent) и мантиссу (англ. mantis). В наиболее распространённом формате (стандарт IEEE 754) число с плавающей запятой представляется в виде набора битов, часть из которых кодирует собой мантиссу числа, другая часть — показатель степени, и ещё один бит используется для указания знака числа ([math]0[/math] — если число положительное, [math]1[/math] — если число отрицательное). При этом порядок записывается как целое число в коде со сдвигом, а мантисса — в нормализованном виде, своей дробной частью в двоичной системе счисления. Вот пример такого числа из [math]16[/math] двоичных разрядов:

Знак
Порядок Мантисса
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
14 10 9 0

Знак — один бит, указывающий знак всего числа с плавающей точкой. Порядок и мантисса — целые числа, которые вместе со знаком дают представление числа с плавающей запятой в следующем виде:

[math](-1)^S \times M \times B^E[/math], где [math]S[/math] — знак, [math]B[/math] — основание, [math]E[/math] — порядок, а [math]M[/math] — мантисса. Десятичное число, записываемое как [math] ReE[/math], где [math]R[/math] — число в полуинтервале [math][1; 10)[/math], [math]E[/math] — степень, в которой стоит множитель [math]10[/math]; в нормализированной форме модуль [math]R[/math] будет являться мантиссой, а [math]E[/math] — порядком, а [math]S[/math] будет равно [math]1[/math] тогда и только тогда, когда [math]R[/math] принимает отрицательное значение. Например, в числе [math]-2435e9[/math]

  • [math]S[/math] [math]=[/math] [math]1[/math]
  • [math]B[/math] [math]=[/math] [math]10[/math]
  • [math]M[/math] [math]=[/math] [math]2435[/math]
  • [math]E[/math] [math]=[/math] [math]9[/math]

Порядок также иногда называют экспонентой или просто показателем степени.

При этом лишь некоторые из вещественных чисел могут быть представлены в памяти компьютера точным значением, в то время как остальные числа представляются приближёнными значениями.

Более простым вариантом представления вещественных чисел является вариант с фиксированной точкой, когда целая и вещественная части хранятся отдельно. Например, на целую часть отводится всегда [math]X[/math] бит и на дробную отводится всегда [math]Y[/math] бит. Такой способ в архитектурах процессоров не присутствует. Отдаётся предпочтение числам с плавающей запятой, как компромиссу между диапазоном допустимых значений и точностью.

Нормальная и нормализованная форма

Нормальной формой (англ. normal form) числа с плавающей запятой называется такая форма, в которой мантисса (без учёта знака) в десятичной системе находится на полуинтервале [math][0; 1)[/math]. Такая форма записи имеет недостаток: некоторые числа записываются неоднозначно (например, [math]0{,}0001[/math] можно записать в 4 формах — [math]0{,}0001 \times 10[/math][math]0[/math], [math]0{,}001 \times 10[/math][math]−1[/math], [math]0{,}01 \times 10[/math][math]−2[/math], [math]0{,}1 \times 10[/math][math]−3[/math]), поэтому распространена также другая форма записи — нормализованная (англ. normalized), в которой мантисса десятичного числа принимает значения от [math]1[/math] (включительно) до [math]10[/math] (не включительно), а мантисса двоичного числа принимает значения от [math]1[/math] (включительно) до [math]2[/math] (не включительно). То есть в мантиссе слева от запятой до применения порядка находится ровно один знак. В такой форме любое число (кроме [math]0[/math]) записывается единственным образом. Ноль же представить таким образом невозможно, поэтому стандарт предусматривает специальную последовательность битов для задания числа [math]0[/math] (а заодно и некоторых других полезных чисел, таких как [math]-\infty[/math] и [math]+\infty[/math]). Так как старший двоичный разряд (целая часть) мантиссы вещественного числа в нормализованном виде всегда равен «[math]1[/math]», то его можно не записывать, сэкономив таким образом один бит, что и используется в стандарте IEEE 754. В позиционных системах счисления с основанием большим, чем [math]2[/math] (в троичной, четверичной и др.), этого замечательного свойства нет (ведь целая часть там может быть не только единицей).

Типы чисел с плавающей точкой (по IEEE 754)

Число половинной точности (Binary16, Half precision)

Число́ полови́нной то́чности  — компьютерный формат представления чисел, занимающий в памяти половину машинного слова (в случае 32-битного компьютера — [math]16[/math] бит или [math]2[/math] байта). В силу невысокой точности этот формат представления чисел с плавающей запятой обычно используется в видеокартах, где небольшой размер и высокая скорость работы важнее точности вычислений.

Знак
Порядок Мантисса
0 0 0 0 0 0 1, 0 0 0 0 0 0 0 0 0 0
14 10 9 0

Порядок записан со сдвигом [math]-15[/math]. То есть чтобы получить актуально значение порядка нужно вычесть из него сдвиг. Сдвиг можно получить по формуле [math]2^{b-1}-1[/math], где [math]b[/math] — число бит, отведенное на хранение порядка (в случае числа половинной точности [math]b=5[/math]).

Ограничения точности

  • Целые от нуля до [math]2048[/math] передаются как есть.
  • Целые от [math]2049[/math] до [math]4096[/math] округляются к ближайшему чётному целому.
  • Целые от [math]4097[/math] до [math]8192[/math] округляются до ближайшего целого, делящегося нацело на четыре.
  • Целые от [math]8193[/math] до [math]16384[/math] округляются до ближайшего целого, делящегося на восемь.
  • Целые от [math]16385[/math] до [math]32768[/math] округляются до ближайшего целого, делящегося на шестнадцать.
  • Целые от [math]32769[/math] до [math]65535[/math] округляются до ближайшего целого, делящегося на тридцать два.


Число одинарной точности (Binary32, Single precision, float)

Число́ одина́рной то́чности — компьютерный формат представления чисел, занимающий в памяти одно машинное слово (в случае 32-битного компьютера — [math]32[/math] бита или [math]4[/math] байта). Используется для работы с вещественными числами везде, где не нужна очень высокая точность.

Знак
Порядок (8 бит) Мантисса (23+1 бита)
0 0 0 0 0 0 0 0 0 1, 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
30 23 22 0

Порядок записан со сдвигом [math]-127[/math].


Число двойной точности (Binary64, Double precision, double)

Число́ двойно́й то́чности — компьютерный формат представления чисел, занимающий в памяти два машинных слова (в случае 32-битного компьютера — [math]64[/math] бита или [math]8[/math] байт). Часто используется благодаря своей неплохой точности, даже несмотря на двойной расход памяти и сетевого трафика относительно чисел одинарной точности.

Знак
Порядок
(11 бит)
Мантисса
(52+1 бит)
0 0 0 0 0 0 0 0 0 0 0 0 1, 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
62 52 51 0

Порядок записан со сдвигом [math]-1023[/math].

Число четверной точности (Binary128, Quadruple precision)

Число́ четверно́й то́чности — компьютерный формат представления чисел, занимающий в памяти четыре машинных слова (в случае 32-битного компьютера — [math]128[/math] бит или [math]16[/math] байт). Используется в случае необходимости крайне высокой точности.

Знак
Порядок
(15 бит)
Мантисса
(112+1 бит)
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1, 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
126 112 111


Мантисса
(112+1 бит)
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0

Порядок записан со сдвигом [math]-16383[/math].

Обычно этот формат реализуется программно, случаи аппаратной реализации крайне редки. Также не гарантируется поддержка этого типа в языках программирования, хотя кое-где она и реализована (например, компилятор gcc для архитектуры x86 позволяет использовать тип __float128, являющийся программной реализацией числа с четверной точностью). В совокупности эти факторы делают Quadruple весьма экзотичным и редко встречающимся форматом чисел с плавающей запятой.


Диапазон значений чисел с плавающей запятой

Диапазон чисел, которые можно записать данным способом, зависит от количества бит, отведённых для представления мантиссы и показателя. Пара значений показателя (когда все разряды нули и когда все разряды единицы) зарезервирована для обеспечения возможности представления специальных чисел. К ним относятся ноль, значения NaN (Not a Number, "не число", получается как результат операций типа деления нуля на ноль) и [math]\pm\infty[/math].

Данная таблица только лишь примерно указывает границы допустимых значений, без учета возрастающей погрешности с ростом абсолютного значения и существования денормализованных чисел.

Название в IEEE 754 Название типа переменной в Си Диапазон значений Бит в мантиссе Бит на переменную
Half precision - 6,10×10-5..65504 11 16
Single presicion float -3,4×1038..3,4×1038 23 32
Double precision double -1,7×10308..1,7×10308 53 64
Extended precision На некоторых архитектурах (например в сопроцессоре Intel) long double -3,4×104932..3,4×104932 65 80

Особые значения чисел с плавающей точкой

Ноль (со знаком)

Как уже было оговорено выше, в нормализованной форме числа с плавающей точкой невозможно представить ноль. Поэтому для его представления зарезервированы специальные значения мантиссы и порядка — число считается нулём, если все его биты, кроме знакового, равны нулю. При этом в зависимости от значения бита знака ноль может быть как положительным, так и отрицательным.

Знак
Порядок Мантисса
0/1 0 0 0 0 0 1, 0 0 0 0 0 0 0 0 0 0  = [math]\pm0[/math]
14 10 9 0

Арифметика нуля со знаком
Арифметика отрицательного нуля аналогична таковой для любого отрицательного числа и понятна интуитивно. Вот несколько примеров:

  • [math]\frac{-0}{ \left| x \right| } = -0\,\![/math] (если [math]x\ne0[/math])
  • [math](-0) \cdot (-0) = +0\,\![/math]
  • [math]\left| x \right| \cdot (-0) = -0\,\![/math]
  • [math]x + (\pm 0) = x\,\![/math]
  • [math](-0) + (-0) = -0\,\![/math]
  • [math](+0) + (+0) = +0\,\![/math]
  • [math]\frac{-0}{-\infty} = +0\,\![/math]
  • [math]\frac{\left|x\right|}{-0} = -\infty\,\![/math] (если [math]x\ne0[/math])

Неопределенность (NaN)

NaN — это аббревиатура от фразы "not a number". NaN является результатом арифметических операций, если во время их выполнения произошла ошибка (примеры см. ниже). В IEEE 754 NaN представлен как число, в котором все двоичные разряды порядка — единицы, а мантисса не нулевая.

Знак
Порядок Мантисса
0/1 1 1 1 1 1 1, 0/1 0/1 0/1 0/1 0/1 0/1 0/1 0/1 0/1 0/1  = [math]NaN[/math]
14 10 9 0

Любая операция с NaN возвращает NaN. При желании в мантиссу можно записывать информацию, которую программа сможет интерпретировать. Стандартом это не оговорено и мантисса чаще всего игнорируется.

Как можно получить NaN?

  • [math]\infty+(-\infty)= NaN[/math]
  • [math]0\times\infty= NaN[/math]
  • [math]\frac{\pm0}{\pm0} = NaN[/math]
  • [math]\frac{\pm\infty}{\pm\infty} = NaN[/math]
  • [math]\sqrt{x} = NaN[/math], где [math]x\lt 0[/math]

Есть и другие способы получения NaN, подробности можно найти по ссылкам в соответствующем разделе.

По определению NaN ≠ NaN, поэтому, для проверки значения переменной нужно просто сравнить ее с собой.


Бесконечности

В число с плавающей запятой можно записать значение [math]+\infty[/math] или [math]-\infty[/math]. Как и нули со знаком, бесконечности позволяют получить хотя бы близкий к правильному результат вычисления в случае переполнения. Согласно стандарту IEEE 754 число с плавающей запятой считается равным бесконечности, если все двоичные разряды его порядка — единицы, а мантисса равна нулю. Знак бесконечности определяется знаковым битом числа.

Знак
Порядок Мантисса
0/1 1 1 1 1 1 1, 0 0 0 0 0 0 0 0 0 0  = [math]\pm\infty[/math]
14 10 9 0

Получить бесконечность можно при переполнении и при делении ненулевого числа на ноль. При этом [math] \frac{x}{0} [/math] [math]= \begin{cases} +\infty,&\text{если $x\gt 0$;}\\ NaN,&\text{если $x=0$;}\\ -\infty,&\text{если $x\lt 0$.} \end{cases} [/math]

Денормализованные числа

Денормализованные числа (англ. denormalized/subnormal numbers) - это способ увеличить количество представимых числом с плавающей запятой значений около нуля, дабы повысить точность вычислений. Каждое значение денормализованного числа меньше самого маленького нормализованного ("обычного") значения числа с плавающей запятой. Согласно стандарту, если порядок равен своему минимальному значению (все его биты — нули, а истинное значение порядка равно его сдвигу) и все биты мантиссы равны нулю, то это [math]\pm0[/math]. Если же мантисса не равна нулю, то это число с порядком, на единицу большим минимального (все биты порядка, кроме младшего — нули) и данной мантиссой, целая часть которой считается равной нулю, а не единице.

То есть число с плавающей запятой, при учете вышесказанного, можно задать следующим образом:

  • [math](-1)^s\times1,M\times2^E[/math], если [math]E_{min} \le E \le E_{max}[/math] (нормализованное число)
  • [math](-1)^s\times0,M\times2^{E_{min}}[/math], если [math]E=E_{min}-1[/math] (денормализованное число)

Где [math]s[/math] — бит знака, [math]M[/math] — последовательность битов мантиссы, [math]E[/math] — значение порядка (с учетом сдвига), [math]E_{min}[/math] — минимальное значение порядка, используемое для записи чисел (1 — сдвиг) , [math]E_{min}-1[/math] — минимальное значение порядка, которое он в принципе может принять (все биты нули, 0 — сдвиг).

Хоть денормализованные числа и позволяют бороться с погрешностями и обрабатывать очень маленькие значения, за эти возможности приходится дорого платить. Ввиду сложности денормализованные числа крайне редко реализуют на аппаратном уровне - вместо этого используются программные реализации, работающие значительно медленнее.

В современных процессорах обработка денормализованных чисел происходит в десятки раз медленнее, чем обработка нормализованных чисел. Ниже приведена часть таблицы из статьи Isaac Dooley, Laxmikant Kale "Quantifying the Interference Caused by Subnormal Floating-Point Values"[1]

Производитель Процессор Замедление (разы)
IBM PowerPC 970 2,4
AMD Athlon 6,0
Intel Pentium 3 15,8
AMD Athlon 64 21,4
AMD Opteron64 23,8
Intel Core Duo 44,2
Intel P4 Xeon 97,9
Intel Pentium 4 131,0
Intel Itanium 2 183,2
Sun UltraSPARC IV 520,0

В таблице приведены наихудшие результаты тестирования среди всех использованных компиляторов (gcc, icc, xlc) со всеми доступными флагами оптимизации. Исследователи утверждают, что различие среднего случая с худшим незначительно.

Поскольку в стандартных форматах (одинарной и двойной точности) денормализованные числа получаются действительно очень маленькими и практически никак не влияют на результат некоторых вычислений (при этом заметно замедляя их скорость), то иногда они просто игнорируются. При этом используются два простых механизма, получивших называние Flush-to-zero (FTZ) и Denormals-are-zero (DAZ). Первый механизм заставляет операции возвращать ноль, как только становится ясно, что результат будет денормализованным. Второй механизм заставляет операции рассматривать поступающие на вход денормализованные числа как нули.
Ярким примером подобного "отсечения" денормализованных чисел могут послужить видеокарты, в которых резкое падение скорости вычислений в сотню раз недопустимо. Так же, например, в областях, связанных с обработкой звука, нет нужды в очень маленьких числах, поскольку они представляют столь тихий звук, что его не способно воспринять человеческое ухо.

В версии стандарта IEEE 754-2008 денормализованные числа (denormal или denormalized numbers) были переименованы в subnormal numbers, то есть в числа, меньшие "нормальных". Поэтому их иногда еще называют "субнормальными".


Действия с числами с плавающей запятой

Умножение и деление

Самыми простыми для восприятия арифметическими операциями над числами с плавающей запятой являются умножение и деление. Для того, чтобы умножить два вещественных числа в нормализованной форме необходимо перемножить их мантиссы, сложить порядки, округлить и нормализовать полученное число.

Соответственно, чтобы произвести деление нужно разделить мантиссу делимого на мантиссу делителя и вычесть из порядка делимого порядок делителя. Затем точно так же округлить мантиссу результата и привести его к нормализованной форме.

Сложение и вычитание

Идея метода сложения и вычитания чисел с плавающей точкой заключается в приведении их к одному порядку. Сначала выбирается оптимальный порядок, затем мантиссы обоих чисел представляются в соответствии с новым порядком, затем над ними производится сложение/вычитание, мантисса результата округляется и, если нужно, результат приводится к нормализированной форме. Пример:

Выполним сложение чисел с плавающей точкой и смещенным порядком в 32-х разрядном формате [math]-269[/math] [math]7[/math][math]/[/math][math]32[/math] и [math]405,875[/math].
Переведем [math]-269[/math] [math]7[/math][math]/[/math][math]32[/math] в машинный вид. Для этого сначала переведем его в двоичную систему счисления.
[math]-269[/math] [math]7[/math][math]/[/math][math]32[/math] [math]=[/math] [math]-269{,}21875[/math]
[math]-269{,}21875[/math][math]10[/math] [math]=[/math] [math]-100001101{,}00111[/math][math]10[/math]
Нормализуем полученное двоичное число по правилам машинной арифметики.
[math]-100001101{,}00111[/math] [math]=[/math] [math]-1{,}0000110100111[/math][math] \times[/math] [math]2[/math][math]8[/math]
Найдем смещенный порядок. Так как в условии говорится о 32-разрядном представлении, то смещение порядка равно [math]127[/math][math]10[/math].
[math]E[/math] [math]=[/math] [math]8[/math][math]10[/math] [math]+[/math] [math]127[/math][math]10[/math] [math]=[/math] [math]1000[/math][math]2[/math] [math]+[/math] [math]1111111[/math][math]2[/math] [math]=[/math] [math]10000111[/math][math]2[/math]
Число отрицательное, следовательно, в бите знака будет стоять единица.
Итак, первое число в машинном 32-разрядном представлении с плавающей точкой будет иметь вид:
[math]1[/math]10000111[math]00001101001110000000000[/math] (жирным шрифтом выделен порядок числа, длина мантиссы — 23 бита).
Переведем второе число в машинный вид, совершая те же действия.
[math]405,87510[/math] = [math]110010101[/math],[math]111000000000011010[/math]...[math]2[/math] [math]=[/math] [math]1,10010101111000000000011010[/math]... [math]\times[/math] [math]10[/math][math]1000[/math]
В качестве мантиссы будут сохранены первые [math]23[/math] бита после запятой т.е. [math]10010101111000000000011[/math].
Очевидно, что порядок со смещением у второго числа будет таким же, как и у первого.
Второе число положительное, следовательно, бит знака будет содержать ноль.
Итак в машинном 32-разрядном представлении второе число будет иметь вид:
[math]0[/math]10000111[math]10010101111000000000011[/math]
Далее в арифметических операциях будет использоваться число [math]110010101[/math],[math]111[/math][math]2[/math]=[math]405{,}875[/math][math]10[/math], а не [math]110010101{,}111000000000011[/math][math]2[/math]=[math]405{,}87510[/math][math]10[/math] видимо для упрощения(хотя это не совсем корректно).
Порядки у слагаемых равны, поэтому пропускаем шаг выравнивания порядков и проводим вычитание мантисс по правилам двоичной арифметики. В 
компьютере этим занимается арифметический сопроцессор, встроенный в центральный процессор машины.
[math]1[/math],[math]1001010111100[/math][math]2[/math] [math]-[/math] [math]1{,}0000110100111[/math][math]2[/math] [math]=[/math] [math]0{,}1000100010101[/math][math]2[/math]
Приводим полученный результат к машинному виду. Для этого мы должны внести поправку в порядок — уменьшить его на единицу.
Знак результата —  положительный, следовательно, бит знака содержит ноль.
[math]0[/math]10000110[math]00010001010100000000000[/math]
Проверим правильность наших вычислений. Переведем результат в десятичное представление.
Найдем реальный порядок результата, вычтя из него значение смещения [math]127[/math][math]10[/math].
[math]E[/math] [math]=[/math] [math]10000110[/math][math]2[/math] [math]-[/math] [math]1111111[/math][math]2[/math] [math]=[/math] [math]134[/math][math]10[/math] [math]-[/math] [math]127[/math][math]10[/math] [math]=[/math] [math]7[/math][math]10[/math] [math]=[/math] [math]111[/math][math]2[/math]
Следовательно, число результата будет иметь вид:
[math]A[/math] [math]=[/math] [math]1{,}000100010101[/math] [math]\times[/math] [math]10[/math][math]111[/math] [math]=[/math] [math]10001000[/math],[math]10101[/math][math]2[/math] [math]=[/math] [math]136{,}65625[/math][math]10[/math]
Результат наших вычислений верен, так как [math]405{,}875[/math] - [math]269{,}21875[/math] [math]=[/math] [math]136{,}65625[/math].

Алгоритм получения представления вещественного числа в памяти ЭВМ

Покажем преобразование действительного числа для представления его в памяти ЭВМ на примере величины типа Double.

Как видно из таблицы, величина этого типа занимает в памяти [math]8[/math] байт. На рисунке ниже показано, как здесь представлены поля мантиссы и порядка (нумерация битов осуществляется справа налево):

Знак Смещённый порядок Мантисса
63 62..52 51..0


Можно заметить, что старший бит, отведенный под мантиссу, имеет номер [math]51[/math], т.е. мантисса занимает младшие [math]52[/math] бита. Черта указывает здесь на положение двоичной запятой. Перед запятой должен стоять бит целой части мантиссы, но поскольку она всегда равна [math]1[/math], здесь данный бит не требуется и соответствующий разряд отсутствует в памяти (но он подразумевается). Значение порядка хранится здесь не как целое число, представленное в дополнительном коде. Для упрощения вычислений и сравнения действительных чисел значение порядка в ЭВМ хранится в виде смещенного числа, т.е. к настоящему значению порядка перед записью его в память прибавляется смещение. Смещение выбирается так, чтобы минимальному значению порядка соответствовал нуль. Например, для типа Double порядок занимает [math]11[/math] бит и имеет диапазон от [math]2[/math][math]-1023[/math] до [math]2[/math][math]1023[/math], поэтому смещение равно [math]1023[/math]([math]10[/math]) [math]=[/math] [math]1111111111[/math]([math]2[/math]). Наконец, бит с номером [math]63[/math] указывает на знак числа.

Таким образом, из вышесказанного вытекает следующий алгоритм для получения представления действительного числа в памяти ЭВМ:

  1. перевести модуль данного числа в двоичную систему счисления;
  2. нормализовать двоичное число, т.е. записать в виде M [math] \times [/math]2p, где M &#151; мантисса (ее целая часть равна [math]1[/math]([math]2[/math])) и p &#151; порядок, записанный в десятичной системе счисления;
  3. прибавить к порядку смещение и перевести смещенный порядок в двоичную систему счисления;
  4. учитывая знак заданного числа (0 &#151; положительное; 1 &#151; отрицательное), выписать его представление в памяти ЭВМ.

Пример. Запишем код числа [math]-312[/math],[math]3125[/math].

  1. Двоичная запись модуля этого числа имеет вид [math]100111000{,}0101[/math].
  2. Имеем [math]100111000{,}0101[/math] [math]=[/math] [math]1{,}001110000101[/math][math]\times[/math][math]2[/math][math]8[/math].
  3. Получаем смещенный порядок [math]8[/math] [math]+[/math] [math]1023[/math] [math]=[/math] [math]1031[/math]. Далее имеем [math]1031[/math]([math]10[/math]) [math]=[/math] [math]10000000111[/math]([math]2[/math]).
  4. Окончательно
    1 10000000111 0011100001010000000000000000000000000000000000000000
    63 62..52 51..0


Очевидно, что более компактно полученный код стоит записать следующим образом: C073850000000000(16).

Другой пример иллюстрирует обратный переход от кода действительного числа к самому числу.

Пример. Пусть дан код 3FEC600000000000(16) или

    0 01111111110 1100011000000000000000000000000000000000000000000000
    63 62..52 51..0


  1. Прежде всего замечаем, что это код положительного числа, поскольку в разряде с номером [math]63[/math] записан нуль. Получим порядок этого числа: [math]01111111110[/math]([math]2[/math]) [math]=[/math] [math]1022[/math]([math]10[/math]); [math]1022[/math] [math]-[/math] [math]1023[/math] [math]=[/math] [math]-1[/math].
  2. Число имеет вид [math]1[/math],[math]1100011[/math][math] \times [/math][math]2[/math][math]-1[/math] или [math]0[/math],[math]11100011[/math].
  3. Переводом в десятичную систему счисления получаем [math]0[/math],[math]88671875[/math].

См. также

Примечания

Ссылки

Использованные материалы

На русском

На английском

Что стоит прочесть