Международный стандарт представления чисел с плавающей точкой в ЭВМ

Материал из MachineLearning.

Версия от 10:31, 19 октября 2008; Tolstikhin (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Введение
2 Числа с плавающей точкой
- 2.1 Машинный эпсилон
3 Стандарт IEEE
- 3.1 Основание степени
4 Рекомендации программисту
5 Заключение
6 Список литературы

Введение

Практически любой язык программирования даёт возможность использовать в вычислениях дробные числа. Когда дело касается программной реализации численных методов или любых других вычислений на ЭВМ, важным вопросом является внутреннее представление чисел, с которым приходится работать программисту. От этого главным образом зависит точность вычислений,а также их скорость.

В этом отчёте будут рассматриваться те аспекты представления чисел в ЭВМ, которые важны пользователям, желающим активно работать с дробными величинами. Вначале будут введены общепринятые понятия для дальнейшего изложения материала. Будет достаточно подробно рассмотрен наиболее часто используемый стандарт IEEE 754. В заключение будут приведены способы доступа к основным параметрам представления дробных чисел в ряде языков программирования (C,C++,Fortran,Pascal).

Числа с плавающей точкой

Числа с плавающей точкой - общепринятая форма представления дробных чисел в ЭВМ. Основными параметрами такой формы представления является основание степени $\beta$ (base) и точность $p$ (precision). При этом всегда требуется, чтобы основание степени было целым чётным числом. Если $\beta=10$ и $p=3$ , то число 0.1 представляется в виде $1.00\times 10^{-1}$ . Однако, очевидно, что при определённых параметрах некоторые числа не удастся представить точно. Например, при $\beta=2$ и $p=24$ то же самое число 0.1 представляется приблизительно в виде $1.10011001100110011001101\times 2^{-4}$ (поскольку в бинарном представлении число 0.1 имеет бесконечный вид).

В общем случае при заданных параметрах запись вида $d_0.d_1d_2 \dots d_{p-1}\times\beta^e$ представляет число

$\pm\left(d_0+d_1\beta^{-1}+d_2\beta^{-2}\dots+d_{p-1}\beta^{p-1}\right)\beta^e,\ ( 0\leq d_i<\beta )$

При этом $d_0.d_1d_2 \dots d_{p-1}$ называется мантиссой числа и состоит из $p$ позиций. В дальнейшем под числом с плавающей точкой мы будем понимать дробные числа точно представимые в смысле данной формы.

Существуют ещё два важных параметра — максимальный и минимальный показатели степени $e_{max}$ и $e_{min}$ . Таким образом, при фиксированных параметрах мы можем представить $2\left(e_{max}-e_{min}+1\right)\beta^p$ разных чисел с учётом знака.

Здесь возникает проблема - что делать с числами, не представимыми точно. Чаще всего такая ситуация возникает при попытке представить числа, имеющие слишком длинное или вообще бесконечное представление (пример с 0.1). В этом случае нужное нам число лежит где-то между двумя числами с плавающей точкой и будет представляться одним из них. Реже встречается попытка использовать числа, меньшие чем $1.0\times\beta^{e_{min}}$ , или большие чем $\beta.0\times\beta^{e_{max}}$ . Подробнее об этих случаях речь пойдёт в разделе "Стандарт IEEE".

Введём ещё одну договорённость. Пока что представление чисел с плавающей точкой неуникально. Например, при $\beta=10$ и $p=3$ число 0.1 можно представить как $0.01\times 10^{1}$ и как $1.00\times 10^{-1}$ . Представление числа, в старшей позиции которого стоит цифра, отличная от нуля $\left(d_0\neq 0\right)$ , мы будем называть нормализованным. Использование нормализованных форм решает проблему неединственности представления чисел с плавающей точкой. (Однако, при такой договорённости возникает интересный вопрос — как представлять 0?)

Машинный эпсилон

Как известно, существует 2 вида погрешностей вычисления — абсолютная и относительная (Ошибки вычислений). Под относительной погреностью понимается отношение

$\delta(\tilde a)=\frac{|\tilde a-a|}{a},$

где $\tilde a$ – значение, полученное при округлении, а $a$ - точное значение вычислений.

Представим, что результатом округления действительного числа стало число $d.dd\dots d\times\beta^e$ . Худшему случаю округления соответствует абсолютная погрещность, равная $0.00 \dots 0\beta'\times\beta^e$ , где $\beta'=\beta/2$ . В мантиссе результата округления $p$ позиций , в мантиссе абсолютной погрешности $p+1$ позиция.

При попытке написать неравенство для относительной погрешности, соответствующей упомянутой выше абсолютной погрешности, несложно получить, что

$\left(1/2\right)\beta^{-p}\leq\delta\leq\left(\beta/2\right)\beta^{-p}$ .

Величину $\eps=\left(\beta/2\right)\beta^{-p}$ принято называть машинным эпсилоном (machine epsilon). Таким образом можно утверждать, что при округлении дробного числа ближайшим к нему числом с плавающей точкой относительная погрешность округления не превосходит машинного эпсилона.

Существует и другое определение. Машинный эпсилон можно определить как минимальное положительное число, которое будучи прибавлено к единице даёт результат отличный от единицы. Читателю предлагается проверить эквивалентность этих определений самостоятельно.

Стандарт IEEE

Существует два разных стандарта IEEE для чисел с плавающей точкой. IEEE 754 - двоичный стандарт и требует, чтобы $\beta=2$ , а $p=24$ для одинарной точности (single) и $p=53$ для двойной точности (double). Также в стандарте IEEE 754 точно обговорено использование битов при представлении чисел в одинарной и двойной точностях. В стандарте IEEE 854 $\beta$ может принимать значение 10 или 2. Также ничего не говорится о распределении битов между мантиссой и степенью.

Понятие стандарт IEEE используется для обозначения свойств, присущих обоим из перечисленных стандартов.

Основание степени

Выбор в качестве основания степени 10 не требует особых разъяснений. Десятичная система - система, привычная для человека. В случае двоичной системы стоит обсудить некоторые достоинства, присущие ей. Мы договорились использовать нормализованные формы чисел. Если $\beta=2$ , то в старшей позиции может стоять только 1. Это даёт нам возможность не хранить эту единицу в памяти и тем самым получить дополнительный рабочий бит. В этом случае принято говорить, что стандарт использует скрытый бит (hidden bit).

Вернёмся к вопросу о представлении нуля в нормализованной форме. Ноль соответствует нулевой мантиссе и степени $e_{min}-1$ . Таким образом ноль представляется в виде $1.0\times 2^{e_{min}-1}$ .

Заключение

Список литературы

David Goldberg. What Every Computer Scientist Should Know About Floating-Point Arithmetic. ACM Computing Surveys, Vol. 23, No. 1 (March 1991), pages 5--48.

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D0%B6%D0%B4%D1%83%D0%BD%D0%B0%D1%80%D0%BE%D0%B4%D0%BD%D1%8B%D0%B9_%D1%81%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%87%D0%B8%D1%81%D0%B5%D0%BB_%D1%81_%D0%BF%D0%BB%D0%B0%D0%B2%D0%B0%D1%8E%D1%89%D0%B5%D0%B9_%D1%82%D0%BE%D1%87%D0%BA%D0%BE%D0%B9_%D0%B2_%D0%AD%D0%92%D0%9C»

Категория: Незавершённые статьи

Международный стандарт представления чисел с плавающей точкой в ЭВМ

Материал из MachineLearning.

Содержание

Введение

Числа с плавающей точкой

Машинный эпсилон

Стандарт IEEE

Основание степени

Рекомендации программисту

Заключение

Список литературы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты