C#浮点数的表示和基本运算

2019-12-30 14:40:36刘景俊

去掉第一个1,得到尾数

01110101100011100010001

阶码为:-5 + 127 = 122,二进制表示为

0  01111010  01110101100011100010001

最后转换成十六进制
11 C7 3A 3D

5 浮点数的数学运算

5.1 浮点数的加减法

设两个浮点数 X=Mx*2Ex ,Y=My*2Ey

实现X±Y要用如下5步完成:

(1)对阶操作:小阶向大阶看齐
(2)进行尾数加减运算
(3)规格化处理:尾数进行运算的结果必须变成规格化的浮点数,对于双符号位(就是使用00表示正数,11表示负数,01表示上溢出,10表示下溢出)的补码尾数来说,就必须是
001×××…×× 或110×××…××的形式
若不符合上述形式要进行左规或右规处理。
(4)舍入操作:在执行对阶或右规操作时常用“0”舍“1”入法将右移出去的尾数数值进行舍入,以确保精度。
(5)判结果的正确性:即检查阶码是否溢出

若阶码下溢(移码表示是00…0),要置结果为机器0;
若阶码上溢(超过了阶码表示的最大值)置溢出标志。

现在用一个具体的例子来说明上面的5个步骤

例题:假定X=0 .0110011*211,Y=0.1101101*2-10(此处的数均为二进制), 计算X+Y;

首先,我们要把这两个数变成2进制表示,对于浮点数来说,阶码通常用移码表示,而尾数通常用补码表示。

要注意的是-10的移码是00110
        [X]浮: 0        1 010  1100110
        [Y]浮: 0        0 110  1101101
                   符号位 阶码   尾数

(1)求阶差:│ΔE│=|1010-0110|=0100

(2)对阶:Y的阶码小,Y的尾数右移4位
        [Y]浮变为 0 1 010 0000110 1101暂时保存

(3)尾数相加,采用双符号位的补码运算
     00 1100110
   +00 0000110
     00 1101100

(4)规格化:满足规格化要求

(5)舍入处理,采用0舍1入法处理

故最终运算结果的浮点数格式为: 0 1 010 1101101

即X+Y=+0. 1101101*210

5.2 浮点数的乘除法

(1)阶码运算:阶码求和(乘法)或阶码求差(除法)
    即  [Ex+Ey]移= [Ex]移+ [Ey]补
          [Ex-Ey]移= [Ex]移+  [-Ey]补
(2)浮点数的尾数处理:浮点数中尾数乘除法运算结果要进行舍入处理