当前位置：文档之家› 浮点转定点方法总结

浮点转定点方法总结

浮点转定点方法总结—孔德琦目录定点运算方法................................................ 错误!未定义书签。

数的定标 ............................................... 错误!未定义书签。

C语言：从浮点到定点 ................................. 错误!未定义书签。

加法.................................................... 错误!未定义书签。

乘法..................................................... 错误!未定义书签。

除法..................................................... 错误!未定义书签。

三角函数运算............................................ 错误!未定义书签。

开方运算................................................ 错误!未定义书签。

附录...................................................... 错误!未定义书签。

附录1：定点函数库...................................... 错误!未定义书签。

附录2：正弦和余弦表..................................... 错误!未定义书签。

定点运算方法数的定标对某些处理器而言，参与数值运算的数就是16位的整型数。

但在许多情况下，数学运算过程中的数不一定都是整数。

那么，如何处理小数的呢？应该说，处理器本身无能为力。

那么是不是就不能处理各种小数呢？当然不是。

这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。

这就是数的定标。

通过设定小数点在16位数中的不同位置，就可以表示不同大小和不同精度的小数了。

数的定标用Q表示法。

表列出了一个16位数的16种Q表示能表示的十进制数值范围和近似的精度。

表 Q表示、S表示及数值范围从表可以看出，同样一个16位数，若小数点设定的位置不同，它所表示的数也就不同。

例如：16进制数2000H＝8192，用Q0表示16进制数2000H＝，用Q15表示从表还可以看出，不同的Q所表示的数不仅范围不同，而且精度也不相同。

Q越大，数值范围越小，但精度越高；相反，Q越小，数值范围越大，但精度就越低。

例如，Q0的数值范围是-32768到+32767，其精度为1，而Q15的数值范围为-1到，精度为 1/32768 = 。

因此，对定点数而言，数值范围与精度是一对矛盾，一个变量要想能够表示比较大的数值范围，必须以牺牲精度为代价；而想提高精度，则数的表示范围就相应地减小。

在实际的定点算法中，为了达到最佳的性能，必须充分考虑到这一点。

浮点数与定点数的转换关系可表示为：浮点数(x)转换为定点数(x q )：Qq x 2x (int)*=定点数(q x )转换为浮点数(x)：Qq x -*=2)float (x例如，浮点数 x=，定标 Q ＝15，则定点数q x ＝⎣⎦16384327685.0=⨯，式中⎣⎦表示下取整。

反之，一个用 Q ＝15 表示的定点数16384，其浮点数为16384×2-15＝16384/32768=。

1.2 c 语言：从浮点到定点下面所描述的几种基本运算是浮点到定点转换中经常遇到的，从中可以体会到一些基本的技巧和方法。

加法设浮点加法运算的表达式为：float x,y,z; z=x+y;将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标值一样。

若两者不一样，则在做加法/减法运算前先进行小数点的调整。

为保证运算精度，需使Q 值小的数调整为与另一个数的Q 值一样大。

此外，在做加法/减法运算时，必须注意结果可能会超过16位表示，即数的动态范围。

如果加法/减法的结果超出16位的表示范围，则必须保留32位结果，以保证运算的精度。

1．结果不超过16位表示范围设x 的Q 值为Qx ，y 的Q 值为Qy ，且Qx>Qy ，加法/减法结果z 的定标值为Qz ，则z ＝x+yyx z Q q Q q Q q y x z ---⋅+⋅=⋅222=x y x xQ Q Q q Q q y x ---⋅⋅+⋅222)(=x y x Q Q Q q q y x --⋅⋅+2]2[)()()(2]2[x z y x Q Q Q Q q q q y x z --⋅⋅+=一般情况，我们取x,y 和z 的定标值相同，即Qx = Qy = Qz = Qa 。

所以定点加法可以描述为：short x, y, z ; 定点减法:short x, y, z ; 2．结果超过16位表示范围设x 的Q 值为Qx ，y 的Q 值为Qy ，且Qx>Qy ，加法结果z 的定标值为Qz,则定点加法为：int x ，y ； long temp ，z ； temp ＝y<<(Qx-Qy)； temp ＝x ＋temp;z ＝temp>>(Qx-Qz)，若Qx ≥Qz z ＝temp<<(Qz-Qx)，若Qx ≤Qz一般情况，我们取x,y 和z 的定标值相同，即Qx = Qy = Qz = Qa 。

所以定点加法可以描述为： int x, y, z ;定点减法:int x, y, z ; 3. 结果超过32位表示范围这种情况下位数超出了标准c 语言的数的表示范围，只能用数组来保存变量。

定点加法可以描述为：#define NN_DIGIT unsigned int NN_DIGIT x [digits], y [digits], z [digits] ;zQ q z -⋅2)(2y x Q Q q q y x +-⋅⋅q z )(2)(y x z Q Q Q q q y x +-结果超过32位表示范围这种情况下位数超出了标准c 语言的数的表示范围，只能用数组来保存变量。

定点乘法可表示为：#define NN_DIGIT unsigned intNN_DIGIT x [digits]; NN_DIGIT y [digits]; NN_DIGIT z [2* digits]; NN_Mult (z, x, y, digits);应注意的是以上32位乘法都是无符号数操作，如果需要做有符号数乘法，则需要根据乘数的符号来判断。

例1设x = ，y = ，则浮点运算值为z =× = ; 设 Qx = 10，Qy = 9，Qz = 5，所以 int x = 18841；32位除法设浮点除法运算的表达式为：float x,y,z; z = x/y;假设经过统计后被除数x 的定标值为Qx ，除数y 的定标值为Qy ，商z 的定标值为Qz ，则z = x/yzQ q z -⋅2= yx Q q Q q y x --⋅⋅22qQ Q Q q q y x z y x z )(2+-⋅=所以定点表示的除法为：int x,y,z;z = L_shl(x, (Qz-Qx+Qy) )/y; 32位以上的除法这种情况下位数超出了标准c 语言的数的表示范围，只能用数组来保存变量。

#define NN_DIGIT unsigned intNN_DIGIT x [2*digits]; tab_cos[t]tab_cos[t+1]position2 + *x + <abs(x)<5拟合可以调用matlab 的命令ployfit 来做，例如： x=[start::stop]; y=atan(x);pa=polyfit(x,y,2);上式中的运算都是简单的乘法运算，较为简单。

开方运算浮点开方运算描述为： float x, y; y = sqrt(x);定点求开方有多种方法，各种方法在收敛速度上不尽相同，下面介绍几种常用的迭代算法。

1．Newton-Raphson-Babylonian 算法：给定整数N, 求sqrt(N)。

首先确定初值x[0], 然后利用一个简单的迭代公式： x[n+1] = (x[n] +N/x[n])/2迭代次数的选择：迭代次数与初值x[0]的选取很有关系，x[0]越接近sqrt(N), 收敛越快。

但总的来说，该方法收敛较快。

缺点是收敛时间不确定。

2．确定收敛速度的算法：该方法描述如下：int sqrt(int x){ int test, step;if (x < 0) return(-1); if (x == 0) return(0);step = 1<<15;test = 0;while (step != 0){register int h;h = (test + step) * (test + step);if (h <= x) {test += step;}if (h == x) break;step >>= 1;}return(test);}以上例子是32位开放运算，32位以上的开方运算可参考附录1 void fixsqrt(UINT4* a, UINT4* b,int digits)，方法同上。

求开方还可以运用线性拟合的方法，由于曲线变化较快，必须根据自变量的范围分段拟合才能达到理想的精度。

附录附录1：定点函数库/*___________________________________________________________________________| | | Function Name : L_add | | | | Purpose : | | | | 32 bits addition of the two 32 bits variables (L_var1+L_var2) with | | overflow control and saturation; the result is set at +47 when || overflow occurs or at -48 when underflow occurs. || | | Complexity weight : 2 | | | | Inputs : | | | | L_var1 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. | | | | L_var2 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. || | | Outputs : | | | | none | | | | Return Value : | | | | L_var_out | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var_out <= 0x7fff ffff. | |___________________________________________________________________________| */Word32 L_add(Word32 L_var1, Word32 L_var2)/*___________________________________________________________________________ | | | Function Name : L_sub | | | | Purpose : | | | | 32 bits subtraction of the two 32 bits variables (L_var1-L_var2) with | | overflow control and saturation; the result is set at +7 when || overflow occurs or at -8 when underflow occurs. || | | Complexity weight : 2 | | | | Inputs : | | | | L_var1 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. | | | | L_var2 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. | | | | Outputs : | | | | none | | | | Return Value : | | | | L_var_out | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var_out <= 0x7fff ffff. ||___________________________________________________________________________| */Word32 L_sub(Word32 L_var1, Word32 L_var2)/*___________________________________________________________________________ | | | Function Name : add | | | | Purpose : | | | | Performs the addition (var1+var2) with overflow control and saturation;| | the 16 bit result is set at +32767 when overflow occurs or at -32768 | | when underflow occurs. | | | | Complexity weight : 1 | | | | Inputs : | | | | var1 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | var2 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | Outputs : | | | | none | | | | Return Value : | | | | var_out | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var_out <= 0x0000 7fff. | |___________________________________________________________________________| */Word16 add(Word16 var1,Word16 var2)/*___________________________________________________________________________| | | Function Name : sature | | | | Purpose : | | | | Limit the 32 bit input to the range of a 16 bit word. | | | | Inputs : | | | | L_var1 | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var1 <= 0x7fff ffff. | | | | Outputs : | | | | none | | | | Return Value : | | | | var_out | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var_out <= 0x0000 7fff. | |___________________________________________________________________________| */Word16 sature(Word32 L_var1)/*___________________________________________________________________________ | | | Function Name : sub | | | | Purpose : | | | | Performs the subtraction (var1+var2) with overflow control and satu- | | ration; the 16 bit result is set at +32767 when overflow occurs or at | | -32768 when underflow occurs. | | | | Complexity weight : 1 | | | | Inputs : | | | | var1 | | 16 bit short signed integer (Word16) whose value falls in the || range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | var2 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | Outputs : | | | | none | | | | Return Value : | | | | var_out | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var_out <= 0x0000 7fff. | |___________________________________________________________________________| */Word16 sub(Word16 var1,Word16 var2)/*___________________________________________________________________________ | | | Function Name : L_mult | | | | Purpose : | | | | L_mult is the 32 bit result of the multiplication of var1 times var2 | | with one shift left .: || L_mult(var1,var2) = shl((var1 times var2),1) and | | L_mult(-32768,-32768) = 47. || | | Complexity weight : 1 | | | | Inputs : | | | | var1 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | var2 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | Outputs : || | | none | | | | Return Value : | | | | L_var_out | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var_out <= 0x7fff ffff. | |___________________________________________________________________________| */Word32 L_mult(Word16 var1,Word16 var2)/* Computes the square root of a fixpoint number a = square(b).*//* length :a[digits], b[2*digits] */void fixsqrt(UINT4* a, UINT4* b, int digits){Returns carry.Lengths: a[digits], b[digits], c[digits].*/NN_DIGIT NN_Add (a, b, c, digits)NN_DIGIT *a, *b, *c;unsigned int digits;/* Computes a = b - c. Returns borrow.Lengths: a[digits], b[digits], c[digits].*/NN_DIGIT NN_Sub (a, b, c, digits)NN_DIGIT *a, *b, *c;unsigned int digits;/* Computes a = b * c.Lengths: a[2*digits], b[digits], c[digits].Assumes digits < MAX_NN_DIGITS.*/void NN_Mult (a, b, c, digits)NN_DIGIT *a, *b, *c;unsigned int digits;/* Returns sign of a - b. */int NN_Cmp (a, b, digits)NN_DIGIT *a, *b;unsigned int digits;/* Computes a = b * 2^c ., shifts left c bits), returning carry.Requires c < NN_DIGIT_BITS. */NN_DIGIT NN_LShift (a, b, c, digits)NN_DIGIT *a, *b;unsigned int c, digits;/* Computes a = b div 2^c ., shifts right c bits), returning carry.Requires: c < NN_DIGIT_BITS. */NN_DIGIT NN_RShift (a, b, c, digits)NN_DIGIT *a, *b;unsigned int c, digits;/* Returns the significant length of a in digits. */unsigned int NN_Digits (a, digits)NN_DIGIT *a;unsigned int digits;/* Assigns a = 0. */void NN_AssignZero (a, digits)NN_DIGIT *a;unsigned int digits;/* Assigns a = b. */void NN_Assign (a, b, digits)NN_DIGIT *a, *b;unsigned int digits;/* Computes a * b, result stored in high and low. */static void dmult( a, b, high, low)NN_DIGIT a, b;NN_DIGIT *high;NN_DIGIT *low;/* Computes a = c div d and b = c mod d..Lengths: a[cDigits], b[dDigits], c[cDigits], d[dDigits].Assumes d > 0, cDigits < 2 * MAX_NN_DIGITS,dDigits < MAX_NN_DIGITS.*/void NN_Divmod (a, b, c, cDigits, d, dDigits)NN_DIGIT *a, *b, *c, *d;unsigned int cDigits, dDigits;/* Computes a = c div d.Lengths: a[cDigits], b[dDigits], c[cDigits], d[dDigits].Assumes d > 0, cDigits < 2 * MAX_NN_DIGITS,dDigits < MAX_NN_DIGITS.*/void NN_Div(a, c, cDigits, d, dDigits)NN_DIGIT *a, *c, *d;unsigned int cDigits, dDigits;{Lengths: a[cDigits], b[bDigits], c[cDigits].Assumes c > 0, bDigits < 2 * MAX_NN_DIGITS, cDigits < MAX_NN_DIGITS. */void NN_Mod (a, b, bDigits, c, cDigits)NN_DIGIT *a, *b, *c;unsigned int bDigits, cDigits;{NN_DIGIT t[2 * MAX_NN_DIGITS];NN_Divmod (t, a, b, bDigits, c, cDigits);}/* Returns the significant length of a in bits, where a is a digit. */static unsigned int NN_DigitBits (a)NN_DIGIT a;{unsigned int i;for (i = 0; i < NN_DIGIT_BITS; i++, a >>= 1)if (a == 0)break;return (i);}附录2：正弦和余弦表/*-----------------------------------------------------*| Table for calculating sin(x) , fixed Q15.| Author: luj| Date: -----------------------------------------------------*/ Word16 tab_sin[360] = { /*<sin(2*pi*i/360)*2^15>*/};/*-----------------------------------------------------*| Table for calculating cos(x) , fixed Q15.| Author: luj| Date: -----------------------------------------------------*/ Word16 tab_cos[360] = { /*<cos(2*pi*i/360)*2^15>*/};。

e商务文档

浮点转定点方法总结

相关文档推荐：