专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
51好读  ›  专栏  ›  生信媛

所见非所得,聊聊R语言的浮点型之坑

生信媛  · 公众号  · 生物  · 2019-12-19 21:19

正文

请到「今天看啥」查看全文



就在刚刚,果子学生信上推送了一篇 眼见不为实:为什么29不等于29? ,这里就从计算机存储原理上讲讲,为什么29不等于29.

我们可能都知道,计算机以二进制的方式存储数字,举两个例子:

对于整型的125,在十进制里是1*100 + 2*10+ 5*1,而对应的二进制形式是1111101(64 + 32 + 16 + 8 + 4 + 0 + 1)。

对于浮点型的0.125,在十进制里是1/10 + 2/100 + 5/1000,对应二进制下的0.001,即0/2 + 0/4 + 1/8。

在不溢出的情况下,基本上所有十进制上的整型都能无损转成二进制。但是对于浮点型,就不能保证所有十进制下的小数都能无损转成二进制的表示方式。举个例子,假如你要在二进制下表示0.1(1/10),已知0.1小于我们之前的0.125,因此它不能是0.001, 那么它是0.0001吗?然而0.0001对应的是1/16,也就是0.0625,比0.1小。0.00011对应0.9375, 稍微靠近了0.1,0.000111对应0.109375比0.1大,0.0001101对应0.1015625依旧比0.1大,0.00011001对应0.09765625又靠近了0.1。也就是说,0.1在二进制中这是一个无限循环小数。

0.0001100110011001100110011001100110011001100110011...

这就类似于试图用小数形式描述十进制下的1/3,只可能是0.3333333...。

循环是无限的,但是计算机存储是有限的,不能用有限的空间来存放无限的循环。因此对于不同编程语言,它们都会为不同的数据类型分配不同的内存大小。对于浮点数运算而言,基本上所有的编程语言都用的是IEEE 754标准。

例如Python的PEP 754就是关于它的浮点型存放方式。在R里面用 ?as.double 查看帮助文档时也能发现R也遵从IEEE 754。这里不在拓展介绍这个标准,只是为了说明我们只能用有限的空间来将就无限循环的小数。因此,大部分的小数都可能不是你看到的样子。大部分的编程语言,其实都会在浮点型运算结果中给你体现出这种差异,比方说Python

>>> 0.1 + 0.2
0.30000000000000004

看到这个结果,你就会好奇为啥0.1+0.2的结果不是0.3,不会好奇为啥0.3不等于0.3。但是在R语言中,你会好奇为啥0.3不等于0.3, 因为明明看起来一样啊

> 0.1 + 0.2
[1] 0.3
> (0.1+0.2) == 0.3
[1] FALSE

如果你想看到它的实际值,就需要借助于 sprint 这个函数了

sprintf("%.20f", 0.1 + 0.2 )
[1] "0.30000000000000004441"

因此,在R语言做浮点运算时,一定要谨慎,可以考虑用Hadley开发的 dplyr

library(dplyr)
near(0.1+0.2, 0.3)


还有kaopuber提到的 如何避免浮点数计算的坑


推荐阅读

- 眼见不为实:为什么29不等于29?







请到「今天看啥」查看全文