
上QQ阅读APP看书,第一时间看更新
2.1.2 数据的不确定性
通常,大部分数据都是估算的,并不精确。分析师会研究一个样本,并据此猜测整体的情况。人们会基于自己的知识和见闻来猜测,即使大多时候所猜测的是正确的,但仍然存在不确定性。例如,笔记本电脑上的电池寿命估计会按小时增量跳动,地铁预告说下一班车将会在10分钟内到达,但实际上是11分钟,或者预计在周一送达的一份快件往往周三才到。
如果数据是一系列平均数和中位数,或者是基于一个样本群体的一些估算,就应该时时考虑其存在的不确定性。当人们基于类似全国人口或世界人口的预测数做影响广泛的重大决定时,这一点尤为重要,因为一个很小的误差可能会导致巨大的差异。
换个角度,想象有一罐彩虹糖,你想猜猜罐子里每种颜色的彩虹糖各有多少颗。如果把一罐彩虹糖统统倒在桌子上,一颗颗数,那就不用再估算。但是,如果只能抓一把,然后基于手里的彩虹糖推测整罐的情况,这一把抓得越多越大估计值就越接近整罐的情况,也就越容易猜测。相反,如果只能拿一颗彩虹糖,那几乎无法推测罐子里的情况。
只拿一颗彩虹糖,误差会很大。而拿一大把彩虹糖,误差会小很多。如果把整罐都数一遍,误差就是零。当有数百万个彩虹糖装在上千个大小不同的罐子里时,分布各不相同,每一把的大小也不一样,估算就会变得更复杂了。