统计思维:程序员数学之概率统计(第2版)
上QQ阅读APP看书,第一时间看更新

第1章 探索性数据分析

如果能将数据与实际方法相结合,就可以在存在不确定性时解答问题并指导决策,这就是本书的主题。

举个例子。我的妻子在怀第一胎时,我听到了一个问题:第一胎是不是经常晚于预产期出生?下面所给出的案例研究就是由这个问题引出的。

如果用谷歌搜索这个问题,会看到大量的讨论。有人认为第一胎的生产日期确实经常晚于预产期,有人认为这是无稽之谈,还有人认为恰恰相反,第一胎常常会早产。

在很多此类讨论中,人们会提供数据来支持自己的观点。我发现很多论据是下面这样的。

“我有两个朋友最近都刚生了第一个孩子,她们都是超过预产期差不多两周才出现临产征兆或进行催产的。”

“我的第一个孩子是过了预产期两周才出生的,我觉得第二个孩子可能会早产两周!”

“我认为这种说法不对,因为我姐姐是头生子,而且是早产儿。我还有好些表兄妹也是这样。”

这些说法都是基于未公开的数据,通常来自个人经验,因此称为轶事证据(anecdotal evidence)。在闲聊时讲讲轶事当然无可厚非,所以我并不是要批评以上那几个人。

但是,我们可能需要更具说服力的证据以及更可靠的回答。如果按照这个标准进行衡量,轶事证据通常都靠不住,原因有如下几点。

观测值数量较小如果第一胎的孕期的确偏长,这个时间差与正常的偏差相比可能很小。在这种情况下,我们可能需要比对大量的孕期数据,才能确定这种时间差确实存在。

选择数据时存在偏倚人们之所以参与这个问题的讨论,有可能是因为自己的第一个孩子出生较晚。这样的话,这个选择数据的过程就会对结果产生影响。

确认数据时存在偏倚赞同这种说法的人也许更可能提供例子进行佐证。持怀疑态度的人则更可能引用反例。

不精确轶事通常都是个人经验,经常会记错、误传或者误解等。

那我们该如何更好地回答这个问题呢?