统计思维:程序员数学之概率统计(第2版)
上QQ阅读APP看书,第一时间看更新

前言

本书介绍探索性数据分析的实用工具,书中章节按照我自己处理数据集时遵循的步骤进行组织。

•导入和清洗:无论数据格式如何,我们通常都需要花费一些时间和精力进行数据的读取、清洗和变换,并进行检查,以确保在此过程中信息完好无损。

•单变量探索:通常情况下,我会首先逐个检查变量,弄清变量的意义,分析变量值的分布,选择合适的汇总统计量。

•成对探索:为了发现变量之间的关系,我会分析表格和散点图,计算相关性并进行线性拟合。

•多变量分析:如果变量之间存在明显关系,我就要使用多元回归以增加控制变量,从而研究更复杂的关联关系。

•估计和假设检验:在汇报统计结果时,有3个重要问题需要回答。效应规模如何?再次运行同一测量时,预期的变化性有多大?这个明显的效应是否可能是偶然产生的?

•可视化:在数据探索中,可视化是寻找可能关系和效应的一个重要工具。如果一个明显的效应是统计显著的,那么可视化可以帮助我们有效地展示结果。

本书采用的是计算方法。相比数学方法,计算方法具有如下优点。

•大多数概念用Python代码进行展示,而非数学符号。总体而言,Python代码的可读性更好,而且这些代码是可执行的,读者可以下载、运行并进行修改。

•每一章都附有练习,可以帮助读者扩展并巩固知识。编写程序时,你把自己对知识的理解表达为代码;调试代码时,这些理解也可以得到修正。

•一些练习使用了实验检验统计行为。例如,你可以通过生成随机样本并计算它们的总和来探索中心极限定理(Central Limit Theorem,CLT)。练习得到的可视化结果展示了CLT的工作原理及适用条件。

•一些概念很难从数学角度进行理解,却很容易通过模拟掌握。例如,通过运行随机模拟对p值进行近似,可以增强我们对p值含义的理解。

•由于本书使用通用编程语言(Python),因此读者几乎可以从任何数据源导入数据,而不必受限于使用特定统计工具进行了清洗和格式化的数据集。

本书使用基于项目的方法。在我的课堂上,学生需要完成一个为期一个学期的项目。在项目中,学生要提出一个统计问题,寻找可以解决这个问题的数据集,并将学到的各种技术应用于这个数据集。

为了展示我采用的统计分析方法,本书将介绍一个贯穿各章的案例。这个案例使用的数据来自以下两方面资源。

•全国家庭增长调查(National Survey of Family Growth,NSFG),这一调查由美国疾病控制和预防中心(Center for Disease Control and Prevention,CDC)开展,以收集“与家庭生活、婚姻状况、妊娠情况、生育情况、避孕情况,以及两性健康相关的信息”。参见http://cdc.gov/nchs/nsfg.htm

•行为危险因素监测系统(Behavioral Risk Factor Surveillance System,BRFSS),由国家慢性病预防和健康促进中心(National Center for Chronic Disease Prevention and Health Promotion)主持,以“跟踪美国的健康状况及风险行为”。参见http://cdc.gov/BRFSS/

其他示例使用的数据来自美国国税局(IRS)、美国人口普查(U.S. Census)及波士顿马拉松赛(Boston Marathon)。

《统计思维》的第2版包含了第1版的各章,但对其中很多内容进行了大幅修改,并新增了关于回归、时间序列分析、生存分析和分析方法的章节。本书第1版没有使用pandas、SciPy和StatsModels,所以这些内容也都是新增的。