上QQ阅读APP看书，第一时间看更新

前言

本书介绍探索性数据分析的实用工具，书中章节按照我自己处理数据集时遵循的步骤进行组织。

•导入和清洗：无论数据格式如何，我们通常都需要花费一些时间和精力进行数据的读取、清洗和变换，并进行检查，以确保在此过程中信息完好无损。

•单变量探索：通常情况下，我会首先逐个检查变量，弄清变量的意义，分析变量值的分布，选择合适的汇总统计量。

•成对探索：为了发现变量之间的关系，我会分析表格和散点图，计算相关性并进行线性拟合。

•多变量分析：如果变量之间存在明显关系，我就要使用多元回归以增加控制变量，从而研究更复杂的关联关系。

•估计和假设检验：在汇报统计结果时，有3个重要问题需要回答。效应规模如何？再次运行同一测量时，预期的变化性有多大？这个明显的效应是否可能是偶然产生的？

•可视化：在数据探索中，可视化是寻找可能关系和效应的一个重要工具。如果一个明显的效应是统计显著的，那么可视化可以帮助我们有效地展示结果。

本书采用的是计算方法。相比数学方法，计算方法具有如下优点。

•大多数概念用Python代码进行展示，而非数学符号。总体而言，Python代码的可读性更好，而且这些代码是可执行的，读者可以下载、运行并进行修改。

•每一章都附有练习，可以帮助读者扩展并巩固知识。编写程序时，你把自己对知识的理解表达为代码；调试代码时，这些理解也可以得到修正。

•一些练习使用了实验检验统计行为。例如，你可以通过生成随机样本并计算它们的总和来探索中心极限定理（Central Limit Theorem，CLT）。练习得到的可视化结果展示了CLT的工作原理及适用条件。

•一些概念很难从数学角度进行理解，却很容易通过模拟掌握。例如，通过运行随机模拟对p值进行近似，可以增强我们对p值含义的理解。

•由于本书使用通用编程语言（Python），因此读者几乎可以从任何数据源导入数据，而不必受限于使用特定统计工具进行了清洗和格式化的数据集。

本书使用基于项目的方法。在我的课堂上，学生需要完成一个为期一个学期的项目。在项目中，学生要提出一个统计问题，寻找可以解决这个问题的数据集，并将学到的各种技术应用于这个数据集。

为了展示我采用的统计分析方法，本书将介绍一个贯穿各章的案例。这个案例使用的数据来自以下两方面资源。

•全国家庭增长调查（National Survey of Family Growth，NSFG），这一调查由美国疾病控制和预防中心（Center for Disease Control and Prevention，CDC）开展，以收集“与家庭生活、婚姻状况、妊娠情况、生育情况、避孕情况，以及两性健康相关的信息”。参见http://cdc.gov/nchs/nsfg.htm。

•行为危险因素监测系统（Behavioral Risk Factor Surveillance System，BRFSS），由国家慢性病预防和健康促进中心（National Center for Chronic Disease Prevention and Health Promotion）主持，以“跟踪美国的健康状况及风险行为”。参见http://cdc.gov/BRFSS/。

其他示例使用的数据来自美国国税局（IRS）、美国人口普查（U.S. Census）及波士顿马拉松赛（Boston Marathon）。

《统计思维》的第2版包含了第1版的各章，但对其中很多内容进行了大幅修改，并新增了关于回归、时间序列分析、生存分析和分析方法的章节。本书第1版没有使用pandas、SciPy和StatsModels，所以这些内容也都是新增的。