统计学
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章
CHAPTER 2
数据类型与数据收集

2.1 统计数据的类型

统计数据是对现象进行计量或测度的结果,是在统计工作中所取得的反映社会现象和自然现象的数字资料,以及与之相联系的其他资料的总称,它表明现象的特征、规模、结构、水平等,是定性和定量统计分析的基础数据。在进行统计分析时,不同类型的数据采用的统计方法也不同,因此区分数据的类型很重要。统计数据通常有三种分类法:根据所采用的计量尺度的不同,可以分为分类数据、顺序数据和数值型数据;根据统计数据的收集方法的不同,可以分为观测数据和试验数据;根据被描述的现象与时间的关系的不同,可以分为截面数据、时间序列数据和面板数据。

2.1.1 分类数据、顺序数据和数值型数据

1.分类数据

分类数据是只能归于某一类别的非数值型数据,它是对事物进行分类的结果,是分类变量的具体表现,数据表现为类别,是用文字来表达的。例如,性别可以分为男和女两类,因此性别变量的具体表现“男性”“女性”即为分类数据;我国的民族可以分为汉族、满族、藏族、蒙古族、维吾尔族等,因此民族变量的具体表现“汉族”“满族”“藏族”“蒙古族”“维吾尔族”等即为分类数据。虽然也可以用1或0表示男性与女性,用1、2、3、4、5等表示汉族、满族、藏族、蒙古族、维吾尔族等,但是这些数字没有大小比较之分,只是不同类别现象的一个代码,并不代表真正的值,不能进行数学计算。

用分类数据对现象进行分析时,由于不同类别间地位平等,没有高低、大小之分,各变量之间的顺序是可以改变的,因此这种数据也叫无序分类数据,它是数据中最粗略、计量层次最低的数据。

2.顺序数据

顺序数据是只能归于某一有序类别的非数值型数据,是顺序变量的具体表现,数据表现为有顺序的类别。例如,高校教师的职称可以分为助教、讲师、副教授和教授四类,因此职称变量的具体表现“助教”“讲师”“副教授”“教授”即为顺序数据;业主对住房的满意度可以分为很满意、满意、一般、不满意、很不满意五个等级,因此住房满意度变量的具体表现“很满意”“满意”“一般”“不满意”“很不满意”即为顺序数据;某银行的会员卡可以分为银卡、金卡、钻石卡三个等级,因此会员卡等级变量的具体表现“银卡”“金卡”“钻石卡”即为顺序数据。可以用数字1、2、3、4来表示职称数据,用5、4、3、2、1来表示住房满意度数据,用1、2、3表示银行会员卡等级数据,但这些数字代码只能体现一种顺序或程度,不能体现事物之间的具体数量差别。

由于客观现象的不同类别间存在顺序性差异,用顺序数据在对现象进行分析时,其顺序是不能随意排列的,因此这种数据也叫有序分类数据。

3.数值型数据

数值型数据不仅能反映事物所属的类别和顺序,还能反映事物类别或顺序之间的数量差距,有的数据可以通过对比计算来体现数据的相对程度,其结果表现为具体的数值。数值型数据是数值型变量的具体表现,是比顺序数据高一层次的数据,它不仅能将现象区分为不同类型并进行排序,而且可以准确地指出类别之间的差距。数值型数据是最常见的统计数据,现实中处理的数据大多数是数值型数据。例如,某地区企业的产值、利润、固定资产、职工人数、劳动生产率、资金周转率等都是数值型数据。

分类数据和顺序数据只能用文字或数字代码来表现品质特征或属性特征,因此统称为定性数据,也称品质数据;数值型数据用数值来表现事物的数量特征,因此称为定量数据,也称数量数据。

上述三种数据类型对事物的计量层次是由低级到高级、由粗略到精确逐步递进的。高层次数据具有低层次数据的全部特性,只要将高层次数据转化为低层次数据即可,例如,将考试成绩的百分制转化为五级制,相应的数值型数据就转化为顺序数据了。因此,适用于低层次数据的统计方法,也适用于高层次数据。例如,在描述数据的集中趋势时,对分类数据通常是计算众数,对顺序数据通常是计算中位数,但对数值型数据同样也可以计算众数和中位数。反之,适用于高层次数据的统计方法,则不能用于低层次数据,因为低层次数据不具有高层次数据的数学特性。例如,对于数值型数据可以计算数值平均数,但对于分类数据和顺序数据则不能计算数值平均数。

不同类型的数据,运用的统计计算方法也不同。例如,对于分类数据,通常计算出各组的频数或频率,计算其众数和异众比率等;对于顺序数据,可以计算其中位数和四分位差;对于数值型数据,还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。不同类型的数据选用的统计方法也不同。例如,研究分类数据和顺序数据的关系时,可以进行频数分析、列联分析等;研究分类数据与数值型数据的关系时,可以用方差分析等;研究数值型数据之间的关系时,可以进行相关分析与回归分析等。

2.1.2 观测数据和试验数据

1.观测数据

通过调查、观察和观测等手段收集的数据称为观测数据。观测数据是在没有对事物人为控制的条件下,研究人员对调查单位进行观察,并记录感兴趣的变量而获得的数据。有关社会经济现象的统计数据几乎都是观测数据。例如,在微信朋友圈发布一项问卷,收回500份有效问卷,从而可以获得多项观测数据(数据的多少取决于问卷题项的多少和问卷样本量的多少);在某个高峰时段,记录某个路段汽车行驶通过的时间,可以获得一组行车时间的观测数据;利用颗粒物检测仪连续监测粉尘浓度,可以获得监测气体参数和可吸入颗粒物等多项观测数据。

例2-1 2023年年末,某企业对其员工进行基本情况调查,假设该企业有3 500名职工,调查题项有性别、学历、工龄、月薪等共k个题项,数据结构如表2-1所示,表中数据通过调查问卷获得,共获得3 500k个观测数据。其中,性别数据为无序分类数据,学历数据为有序分类数据,工龄数据和月薪数据为数值型数据。

表2-1 2023年年末某企业员工基本情况

2.试验数据

通过试验手段获得的数据称为试验数据。试验数据是研究人员在试验中控制试验单位(人、目标或事件)而收集到的数据。自然科学领域的数据大多数都为试验数据。例如,科学家为了研究某种新药疗效进行试验,他们挑选了两组试验者,给其中一组试验者的是新药,给另一组试验者的是包装相同但实为维生素的安慰药片,并且对医生和两组试验者保密,不告诉他们服用的是新药还是维生素药片,3个月后观察两组试验者的各种数据。在这样的试验设计中,通常把第一组称为治疗组,第二组称为对照组,通过试验设计,研究人员在研究的试验单位上施加了严格的控制,从而收集到两组独立的样本试验数据,并从数据中获得更多的信息。

在试验设计中,有时会设计两组相关的样本试验数据来进行研究,统计学中把这样的两个样本称为配对样本。配对样本的两个变量是相关的,因为会对同一对象测两次,前测和后测的结果都有一个对象对应,而且配对样本的两组样本容量必然相同。配对试验对试验对象进行前测与后测,获取前后两组数据,并研究两组有无显著性的差异。

例2-2 用某种方法抽取20位成年女性进行减肥茶的配对试验,分别测量这20个人喝减肥茶前的体重和喝减肥茶2个月后的体重,获得20对配对样本数据,如表2-2所示。研究人员可以根据这些配对样本数据,检验成年女性喝减肥茶前后的体重数据有无显著性差异。

表2-2 减肥茶配对试验中获得的20对配对样本数据

观测数据与试验数据的区别如下。

(1)观测数据是指通过直接调查或观测收集的数据,社会经济领域的统计数据基本上都是观测数据。观测数据是为了从收集到的样本中得出有关总体的一些结论。

(2)试验数据是通过对试验对象、试验环境及试验过程进行有效控制而获得的统计数据。这些数据主要用于考察变量之间的因果关系。

2.1.3 截面数据、时间序列数据和面板数据

1.截面数据

截面数据是指某一总体中的不同个体在相同或近似相同时间上的数据表现,它反映的是在相同时间上同类现象的数量特征在不同空间状态下的差异情况。例如,2023年上海市各区的生产总值数据就是截面数据。

2.时间序列数据

时间序列数据是指将同一总体在不同时间上的某一变量数值,按照时间的先后顺序排列而形成的数据序列。例如,将2000—2023年上海市的生产总值数据按照时间先后顺序排列,就形成了上海市生产总值时间序列数据。

3.面板数据

面板数据是指总体中的不同个体在不同时间上的数据表现,是时间序列数据与截面数据的结合。例如,按时间顺序列出2000—2023年上海市各区的生产总值数据,就形成了面板数据。面板数据是一种特殊的数据形式,例如,统计60家公司10年的财务数据,最终会有600(=60×10)行数据,如表2-3所示。

表2-3 60家公司10年的财务数据