4 定类-定序列联表的检验统计量_定性数据的统计分析-QQ阅读女生现言网

定性数据的统计分析

上QQ阅读APP看书，第一时间看更新

上一章目录下一章

4 定类-定序列联表的检验统计量

检验统计量M2适用于两个变量都是定序变量的情况。如果一个解释变量是定类的且只有两个类别，则仍然可以使用该统计量。如果定类变量的类别超过两个，就要使用另一种统计量。使用这种统计量的步骤是，计算定序应变量在定类解释变量每一行上的均值，然后比较行均值之间的变差。该统计量具有df=I-1的大样本卡方分布。当I=2时，该统计量等同于比较两行均值之差的M2。

4.1 2×2列联表的概率比

概率比用于量度变量之间的相关，以2×2列联表为例：

Ω是非负数，当分子大于分母时，Ω＞1。概率比之比（或简称概率）等于：

概率又称交叉乘积比或优比。优比可以用来量度列联表中两行里不同两列的概率。以表1-1为例，因为男性和女性的边缘和不相等，所以各列的单元格频次不能互相比较（即各列的女性和男性的数据不能互相比较），必须用各行单元格频次之比n11/n12和n21/n22或单元格概率比Ω1和Ω2比较。如果θ＞1，则女性接受高等教育的概率大于男性；反之（θ＜1），女性接受高等教育的概率小于男性。一般而言，列联表的边际数据分布大多数是不同的，因此将同列的单元格数据进行比较没有意义，只有优比才能正确地反映同列数据的大小。

概率比也可以用条件概率表示：

因此

当θ=1时，Ω1=Ω2，两组条件概率分布（π1（1），π2（1））和（π1（2），π2（2））相等，两个变量相互独立。

当1＜θ＜∞时，必然出现π1（1）＞π1（2），π2（2）＞π2（1），变量正相关。当0≤θ＜1时，必然出现π1（1）＜π1（2），π2（2）＜π2（1），变量负相关。

在一般情况下，总体的π和θ是未知的，我们要用随机样本的频次求θ的估值：

的优点在于，任一行或任一列的频次乘以常数，的值不变。如果行或列的次序颠倒，的值是原值的倒数，方向相反。因此，两个互为倒数且方向相反的表示相同变量的相关程度。

根据算式1-6，当任意单元格频次nij=0时，等于0或∞。因为单元格频次在随机抽样中是一变量，每次随机抽样都会有不同的结果，所以为了避免=0，可用下式替代式1-6：

该式的计算结果只有微小的变化，可以反映变量之间的关系。

4.2 用随机样本的log估计总体的logθ

随机样本的log的标准差为：

总体的logθ的置信区间为：

式中，p是双尾概率。

根据表1-1，样本概率=（471×2078）/（1793×410）=1.33，=0.285。概率表明样本中接受高等教育的男性是女性的1.33倍。=0.285的估计标准误为：

95%置信区间的总体logθ：0.285±1.96（0.075）→（0.140，0.430），相应的总体θ的置信区间为（e0.140，e0.430）→（1.150，1.537）。这个区间不包含1，所以性别和是否接受高等教育是相关的。如果区间包含1，则性别和是否接受高等教育就有可能是相互独立的。

上一章目录下一章