![定性数据的统计分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/619/23509619/b_23509619.jpg)
4 定类-定序列联表的检验统计量
检验统计量M2适用于两个变量都是定序变量的情况。如果一个解释变量是定类的且只有两个类别,则仍然可以使用该统计量。如果定类变量的类别超过两个,就要使用另一种统计量。使用这种统计量的步骤是,计算定序应变量在定类解释变量每一行上的均值,然后比较行均值之间的变差。该统计量具有df=I-1的大样本卡方分布。当I=2时,该统计量等同于比较两行均值之差的M2。
4.1 2×2列联表的概率比
概率比用于量度变量之间的相关,以2×2列联表为例:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0025_0001.jpg?sign=1739514324-5JIIoVzKehBBeCQhIbznCmEsXAklmLCu-0-54fc6feba829716a693d77824a6eb961)
Ω是非负数,当分子大于分母时,Ω>1。概率比之比(或简称概率)等于:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0025_0002.jpg?sign=1739514324-3dgqjHUuVn5IVrXvsZp8suCkxZct7VRi-0-1fc3f4c79ce7e0c51ee78abf072cca6a)
概率又称交叉乘积比或优比。优比可以用来量度列联表中两行里不同两列的概率。以表1-1为例,因为男性和女性的边缘和不相等,所以各列的单元格频次不能互相比较(即各列的女性和男性的数据不能互相比较),必须用各行单元格频次之比n11/n12和n21/n22或单元格概率比Ω1和Ω2比较。如果θ>1,则女性接受高等教育的概率大于男性;反之(θ<1),女性接受高等教育的概率小于男性。一般而言,列联表的边际数据分布大多数是不同的,因此将同列的单元格数据进行比较没有意义,只有优比才能正确地反映同列数据的大小。
概率比也可以用条件概率表示:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0001.jpg?sign=1739514324-ZNFAmlFRZ4gV4d0kQ6KDlTM3QD2t0ffV-0-84c6335dbe341601d8516724892f2d49)
因此
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0002.jpg?sign=1739514324-fNSg9u4Tz7cyBXLNz9AfhnleXKKQHtRh-0-6186236694a07d5a7496e8a2ae7a42c8)
当θ=1时,Ω1=Ω2,两组条件概率分布(π1(1),π2(1))和(π1(2),π2(2))相等,两个变量相互独立。
当1<θ<∞时,必然出现π1(1)>π1(2),π2(2)>π2(1),变量正相关。当0≤θ<1时,必然出现π1(1)<π1(2),π2(2)<π2(1),变量负相关。
在一般情况下,总体的π和θ是未知的,我们要用随机样本的频次求θ的估值:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0003.jpg?sign=1739514324-h3PvHkmfI3upXJH7lLQuSpOq0MelUWzE-0-0158bee7915527252fa3f1777c5e2b43)
的优点在于,任一行或任一列的频次乘以常数,
的值不变。如果行或列的次序颠倒,
的值是原值的倒数,方向相反。因此,两个互为倒数且方向相反的
表示相同变量的相关程度。
根据算式1-6,当任意单元格频次nij=0时,等于0或∞。因为单元格频次在随机抽样中是一变量,每次随机抽样都会有不同的结果,所以为了避免
=0,可用下式替代式1-6:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0010.jpg?sign=1739514324-WhNgzthgCbKUMWJGAWYNig0MVfiRB8Ek-0-249ca88d1009ed3cb49bab9146268362)
该式的计算结果只有微小的变化,可以反映变量之间的关系。
4.2 用随机样本的log
估计总体的logθ
随机样本的log的标准差为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0001.jpg?sign=1739514324-uBhzvpWoVMK7VG4Ki8UeHbbjE07TkEJU-0-28c827bca93853860e59ab9fefd1f6fd)
总体的logθ的置信区间为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0002.jpg?sign=1739514324-K7h8Gw1gaHa5ldO5fwKAiLNhxoWFBHX8-0-43a4e4a62e8c0cb24c539f761da6e916)
式中,p是双尾概率。
根据表1-1,样本概率=(471×2078)/(1793×410)=1.33,
=0.285。概率
表明样本中接受高等教育的男性是女性的1.33倍。
=0.285的估计标准误为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0007.jpg?sign=1739514324-CFZssfBJsvPUsTxNADPf7Y4exmComPuz-0-a0b01d478fbc2eb4bfff8af439b93f93)
95%置信区间的总体logθ:0.285±1.96(0.075)→(0.140,0.430),相应的总体θ的置信区间为(e0.140,e0.430)→(1.150,1.537)。这个区间不包含1,所以性别和是否接受高等教育是相关的。如果区间包含1,则性别和是否接受高等教育就有可能是相互独立的。