三回归模型的估计_社会及行为科学研究法（3?资料分析）-QQ阅读中文短篇网

上QQ阅读APP看书，第一时间看更新

三回归模型的估计

在本节的讨论中，都以式（2-4）的回归模型，在不失一般性的前提下，来说明回归模型的不同参数推估法。下面的讨论中将会说明“最小平方法”和“最大概似法”两种参数估计方法的数理内涵。

（一）最小平方法

设给定一组包括依变项Y和k个自变项x1,x2, …,xk的资料，样本数为N，已知回归模型为：

Y=Xβ+e

在此

使用“最小平方法”，所以：

也就是极小化误差变异（sum of squared errors），简称SSE。

eTe=（Y -Xβ）T（Y -Xβ）=YTY -YTXβ -βTXTY+βTXTXβ

极小化要对β微分取一次导数，令其为0而求出方程式解，则：

关于应用最小平方法在回归分析的实例，请参见参考方块2-1。

参考方块 2-1：最小平方法进行简单线性回归分析的实例

根据政治学者黄旻华（2006a）进行的一项研究台湾民众“统独”立场倾向的研究显示，倾向支持独立立场的民众，与其偏向泛绿政党倾向、年龄较长、省籍是闽南籍、具有较低的政治容忍度等特质相关。此项研究是根据“2003年台湾选举与民主化调查”的资料分析而成，样本是针对台湾地区20岁以上成年人进行分层随机抽样所产生，在去除相关遗漏值之后的总样本数为871人，其分析方法采用简单线性回归分析，选入分析的依变项和自变项分别如下。

依变项

“统独立场倾向”由10项测量“统独”意向的问卷题目回答加总而成，分数愈高代表愈倾向独立，愈低则愈倾向统一，范围介于13到40之间。

自变项

1. “政党倾向”，由2000年大选的投票选择来测量，投连战、宋楚瑜、李敖、许信良等为“泛蓝选民”，编码为1，投陈水扁为泛绿选民，编码为0。

2. “性别”，男性编码为0，女性编码为1。

3. “年龄”，介于21岁到83岁。

4. “省籍”，此为一群组变数，分别由两个虚拟变数组成，即“闽南”和“客家”。省籍为闽南籍者，“闽南”变数为1, “客家”变数为0；省籍为客家籍者，“闽南”变数为0, “客家”变数为1；省籍为“外省或其他时”, “闽南”和“客家”两变数皆为0。

5. “政治容忍度”，由受访者对于“主张台湾共和国”或“接受一国两制”的人赞不赞成剥夺其集会游行、在学校教书、竞选公职的权利的六项题目来测量。测量方式是将反对剥夺权利的题数除以总题数，所以政治容忍度最高为1，最低为0。

以最小平方法进行简单线性回归分析的结果如表2-1。

表2-1 “统独”量表的简单线性回归分析

资料来源：黄旻华（2006a: 66）。

在表2-1中，空格中的数字代表回归系数的估计值，括号中的数字是回归系数估计值的标准误，而后面的星号代表显著水准，其中三个星星代表双尾检定的显著水准在α≤0.001之内，两个星星是在α≤0.01之内，而一个星星则为α≤0.05之内，没有星星则代表回归系数的估计值与0的差异并不显著，无法排除是抽样风险所造成的。结果显示，除了性别之外，所有变量皆与“统独”态度的倾向有相关的关系，其中，泛绿民众相对于泛蓝民众、年龄较长相较于年龄较轻者、闽南籍相对于外省及其他、客家籍相对于外省及其他、政治容忍度较低者（负号），其“统独”态度都比较倾向于支持独立，这个模型对于依变项的可解释变异为29.8%。

（二）最大概似法

在统计史上，最大概似法的发明有着划时代的贡献，当代的统计学界将此荣耀颁给了伟大的统计学者Ronald Fisher，但最大概似法概念的应用则早在18世纪就普遍出现在统计学者间。简单而言，最大概似法的推理方法是基于“概似原则”，也就是主张已观测到的经验事件（在尚未发生时），与其他可能发生事件的几率相比，其发生的几率原本就是最大的。

直观来说，最大概似法合理化所有已发生的事件，而套用在回归分析上，假定现在有许多组回归参数的假设Hi可以产生我们所观测到的依变项经验资料值y, “那么在y已知下各组Hi假设为真的几率，会与在已知Hi假设为真的条件下事件E发生的几率，呈某种比例关系”：

因此，假定模式为真的前提下，可定义不同对立假设Hi的概似函数L（Hi）≡P（E|Hi），来找出何组Hi具有最大概似值。在此过程中，不同对立假设Hi的比较，是透过概似比检定，来评价对比假设的概似值在统计上是否有显著的不同。而得出最大概似的参数估计之后，我们便可针对各别参数值进行假设检定。关于最大概似法的学理说明，可进一步参考延伸阅读2。

应用在回归分析的参数推估上，令依变项符合常态分配y～N（μ, σ2），根据概似原则推理，我们所欲求的问题为：在回归系数β为何的条件下，可以让我们观测到的依变项数值其出现几率是最大的。因此最大概似法的目标式：

上式中的μ代表了依变项y的母体平均数，也是我们回归模型的期望值，即：

在此β为固定但未知参数，x的样本已知，且误差项为随机的，E（e）=0，所以：

因此概似函数可表为：

欲求概似函数L（H）最大值，我们先取其对数：

然后对于未知参数β微分取一次导数。由于式（2-13）中，等式右边前两项相对于β皆为常数，微分之后等于0，所以剩下的第三项就等同于对误差平方和的加总进行一次微分，即：

上式等同于最小平方法的推估式，由于计算过程与最小平方法相同，这里不予赘述，请参阅前项有关最小平方法的说明。

值得注意的是，从上面的推导不难看出，在简单线性模型的假设下，最大概似法和最小平方法所求出的回归系数解的相同，事实上这并不是巧合，因为最小平方法的目标式，其实正与常态分配几率密度函数上的指数项形式雷同，因此若从最大概似法的目标式推估法则来看，最小平方法的目标式设定，其实已经隐然地主张了常态分配作为依变项分配的基本假设。

三 回归模型的估计

三回归模型的估计