![统计学习必学的十个问题:理论与实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/933/44509933/b_44509933.jpg)
3.1 快速理解判别式模型和生成式模型
从概率的角度来理解数据有着两个不同的角度,假设我们有5个数据点,每个数据都只有一个特征x和一个目标值y:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P34_5126.jpg?sign=1738992516-hJj1dzdBjsKwrGS7QWZ0d6mVQmzZI1hh-0-ac508d66ea6a3843402f294d0c361f1b)
一种是条件概率的角度,它描述了目标值相对于数据的特征出现的概率,我们表示为:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P34_5128.jpg?sign=1738992516-yyUOPfhwC5yZXabBFmugFfAqOJq0KcUO-0-a7c721d1ca6186a234479abd22f7b48a)
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P34_5129.jpg?sign=1738992516-yfnfW0wHBvo0gNjUY4KSfFdW3BbAU5pr-0-3bd06988c97b53b1fd5d86c04558499b)
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P34_5130.jpg?sign=1738992516-Khr7HWY0LtwEEC4GBgqmNKLzH4rClQrU-0-c6fc3a102ae05da44d97385fe3fdc989)
另一种是联合概率的角度,它描述了数据的特征和目标值一起出现的概率,我们表示为:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P35_5171.jpg?sign=1738992516-piH4ttwmrUyMgeaxahWpelJwEPm0Y7Z7-0-b87e090d19313edb17aa881b9010fcd9)
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P35_5172.jpg?sign=1738992516-SjNxsm3hdvq92Tz81i9AihlfoxhY9qeP-0-5b5530ab06b27e95156d9b00c9d963c8)
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P35_5173.jpg?sign=1738992516-TpbJKXapSc3t7obNSl5K6cupSPr2x8tA-0-7837258df258187e5d34efb911a92d5a)
这两种角度分别代表了两种不同的建模方法,条件概率是将数据特征与目标值直接联系在一起,对于每一个特征我们只需要计算P(y|x),我们将这样的模型叫作判别式模型(Discriminative Model),可以看到如果是利用判别式模型去预测新的数据x=0,它会给出y=0。联合概率是综合考虑了整个样本空间,对于每一个特征我们需要计算P(y,x),我们将这样的模型叫作生成式模型(Generative Model),如果去预测新的数据x=1,会比较y=1的概率是的概率是
,选择概率较大的y=2。
定理3.1(贝叶斯定理) 贝叶斯定理(Bayes'theorem)可以从全概率公式推导而来,但含义却更加丰富,简而言之,事件发生的条件可能性和依据此条件发生此事,概率是不一样的。我们分别用A和B表示事件,贝叶斯定理写作:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P35_5179.jpg?sign=1738992516-GoE2lNrLT4qWzi2IB3LA5LX0iGwUIZtX-0-1b61782accd26bce9e3ab8706f3eb7d0)
其中,p(A)表示先验,是统计量或者只是假设偏好;p(B|A)是似然函数,是在条件A下的B出现的概率;p(A|B)是后验概率,表示B的出现是因为A的概率,A')P(A')dA'为证据因子,对条件概率的积分表示将所有的事件发生的条件都考虑在内。
生成式模型和判别式模型往往都与贝叶斯定理相联系,见定理3.4。因为有P(x,y)=P(y|x)P(x),联合概率比条件概率还多考虑了数据特征的分布。贝叶斯定理中的后验概率随着我们的任务有着不同的含义,比如在朴素贝叶斯分类器(见第4章)中,事件A和B分别指类别和需要预测的样本,在线性回归或者线性分类算法中,事件A和B分别指条件分布的参数和训练样本。