![智能计算:原理与实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/961/45852961/b_45852961.jpg)
1.2.1 支持向量机分类问题
对于二元分类问题在线性可分的条件下,分类方法有很多种。例如,图1.2.1与图1.2.2均可将数据成功进行分类。但图1.2.1所示的分类方法和图1.2.2所示的分类方法哪个更好呢?
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/17_01.jpg?sign=1739191922-tMFm6mjHS7kSuWmBEVWlvN7iMspWpiWc-0-1d79b4b96f163af69ccd45ffc3282553)
图1.2.1 分类方法1
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/17_02.jpg?sign=1739191922-A4LXnqDEeekKiVNPG5QwdwKvduUBeVlJ-0-f6937241473e1b00edc69549bcd654ef)
图1.2.2 分类方法2
对于分类问题,最好的分类方法不但能正确将两类区分开,而且能使区分间隔或分类距离最大,即达到最优的分类方法。如图1.2.3所示,空心球与实心球分别代表两类训练样本,H为分类线,负责把两类样本分开。H1、H2分别为两类样本中过离分类线最近的点且平行于分类线H的直线。H1与H2之间的距离称为分类间隔(margin)。最优分类线即为H,其到H1、H2的距离为1/‖w‖,这样不仅可以将样本分开,并且可以使分类间隔最大。其中,落在H1与H2上的训练样本点称之为支持向量。
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/17_03.jpg?sign=1739191922-63pfLqPf4UsjGyrm5i77NCoVMv5Pfwjq-0-728035c5adc22260ab9dd8ca07ade0f7)
图1.2.3 最优分类原理
设训练样本数据为(x(1),y(1)),(x(2),y(2)),…,(x(N),y(N)),x∈Rd,类别y∈{-1,1}。若线性可分,则表明存在超平面(w·x)+b=0使两类不同的输入分别在该分类面的两侧,即存在参数对(w,b)使
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/17_04.jpg?sign=1739191922-jo6kkeGtUr5FHm69NFgxpKSl5M934Jjc-0-d0d032bc7829a870b5c1d973466865d7)
式中,sgn(·)为符号函数。
构造决策函数f(x)=sgn((w·x(n))+b)。使训练样本成功分类的参数对(w,b)有很多对,图1.2.3表明,最优的分类超平面是训练样本对超平面的几何间隔为1/‖w‖的超平面。此时要满足的条件为
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/17_05.jpg?sign=1739191922-rzJNl9mfYleIvsCcpcRW7sXAXWF3qMIO-0-eca7cf425e79e6bb08d0b91e78bcf50c)
最优分类问题转换为求解二次规划问题:
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_01.jpg?sign=1739191922-QRfblKjiEDDs98CYTjJyfOqPBZKdNOrw-0-066e189597cb24eccb06707b23ec40ab)
式(1.2.3)是不等式条件约束下的二次函数极值问题,根据原始最优化问题的KKT(Karush-Kuhn-Tucker)条件,它的解存在且唯一。求解式(1.2.3)最优解的方法是将其转换为对应的对偶问题。
首先,引入拉格朗日函数
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_02.jpg?sign=1739191922-muL2BmXMTelPtSShuTWYeXCjuQuQplKb-0-df96d4393bbd3413dfcc5e40b7980598)
式中,α=(α(1),α(2),…,α(N))T∈为Lagrange乘子。
由最优化原理可知,需求拉格朗日函数对w和b的微分且令其等于零,即
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_04.jpg?sign=1739191922-iGhbRyQq9tzUnzf2FxIdmGYJ87ius7eU-0-8fd5112897b8e1e13addb4b94a641455)
得到
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_05.jpg?sign=1739191922-VQP35JQzGuQ2gBfAaguBZW7mFqrG9qYm-0-20c355a6be7da6eef2db4180581b2687)
将式(1.2.6)代入式(1.2.4),得原始优化问题对应的对偶函数为
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_06.jpg?sign=1739191922-2PufZEYbeVYYhniE7EWn4gJAu4rHJQ6a-0-4d90a1d882818c5af1e75f3c71b6a5bb)
求解上述问题得到的最优分类函数为
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_07.jpg?sign=1739191922-eRm5dXDsVOEch8xQJCU5S1cM0Bp7yBNM-0-0b03bf3e2eacfa867867ff03f21b5413)
当训练样本线性不可分时,任何分划超平面都会有些错划,这时不能要求所有的训练样本点都满足约束条件y(n)[(w·x(n))+b]-1≥0。为此,可引入松弛变量ξ,将约束条件变为
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_08.jpg?sign=1739191922-wg9xh4Z5yqRtBZGpUic25gQm4iVDypcC-0-4d56882580998934c99708bbdaac2b1e)
向量ξ=(ξ(1),ξ(2),…,ξ(n))T体现了训练样本允许被错划的情况。
选取最优分类函数时,一方面希望分类间隔2/‖w‖尽可能大,另一方面又希望错划程度尽可能小。为此,引进惩罚参数C作为对错分样本的惩罚,以表示分类间隔与错划程度的折中。
此时,最优分类问题为
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/18_09.jpg?sign=1739191922-TKEWdzmI2HDDX0hqOzryQzTZnOBnwHzN-0-d6ce9a50be3b27cabe5038a2e5eaeb46)
通过化简,其最优化问题对应的对偶问题转化为
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/19_01.jpg?sign=1739191922-4WdKE3OTjMAIKeulhW7UXP2wjUVOzZMi-0-b87786925f98841b188f92a281765a9b)
通过观察可知,式(1.2.11)与式(1.2.7)几乎完全相同,唯一的区别只是系数α(n)的约束不同。
统计学习理论指出,在N维空间中,如果样本分布在一个半径为R的超球范围内,若满足条件‖w‖≤d,则其VC维满足的条件为
![](https://epubservercos.yuewen.com/2C2AFB/24975619809585106/epubprivate/OEBPS/Images/19_02.jpg?sign=1739191922-vq4jB9ZEtnqDQb75ELZthSFEB6UqTXeD-0-9d855d42cbabe8d14cf45428cdbb8378)
式(1.2.12)表明,支持向量机的分类方法是在获得较小经验风险的基础上,通过利用分类间隔来控制VC维,使机器学习的复杂度与推广能力得到了很好的折中,体现了结构经验风险最小化原则。