4.1 逻辑回归简介
我们在第3章研究了线性回归的模型建立和参数解集的求解策略,但是,当数据关系呈现非线性化特征时,换句话说,我们需要处理分类任务时线性回归模型就遇到了瓶颈,解决方案是将线性回归模型进行升级。因为多元线性回归的结果是一个连续数值,因此需要找到一个函数,这个函数能够将线性回归结果(线性回归的预测值)转换为数据集合中的标签值。比如有一个二分类模型,目的是通过不同的人体数据区分男人和女人,标签值中有两种类型,比如男人是0,女人是1。我们通过人体数据的线性组合可以求得一个实数(比如4.5),因此需要通过一个单调函数将这些实数映射成0或者1。
完成这个工作有很多选择,最简单的方式是建立一个分段函数:当输入值是大于0的实数的时候,输出值是1;当输入值是小于0的实数的时候,输出值为0;0点的输出值是0.5。
但是我们的完美选择有一个小小的问题,就是上述函数在实数范围内不可微,这种不可微的特性导致梯度下降算法难以起效。因此,需要找到这个函数的替代函数,这种函数要单调可微,而且要保持分段函数的数据特性。我们可以比较容易地想象出这样的函数在原点附近斜率会急剧变化,因此对数概率函数(或者称作逻辑函数(Logistics Function))成为我们的可靠选择。
从图4.1可以清楚地看到对数概率函数和分段函数在性质上的统一性。
图4.1 逻辑函数图像
我们将函数表达式中的z替换成线性回归表达式,可以得到如下表达式:
整理后可以得到:
因此,表达式可以指导我们使用线性回归的模型结果来与当前的标签值的对数概率进行比较,目的是使模型结果能够和数据集的标签的对数概率保持一致。逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上套用了一个逻辑函数,但就是由于这个逻辑函数,使得逻辑回归模型成为机器学习领域一个重要的模型。