逻辑回归算法是机器学习中的一个二分类问题的方法,有着实现简单、高效率和解释性较强的有点,在预测分析上有着比较广泛的应用。这篇文章,我们就来介绍下其算法原理。

一、什么叫逻辑回归算法?

逻辑回归是一种用于二分类问题的机器学习方法,它通过一个名为sigmoid的函数(平滑函数)将线性回归的输出映射到0到1之间的概率值,从而进行分类。

尽管名字中包含“回归”,但实际上它是一种分类方法,主要用于二分类问题,同时也推广到了解决多分类问题。

逻辑回归模型的输出是一个概率值,通常,我们会设定一个阈值,当模型输出的概率大于这个阈值时,我们将样本判定为正类,否则判定为负类。

二、逻辑回归算法的原理

逻辑回归的原理就是将线性回归的输出结果通过平滑函数(Sigmoid函数)转换成0-1间的一个概率值。这个概率值为正分类的概率值。

平滑函数的示意图如下:

上面提到逻辑回归一定是在线性回归的基础上。线性回归的Y值分布,正常情况下属于二项分布,在出现样本数据极其不规则时我们认为Y值仍属二项分布。(二项分布的概念可自行了解)

Y值属于正态分布

Y值属于二项分布

对于二项分布问题,如果某个事件发生的概率为 P ,那么该事件不发生的概率为 1−P,该事件的几率定义为发生概率与不发生概率的比值。我们取几率的自然对数(值可为负无穷大与正无穷大)映射为线性分布的y值。

ln(P/(1-P))=y 可得出平滑函数公式

三、逻辑回归算法的应用步骤

1. 数据预处理

2. 确定线性回归模型的参数及Y值

定义一个线性回归模型,使用梯度下降法(GD)(或用最小二乘法)求得线性回归方程参数,然后计算出Y值。

3. 使用平滑函数计算出正类概率

4. 定义概率阈值

根据业务需求,设定一个概率阈值。

5. 预测结果

四、逻辑回归算法的适用边界和优缺点

1. 适用边界

逻辑回归算法适用于二分类问题,即数据只有两个类别。

对于多分类问题,我们可以使用多个逻辑回归模型来解决。此外,逻辑回归算法还要求数据满足一定的假设条件,比如特征之间是线性可分的,数据服从伯努利分布等。

2. 优点
  1. 简单容易实现。
  2. 运算效率比较高,适合处理大规模数据。
  3. 结果可解释性比较强。逻辑回归模型的结果可以转化为概率值,方便我们进行解释和分析。
3. 缺点
  1. 线性可分性:逻辑回归只能处理线性可分的问题,对于非线性可分的数据,逻辑回归的效果会很差。
  2. 处理多分类问题困难:逻辑回归通常只能处理二分类问题,对于多分类问题,需要进行一些额外的处理。
  3. 容易过拟合:如果样本量不足或特征过于复杂,逻辑回归容易过拟合。
  4. 对异常值敏感:逻辑回归对异常值较为敏感,特别是在特征空间较小的情况下,异常值可能对模型的性能产生较大影响。、

五、应用场景

线性回归模型主要是用来预测分析,逻辑回归模型是在线性回归基础上进行的,因此它也主要是用来预测,不过逻辑回归更多用来预测二分类而非具体的值。比如预测房价涨跌问题、预测用户性别、预测用户是否点击商品(页面)、预测用户是否购买指定商品等。更多场景如下:

  1. 信用评估:预测个人或企业的信用风险,帮助银行和金融机构进行信贷决策。
  2. 疾病预测:根据患者的临床特征和医学检测结果,预测患者是否患有某种疾病,如糖尿病、高血压等。
  3. 市场预测:预测市场趋势或产品销售量,帮助企业制定营销策略和业务决策。
  4. 欺诈检测:识别信用卡欺诈、网络诈骗等欺诈行为,帮助金融机构和电商平台提高安全性。
  5. 用户行为分析:预测用户的行为,如购买意愿、流失风险等,以优化个性化推荐和用户体验。
  6. 市场调研:分析市场调研数据,预测消费者对产品或服务的偏好和购买意愿。
  7. 网络点击率预测:预测广告或推广内容的点击率,帮助广告主优化广告投放策略。
  8. 人口统计学研究:分析人口统计数据,预测人口群体的行为和趋势,如选民投票行为、购买决策等。

作者:厚谦,公众号:小王子与月季

本文由@厚谦 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com