1.Abstract

基础算法入门

2.Background

基本无基础

3.Task

【任务2 - 逻辑回归算法梳理】时长:2天 1、逻辑回归与线性回归的联系与区别 2、 逻辑回归的原理 3、逻辑回归损失函数推导及优化 4、 正则化与模型评估指标 5、逻辑回归的优缺点 6、样本不均衡问题解决办法 7. sklearn参数

学习时长:两天

参考:

西瓜书

cs229吴恩达机器学习课程

李航统计学习

谷歌搜索

公式推导参考:http://t.cn/EJ4F9Q0

4.Work

逻辑回归与线性回归的联系与区别 逻辑回归应用于分类问题,是一个非线性的二分类模型,主要是计算在某个样本特征下事件发生的概率,但是它本质上又是一个线性回归模型,除去sigmoid映射函数,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。 逻辑回归与线性回归都属于广义线性回归模型。 线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题。 逻辑回归与线性回归最大的区别就在于它们的因变量不同,线性回归要求因变是连续数值变量,而逻辑回归要求因变量是离散的类型变量。 线性回归是直接分析因变量与自变量的关系,逻辑回归是分析因变量取某个值的概率与自变量的关系。

逻辑回归的原理 逻辑回归将线性回归的输出通过sigmoid函数转换为类别的概率

逻辑回归损失函数推导及优化

正则化与模型评估指标 .当拟合一个高阶多项式时,容易出现过拟合的问题。函数的变量太多,没有足够的数据约束它,这样训练得到的模型无法泛化到新样本中。所以需要正则化减小权重的值。 模型评估指标有:

召回率Recall:样本中的正例有多少被预测准确了,衡量的是查全率,预测对的正例数占真正的正例数的比率: Recall= TP / (TP+FN) 精准率Precision:针对预测结果而言,预测为正的样本有多少是真正的正样本,衡量的是查准率,预测正确的正例数占预测为正例总量的比率: Precision= TP / (TP+FP) 准确率Accuracy:反映分类器对整个样本的判定能力,能将正的判定为正,负的判定为负的能力,计算公式: Accuracy=(TP+TN) / (TP+FP+FN+TN) 逻辑回归的优缺点 优点 - 计算量小,分类简单 缺点 - 只能处理两分类问题

样本不均衡问题解决方法