1.Abstract

基础算法入门

2.Background

基本无基础

3.Task

【任务1 - 线性回归算法梳理】时长:2天

机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证 线性回归的原理 线性回归损失函数、代价函数、目标函数 优化方法(梯度下降法、牛顿法、拟牛顿法等) 线性回归的评估指标 sklearn参数详解

4.Work

一、 机器学习的一些概念 1.有监督学习: 训练数据有标记

2.无监督学习: 训练数据没有标记

3.泛化能力: 学得模型适用于新样本的能力

4.过拟合欠拟合(方差和偏差以及各自解决办法):

(1)过拟合: 当学习器把训练样本学得太好时,可能已经把训练样本自身的一些特点当作了所有潜在样本都会有的一般性质,这样就会导致泛化性能下降。 解决方法: 重新清洗数据、增大数据的训练量、采用正则化方法。

(2)欠拟合: 训练样本的一般性质尚未学好。 解决方法: 添加其他特征项、添加多项式特征、减少正则化参数。

5.交叉验证: 将原始数据进行分组,一部分做为训练集,另一部分做为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来做为评价分类器的性能指标。

二、线性回归的原理 线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。

三、线性回归损失函数、代价函数、目标函数 å�¨è¿�é��æ��å�¥å�¾ç��æ��è¿°

1.梯度下降法: (1) 先确定向下一步的步伐大小,我们称为学习率α; (2) 任意给定一个初始值:θ; (3) 确定一个向下的方向,并向下走预先规定的步伐,并更新θ值; (4) 当下降的高度小于某个定义的值ε,则停止下降。

2.牛顿法: (1) 随机选取起始点x0 (2) 计算目标函数f(x)在该点xk的一阶导数和海森矩阵; (3) 依据迭代公式xk+1=xk−Hk-1f’k更新x值

(4) 如果E(f(xk+1)−f(xk))<ϵ,则收敛返回,否则继续步骤2,3直至收敛

四、线性回归的评估指标 1.MSE: 均方误差是指参数估计值与参数真值之差平方的期望值。

2.RMSE: 均方根误差是均方误差的算术平方根

3.MAE: 平均绝对误差是绝对误差的平均值

五、sklearn参数详解 sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)

fit_intercept: 布尔类型,可选参数,默认为true;设置模型是否计算截距,false表示不使用截距。

normalize: 布尔类型,可选参数,默认值为false;是否对数据进行归一化处理。

copy_X: 布尔类型,可选参数,默认值为true;如果为true,x将被复制;否则被重写。

n_jobs: int类型,可选参数,默认值为1;如果设为1,将启动所有CPU。