线性回归
原理
机器学习中最简单的模型 也是最流行的模型 速度最快的算法之一 预测输入变量和输出变量之间的关系
分为模型学习和预测两个过程 分为一元回归和多元回归
分为线性回归和非线性回归
目标:尽可能地你和样本数据集,即使误差最小化。带着这个思想去寻找我们的损失函数。
最小二乘损失函数
优化
求解多元回归的系数
正规方程 最小二乘法 梯度下降 批量梯度下贱 Batch Gradient Descent, BGD 可以获得全局最优解 耗时、样本数据量越大,训练速度越慢 随机梯度下降 Stochastic Gradient Descent, SGD 考虑一点样本数据量,训练速度较快 噪音比较多 不一定是全局最优 小批量梯度下降 Mini-batch Gradient Descent, MBGD 避免前两者的缺点 速度快,减少迭代次数
过拟合问题解决方法
建立线性回归模型虽然在训练集上表现很好,在测试集 中表现不好,同样在测试集上的损失函数表现很大,为了解决过拟合,引入正则项。
L1正则化指权值向向量中各元素的绝对值之和 L2正则化指权值向向量中各元素的平方和
优化
平均绝对误差 MAE explained_variance_score
均方根误差 RMSE root_mean_squared_error 值越小,离散程度越小