设为首页
点击收藏
手机版

手机扫一扫访问
迪恩网络手机版
关注官方公众号

微信扫一扫关注
公众号

登陆注册

快速发帖
客服电话

点击联系客服
在线时间：8:00-16:00

客服电话

132-9538-2358

电子邮件
[email protected]
APP下载

迪恩网络APP

随时随地掌握行业动态
官方微信

扫描二维码

关注迪恩网络微信公众号
问题反馈
返回顶部

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

R语言如何和何时使用glmnet岭回归

原作者: [db:作者] 来自: [db:来源] 收藏邀请

这里向您展示如何在R中使用glmnet包进行岭回归（使用L2正则化的线性回归），并使用模拟来演示其相对于普通最小二乘回归的优势。

岭回归

当回归模型的参数被学习时，岭回归使用L2正则化来加权/惩罚残差。在线性回归的背景下，它可以与普通最小二乘法（OLS）进行比较。OLS定义了计算参数估计值（截距和斜率）的函数。它涉及最小化平方残差的总和。L2正则化是OLS函数的一个小增加，以特定的方式对残差进行加权以使参数更加稳定。结果通常是一种适合训练数据的模型，不如OLS更好，但由于它对数据中的极端变异（例如异常值）较不敏感，所以一般性更好。

包

我们将在这篇文章中使用以下软件包：

library(tidyverse)library(broom)library(glmnet)

与glmnet的岭回归

glmnet软件包提供了通过岭回归的功能glmnet()。重要的事情要知道：

它不需要接受公式和数据框架，而需要一个矢量输入和预测器矩阵。

您必须指定alpha = 0岭回归。

岭回归涉及调整超参数lambda。glmnet()会为你生成默认值。另外，通常的做法是用lambda参数来定义你自己（我们将这样做）。

以下是使用mtcars数据集的示例：

因为，与OLS回归不同lm()，岭回归涉及调整超参数，lambda，glmnet()为不同的lambda值多次运行模型。我们可以自动找到最适合的lambda值，cv.glmnet()如下所示：

cv_fit <- cv.glmnet(x, y, alpha =0, lambda = lambdas)

cv.glmnet() 使用交叉验证来计算每个模型的概括性，我们可以将其视为：

plot(cv_fit)

曲线中的最低点指示最佳的lambda：最好使交叉验证中的误差最小化的lambda的对数值。我们可以将这个值提取为：

opt_lambda <- cv_fit$lambda.minopt_lambda#> [1] 3.162278

我们可以通过以下方式提取所有拟合的模型（如返回的对象glmnet()）：

这是我们需要预测新数据的两件事情。例如，预测值并计算我们训练的数据的R 2值：

y_predicted <- predict(fit, s = opt_lambda, newx = x)# Sum of Squares Total and Errorsst <- sum((y - mean(y))^2)sse <- sum((y_predicted - y)^2)# R squaredrsq <-1- sse / sstrsq#> [1] 0.9318896

最优模型已经在训练数据中占93％的方差。

Ridge v OLS模拟

通过产生比OLS更稳定的参数，岭回归应该不太容易过度拟合训练数据。因此，岭回归可能预测训练数据不如OLS好，但更好地推广到新数据。当训练数据的极端变化很大时尤其如此，当样本大小较低和/或特征的数量相对于观察次数较多时这趋向于发生。

下面是我创建的一个模拟实验，用于比较岭回归和OLS在训练和测试数据上的预测准确性。

我首先设置了运行模拟的功能：

可视化结果...

对于不同数量的训练数据（对多个特征进行平均），两种模型对训练和测试数据的预测效果如何？

根据假设，OLS更适合训练数据，但Ridge回归更好地归纳为新的测试数据。此外，当训练观察次数较少时，这些影响更为明显。

对于不同的相对特征比例（平均数量的训练数据），两种模型对训练和测试数据的预测效果如何？

再一次地，OLS在训练数据上表现稍好，但Ridge在测试数据上更好。当特征的数量相对于训练观察的数量相对较高时，效果更显着。

下面的图有助于将Ridge对OLS的相对优势（或劣势）可视化为观察值和特征的数量：

这显示了综合效应：当训练观察数量较低和/或特征数目相对于训练观察数目较高时，Ridge回归更好地转移到测试数据。OLS在类似条件下的训练数据上表现略好，表明它比使用脊线正则化时更容易过度训练数据。

▍关注我们

大数据部落 -中国专业的第三方数据服务提供商，提供定制化的一站式数据挖掘和

统计分析和数据挖掘咨询服务：y0.cn/teradat（咨询服务请联系官网客服）

QQ： 3025393450

【服务场景】

科研项目;

公司项目外包;线上线下一对一培训;学术研究。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

分享最新的大数据资讯，每天学习一点数据分析，让我们一起做有态度的数据人

微信客服号：lico_9e

QQ交流群：186388004

欢迎关注微信公众号，了解更多数据干货资讯！

▍关注我们

大数据部落 -中国专业的第三方数据服务提供商，提供定制化的一站式数据挖掘和

统计分析和数据挖掘咨询服务：y0.cn/teradat（咨询服务请联系官网客服）

QQ： 3025393450

【服务场景】

科研项目;

公司项目外包;线上线下一对一培训;学术研究。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

分享最新的大数据资讯，每天学习一点数据分析，让我们一起做有态度的数据人

微信客服号：lico_9e

QQ交流群：186388004

欢迎关注微信公众号，了解更多数据干货资讯！

该文章已有0人参与评论

请发表评论

全部评论

专题导读

上一篇：

统计编程的框架与R语言统计分析基础——摘(2)统计分析之线性回归 ...发布时间：2022-07-18

下一篇：

R语言时间序列分析之ARIMA模型预测发布时间：2022-07-18

热门推荐

热门话题

阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服（服务时间 9:00～18:00）

在线QQ客服

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap