岭回归（R语言）

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

代码实现如下：

data3.3<-read.csv("C:/Users/Administrator/Desktop/data3.3.csv",head=TRUE)
datas<-data.frame(scale(data3.3[,1:6]))  # 对样本数据进行标准化处理并转换为数据框的存储格式
library(MASS)
ridge3.3<-lm.ridge(y~.-1,datas,lambda=seq(0,3,0.1))
# 做岭回归，对于标准化后的数据模型不包含截距项，其中lambda为岭参数k的所有取值
beta<-coef(ridge3.3)  # 将所有不同岭参数所对应的回归系数的结果赋给beta
beta
# 绘制岭迹图
k<-ridge3.3$lambda  #将所有岭参数赋给k
plot(k,k,type="n",xlab="岭参数k",ylab="岭回归系数",ylim=c(-2.5,2.5))
# 创建没有任何点和线的图形区域
linetype<-c(1:5)
char<-c(18:22)
for(i in 1:5)
	lines(k,beta[,i],type="o",lty=linetype[i],pch=char[i],cex=0.75)
	# 画岭迹
legend(locator(1),inset=0.5,legend=c("x1","x2","x3","x4","x5"),cex=0.8,pch=char,lty=linetype)
# 添加图例

输出结果为：

　　由上图可以看出，变量 $x_{2}$ 的岭回归系数 $\hat{\beta_{2}}(k)$ 从负值迅速变为正值， $\left | \hat{\beta_{1}}(k) \right |$ 和 $\left | \hat{\beta_{2}}(k) \right |$ 都迅速减少，两者之和比较稳定。从岭回归的角度来看， $x_{1}$ 和 $x_{2}$ 只要保留一个就可以了， $x3,x4,x5$ 的岭回归系数u相对稳定。
　　通过上面分析，我们剔除 $x_{1}$ 后，在进行岭回归。
　　做出下面修改：

ridge3.3<-lm.ridge(y~.-x1-1,datas,lambda=seq(0,2,0.2))
plot(k,k,type="n",xlab="岭参数k",ylab="岭回归系数",ylim=c(-1,1))
linetype<-c(1:4)
char<-c(18:21)
for(i in 1:4)
	lines(k,beta[,i],type="o",lty=linetype[i],pch=char[i],cex=0.75)
legend(locator(1),inset=0.5,legend=c("x2","x3","x4","x5"),cex=0.8,pch=char,lty=linetype)

输出结果如下：

　　剔除 $x_{1}$ 后岭回归系数变化幅度减小，从图可以看出，岭参数 $k$ 大于1.4时，林参数的取值基本稳定，不妨选择 $k=1.4$ ，由此时的回归系数得到样本数据标准化后的岭回归方程。