数据分析处理之PCAOLSRPCRPLSR(NIPALS)及其Matlab代码实现

原作者: [db:作者] 来自: [db:来源] 收藏邀请

传统的OLS(普通最小二乘)方法无法解决样本数据的共线性(multicollinearity)问题，如果你的数据样本中每个特征变量具有共线性，那么使用基于PCA的PCR和PLSR方法对数据样本进行回归建立模型将会是一个不错的选择。PCA是一种数据降维方式，但同时保持了原始数据降维后的特性；PCR是在降维后的数据(英文里常称为score)上进行OLSR(普通最小二乘回归)，然后将回归系数矩阵转化到原始空间；PLSR则可以看成改进版的PCR，该方法通过X和Y数据集的交叉投影方法使得回归模型兼顾到了X和Y数据集的本质关联，同时相比于PCR，在使用少数主成分的情况下具有更好的预测结果。

本文所有测试用数据集均来自Matlab，并使用Matlab封装的回归方法，对自己实现的代码做了验证，本文参考文献及资料如下：

Reference:

[1] GELADI P, KOWALSKI B R. Partial least-squares regression: a tutorial [J]. Analytica chimica acta, 1986, 185(1-17).

[2] WU F Y, ASADA H H. Implicit and intuitive grasp posture control for wearable robotic fingers: A data-driven method using partial least squares [J]. IEEE Transactions on Robotics, 2016, 32(1): 176-86.

[3] https://en.wikipedia.org/wiki/Ordinary_least_squares

[4] https://en.wikipedia.org/wiki/Principal_component_analysis

[5] https://en.wikipedia.org/wiki/Principal_component_regression

[6] https://en.wikipedia.org/wiki/Partial_least_squares_regression

[7] https://github.com/scikit-learn/scikit-learn/blob/15a949460/sklearn/cross_decomposition/_pls.py#L502

完整Matlab代码实现: https://github.com/ShieldQiQi/PCA-PCR-PLSR-Matlab-code

一、OLSR

即为普通最小二乘回归，对此我们应该十分熟悉，各种大物材料力学实验都会用到这种方法，只不过我们当时使用的单变量的数据，当数据集涉及到矩阵，多维变量的形式时，就需要使用更加普遍适用的模型，我们设原始数据自变量(independent value)矩阵为$ X∈R_{n{\times}m} $，即X数据集含有n个样本，每个样本有m个特征变量；设原始数据因变量(dependent value)矩阵为$ Y∈R_{n{\times}p} $，即Y数据集含有n个样本，每个样本有p个特征变量。构建的最小二乘回归模型为：

$$ Y=X{\cdot}B+E \tag{1} $$

上式中$ B∈R_{m{\times}p} $为回归模型的系数矩阵，$ E∈R_{n{\times}p} $为模型预测的残差。B的通用解法参考维基百科，为：

$$ B=(X^{T}X)^{-1}X^{T}Y \tag{2} $$

二、PCA

PCA本质上是一种建立一种维度小于原始数据维度(特征变量数)正交基底空间，将原始数据投影到新的低维空间，以达到数据降维而保持原有特性的方法。PCA的步骤为：

1.对原始数据进行列居中处理: X(:,j) = X(:,j) - mean(X(:,j))

2.计算协方差矩阵$ X^{T}X $的前num大个特征值和对应的特征向量(此处num即为我们需要使用的主成分个数)

3.取前num个特征向量(作为列向量)组成系数矩阵P

4.通过公式 $ T=XP $ 即可求得在新空间下的降维后的(原来维度为m，降维后为num)数据矩阵T，英文里称为score，P称为loading

至于为什么这样做，PCA的原理可以参考维基百科，或者我的这篇博文: https://www.cnblogs.com/QiQi-Robotics/p/14303718.html

在实际应用中，计算协方差矩阵的特征向量常采用迭代计算的方式，常用的方法为NIPALS，Matlab精简代码(Matlab使用的为散布矩阵，而我的代码为协方差矩阵，所以特征值会相差(n-1)倍)实现如下：

 1 % 迭代得到num个成份
 2 for h = 1:num
 3     % step(1)
 4     % ---------------------------------------------------------------------
 5     % 取T(:,h)为任意一个X_centered中的列向量，此处直接取第一列
 6     T(:,h) = X_iteration(:,1);
 7 
 8     % step(2) to step(5)
 9     % 迭代直到收敛到容忍度内的主成分
10     while(1)
11         P(:,h) = X_iteration'*T(:,h)/(T(:,h)'*T(:,h));
12         % 归一化P(:,h)
13         P(:,h) =  P(:,h)/sqrt(P(:,h)'*P(:,h));
14         t_temp = T(:,h);
15         T(:,h) = X_iteration*P(:,h)/(P(:,h)'*P(:,h));
16 
17         % 检查当前T(:,h)与上一步T(:,h)是否相等以决定是否继续迭代
18         if max(abs(T(:,h)-t_temp)) <= tolerance
19             % 存储按顺序排列的特征值
20             % 注意此处的特征值为协方差矩阵的特征值，而matlab PCA方法使用的为散布矩阵(离散度矩阵)，故后者的特征值为前者的(n-1)倍
21             eigenValues(h) = P(:,h)'*(X_centered'*X_centered)*P(:,h);
22             break;
23         else
24         end
25     end
26     
27     % 计算残差，更新数据矩阵
28     % ---------------------------------------------------------------------
29     X_iteration = X_iteration - T(:,h)*P(:,h)';
30 end

三、PCR

PCR使用的回归方法是OLSR，只不过回归的模型是建立在主成分空间，以防止原始数据的共线性问题导致模型建立不准确，步骤如下：

1.执行PCA对原始数据进行降维处理

2.对新数据矩阵T(score)(选多少列，就是利用多少个主成分)和居中(mean-centered)后的Y建立OLSR回归模型，得到主成分空间中的回归系数矩阵$ B^{'} $

3.最终原始空间的系数矩阵$ B=P{\cdot}B^{'} $，该步可以将 $ T=XP $ 代入到式(1)中推导而得(利用$ PP^{T}=E $)

4.当我们需要回归新的到的数据X*时，将该数据对减去原始模型数据X的均值，代入到回归模型，得到预测的$Y^{'}$，然后该矩阵加上原始模型数据Y的均值即为最终的结果

Matlab精简代码如下：

 1 % 定义测试集样本的数量
 2 r = n;
 3 % 将原始数据降维到主成分空间(T)后，使用OLS最小二乘回归获取系数矩阵
 4 B_inPca = inv(T'*T)*T'*Y_centered;
 5 %B_inPca = regress(Y-mean(Y), T(:,1:num));
 6 % 将系数矩阵从主成分空间转化到原始空间
 7 B_estimated = P*B_inPca;
 8 
 9 % 定义测试集，此处直接使用原始数据的前r行
10 X_validate = zeros(r,m);
11 % 对原始数据集居中列平均化
12 for j = 1:m
13     % 注意，此处减去的平均值应该为模型数据集的平均值，而非新数据的平均值
14     X_validate(:,j) =   X(1:r,j) - mean(X(:,j));
15 end
16 
17 Y_estimated = X_validate*B_estimated;
18 for i = 1:p
19    % 注意此处最终的输出需要加上数据集Y的均值
20    Y_estimated(:,i) = Y_estimated(:,i) + mean(Y(:,i)); 
21 end

四、PLSR

PLSR相对于PCR的一个优点在于在使用更少的主成分可以获得更具有鲁棒性的预测结果(具体可以查看Matlab中关于PLSR的帮助文档)，具体步骤查阅论文 [1]。精简版Matlab代码如下：

1.建立模型部分

 1 % 迭代得到num个成份
 2 for h = 1:num
 3     % step(1)
 4     % ---------------------------------------------------------------------
 5     % 取u_h为任意一个Y_centered中的列向量，此处直接取第一列
 6     U(:,h) = Y_centered(:,1);
 7     
 8     % step(2) to step(8)
 9     % ---------------------------------------------------------------------
10     while 1
11         % 在数据矩阵X_centered中
12         W(:,h) = X_centered'*U(:,h)/(U(:,h)'*U(:,h));
13         % 对数据进行归一化
14         W(:,h) = W(:,h)/sqrt(W(:,h)'*W(:,h));
15         t_temp = T(:,h);
16         T(:,h) = X_centered*W(:,h)/(W(:,h)'*W(:,h));
17 
18         % 在数据矩阵Y_centered中
19         Q(:,h) = Y_centered'*T(:,h)/(T(:,h)'*T(:,h));
20         % 对数据进行归一化
21         Q(:,h) = Q(:,h)/sqrt(Q(:,h)'*Q(:,h));
22         U(:,h) = Y_centered*Q(:,h)/(Q(:,h)'*Q(:,h));
23 
24         % 检查T(:,h)与T(:,h)的前一步是否相等，若小于某个数值则该PLS成份迭代完成，否则返回继续迭代
25         if max(abs(T(:,h)-t_temp)) <= tolerance
26             break;
27         else
28         end
29     end
30     
31     % step(9) to step(13)
32     % ---------------------------------------------------------------------
33     P(:,h) = X_centered'*T(:,h)/(T(:,h)'*T(:,h));
34     % 对数据进行归一化
35     p_norm = sqrt(P(:,h)'*P(:,h));
36     P(:,h) = P(:,h)/p_norm;
37     T(:,h) = T(:,h)*p_norm;
38     W(:,h) = W(:,h)*p_norm;
39     B(h) = U(:,h)'*T(:,h)/(T(:,h)'*T(:,h));
40     
41     % 计算残差，更新数据矩阵
42     % ---------------------------------------------------------------------
43     X_centered = X_centered - T(:,h)*P(:,h)';
44     Y_centered = Y_centered - B(h)*T(:,h)*Q(:,h)';
45 end

2.预测部分

 1 % 对原始数据集居中列平均化
 2 for j = 1:m
 3     % 注意，此处减去的平均值应该为模型数据集的平均值，而非新数据的平均值
 4     X_validate(1:r,j) =   X(1:r,j) - mean(X(:,j));
 5 end
 6 
 7 % 计算预测的T
 8 for h = 1:num
 9     T_est(:,h) = X_validate*W(:,h);
10     X_validate = X_validate - T_est(:,h)*P(:,h)';
11 end
12 
13 % 计算预测的Y
14 for h = 1:num
15     Y_estimated = Y_estimated + B(h)*T_est(:,h)*Q(:,h)';
16 end
17 for i = 1:p
18    % 注意此处最终的输出需要加上数据集Y的均值
19    Y_estimated(:,i) = Y_estimated(:,i) + mean(Y(:,i)); 
20 end

五、实验结果

图1 Matlab PLSR算法(SIMPLS)和自定义PLSR(NIPALS)方法效果对比

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

用delphi写连连看的源代码发布时间：2022-07-18

Delphi7MD5加密发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19170|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9982|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8322|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8691|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8635|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9651|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8618|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7995|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8649|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7532|2022-11-06

客服电话

电子邮件

数据分析处理之PCAOLSRPCRPLSR(NIPALS)及其Matlab代码实现

请发表评论

全部评论

上一篇：

下一篇：

Ubuntu14.04下安装matlab2014a

CVE-2020-27732

librespeed/speedtest: Self-hosted Speedt

avehtari/BDA_m_demos: Bayesian Data Anal

四维彩超怎么看性别？四维看男孩女孩诀窍

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053