在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
总览在监督学习中,我们通常可以访问n个 观测值的p个 特征 集 ,并 在相同观测值上测得的 Y。 无监督学习是一组没有相关的变量 Y的方法。在这里,我们重点介绍两种技术…
无监督学习的挑战通常,无监督学习比主观学习更具挑战性,因为它更具主观性。分析没有简单的目标,例如预测响应。无监督学习通常用作 探索性数据分析的一部分。此外,由于没有普遍接受的交叉验证或验证方法,因此很难评估获得的结果的准确性。简而言之 ,除了简单的直觉或手头上的过程的理论知识外,我们无法真正 在无人监督的情况下检查工作。但是,无监督方法有许多用途:
主成分分析当出现大量相关变量时,主要成分使我们能够将集合概括为较少数量的代表变量,这些变量 共同解释了原始集合中的大多数可变性。 主成分分析(PCA)是指计算主成分的过程,以及随后在理解数据中使用这些成分的过程。PCA还可以用作数据可视化的工具。 什么是主要成分假设我们希望通过 对一组p个 特征的测量值来可视化 n个观测值,以 用于探索性数据分析的一部分。具体来说,我们希望找到一种数据的低维表示形式,该表示形式可以捕获尽可能多的信息。PCA提供了一种执行此操作的方法。PCA会寻求少量尽可能有趣的维度,其中有趣的概念 通过观察值在整个维度上的变化量来度量。 我们还可以通过利用主要组件来衡量丢失了多少信息。为此,我们可以计算 每个主成分解释的方差的 比例(PVE)。通常最好将其解释为累积图,以便我们可以可视化每个成分的PVE和所解释的总方差。一 确定要使用的主成分数总的来说,我们希望使用最少数量的主成分来充分理解数据。可以说,做到这一点的最好方法是在scree图中可视化数据 ,我们将在后面演示。它只是累积PVE的图。与我们选择其他学习技术的最佳调整参数的方式类似,查看百分比变化何时下降,这样,添加主要成分并不会真正增加大量的方差。我们可以结合一些对数据的理解来使用这种技术。
可视化我们执行PCA 。 数据集的列包含四个变量。 让我们来探讨一下数据。
我们可以看到数据具有不同的均值和方差。此外,这些变量是在完全不同的尺度上测量的。例如 执行PCA 提供主成分载荷。
我们已经可以确定每个主成分所代表的内容。例如,第一个部分似乎解释了与犯罪有关的信息与城市人口之间的差异。这也是第一个组成部分,从直观上来说,这是最大的差异。第二部分肯定解释了城市环境的影响,第三和第四部分显示了其他犯罪的区别。 我们可以绘制第一个主成分的图。 Biplot
在这里我们可以看到很多信息。首先查看轴,轴上的PC1 该 然后,为了计算每个主成分解释的方差比例,我们先将其除以总方差。 在这里,我们看到第一PC解释了大约62%的数据,第二PC解释了大约24%的数据。我们还可以绘制此信息。 碎石图
如果您有任何疑问,请在下面发表评论。
|
请发表评论