在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
聚类分析(cluster analysis)是把研究对象(样本或变量)分组成为由类似的对象组成多个类的一种统计方法。聚类结果一般在4-6类,不易太多,或太少。聚类分析目的在于将相似的事物归类,同一类中的个体有较大的相似性,不同类的个体差异性很大。两个个体间(或变量间)的对应程度或联系紧密程度的度量可以用两种方式来测量:1、采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性;2、采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。
聚类分析方法包括:系统聚类法、动态聚类法、有序样本聚类法和模糊聚类法等等。本文只介绍较常用的系统聚类法和动态聚类法。
1 系统聚类法
以R基础包自带的鸢尾花(Iris)数据进行聚类分析。分析代码如下:
聚类分析生成的图形如下: 鸢尾花花萼及花瓣的长度和宽度系统聚类图 结果表明,函数cuttree()将数据iris分类结果iris.hc编为三组分别以1,2, 2 动态聚类法 仍以R基础包自带的鸢尾花(Iris)数据进行K-均值聚类分析,分析代码如下:
生成的图如下: 动态聚类结果 |
请发表评论