在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
R语言实现分层抽样(Stratified Sampling)以iris数据集为例 1.观察数据集 head(iris) 载入分层抽样的包sampling n=round(3/5*nrow(iris)/3)计算每一个种类的抽样数目。这里我们按照每种“Species”抽取3/5个样本进行抽样。 sub_train=strata(iris,stratanames=("Species"),size=rep(n,3),method="srswor")head(sub_train) stratanames参数是抽样依据的变量,size参数是每个种类抽样的数目,这里我们用上一步计算出来的n作为抽样数目,method是抽样方法,我们选择srswor。 data_train=iris[sub_train$ID_unit,]data_test=iris[-sub_train$ID_unit,] 将抽样结果分别定义为训练集(data_train)和测试集(data_test)。 dim(data_train);dim(data_test) 查看总的抽样结果,这里数据量太大不再给出。 write.csv(data_train,"C:/Users/cnrozh/Desktop/iris_data_train.csv")write.csv(data_test,"C:/Users/cnrozh/Desktop/iris_data_test.csv") 保存数据集 |
请发表评论