概述
本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战:
- 缺失值的挑战
- 异常值的挑战
- 不均衡分布的挑战
- (多重)共线性的挑战
- 预测因子的量纲差异
以上的几个主要挑战,对于熟悉机器学习的人来说,应该都是比较清楚的,这个案例中会涉及到五个挑战中的缺失值,量纲和共线性问题的挑战。
案例数据说明
本案例中的数据可以在下面的网址中下载: https://www.kaggle.com/primaryobjects/voicegender/downloads/voicegender.zip
下载到本地后解压缩会生成voice.csv文件
下面首先大概了解一下我们要用来建模的数据
数据共包含21个变量,最后一个变量label是需要我们进行预测的变量,即性别是男或者女
前面20个变量都是我们的预测因子,每一个都是用来描述声音的量化属性。
下面我们开始我们的具体过程
步骤1:基本准备工作
步骤1主要包含以下三项工作:
- 设定工作目录
- 载入需要使用的包
- 准备好并行计算
-
-
setwd("C:/Users/chn-fzj/Desktop/R Projects/Kaggle-Gender by Voice")
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
cluster_Set <- makeCluster(n_Cores)
-
registerDoParallel(cluster_Set)
步骤2:数据的导入和理解
数据下载解压缩后就是一份名为‘voice.csv’ 的文件,我们将csv文件存到我们设定的工作目录之中,就可以导入数据了。
-
-
voice_Original <- read_csv("voice.csv",col_names=TRUE)
-
Hmisc包中的describe 函数是我个人最喜欢的对数据集进行概述,整体上了解数据集的最好的一个函数,运行结果如下:
-
-
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 0.1809 0.1260 0.1411 0.1637
-
-
0.1848 0.1991 0.2177 0.2291
-
-
lowest : 0.03936 0.04825 0.05965 0.05978 0.06218
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 0.05713 0.03162 0.03396 0.04195
-
-
0.05916 0.06702 0.07966 0.08549
-
-
lowest : 0.01836 0.02178 0.02400 0.02427 0.02456
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3077 1 0.1856 0.1164 0.1340 0.1696
-
-
0.1900 0.2106 0.2274 0.2358
-
-
lowest : 0.01097 0.01359 0.01579 0.02699 0.02936
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3103 1 0.1405 0.04358 0.07509 0.11109
-
-
0.14029 0.17594 0.20063 0.21524
-
-
lowest : 0.0002288 0.0002355 0.0002395 0.0002502 0.0002669
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3034 1 0.2248 0.1874 0.1963 0.2087
-
-
0.2257 0.2437 0.2536 0.2577
-
-
lowest : 0.04295 0.05827 0.07596 0.09019 0.09267
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3073 1 0.08431 0.02549 0.02931 0.04256
-
-
0.09428 0.11418 0.13284 0.15632
-
-
lowest : 0.01456 0.01492 0.01511 0.01549 0.01659
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 3.14 1.123 1.299 1.650
-
-
-
-
lowest : 0.1417 0.2850 0.3260 0.5296 0.5487
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 36.57 3.755 4.293 5.670
-
-
8.318 13.649 27.294 75.169
-
-
lowest : 2.068 2.210 2.269 2.293 2.463
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 0.8951 0.8168 0.8322 0.8618
-
-
0.9018 0.9287 0.9513 0.9630
-
-
lowest : 0.7387 0.7476 0.7477 0.7485 0.7487
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 0.4082 0.1584 0.1883 0.2580
-
-
0.3963 0.5337 0.6713 0.7328
-
-
lowest : 0.03688 0.08024 0.08096 0.08220 0.08266
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 2825 1 0.1653 0.00000 0.01629 0.11802
-
-
0.18660 0.22110 0.24901 0.26081
-
-
lowest : 0.0000000 0.0007279 0.0007749 0.0008008 0.0008427
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 0.1809 0.1260 0.1411 0.1637
-
-
0.1848 0.1991 0.2177 0.2291
-
-
lowest : 0.03936 0.04825 0.05965 0.05978 0.06218
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 3166 1 0.1428 0.09363 0.10160 0.11700
-
-
0.14052 0.16958 0.18519 0.19343
-
-
lowest : 0.05557 0.05705 0.06097 0.06254 0.06348
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 913 1 0.0368 0.01579 0.01613 0.01822
-
-
0.04611 0.04790 0.05054 0.05644
-
-
lowest : 0.009775 0.009785 0.009901 0.009911 0.010163
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 123 0.99 0.2588 0.1925 0.2192 0.2540
-
-
0.2712 0.2775 0.2791 0.2791
-
-
lowest : 0.1031 0.1053 0.1087 0.1111 0.1124
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10 .25
-
3168 0 2999 1 0.8292 0.1045 0.1888 0.4198
-
-
0.7658 1.1772 1.5602 1.8004
-
-
lowest : 0.007812 0.007979 0.007990 0.008185 0.008247
-
-
-------------------------------------------------------------------
-
-
n missing unique Info Mean .05 .10
-
3168 0 77 0.92 0.05265 0.007812 0.007812
-
-
0.007812 0.023438 0.070312 0.164062 0.187500
-
-
lowest : 0.004883 0.007812 0.014648 0.015625 0.019531
-
-
|
请发表评论