在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
数据分析学习总结笔记08:数据分类典型方法及其R语言操作统计建模与数据挖掘中面对的三大重要问题:预测、分类和聚类。本文学习总结其中的分类问题,主要介绍判别分析方法和logistic回归,这两种方法在现实应用中也十分普遍。 1 判别分析1.1 判别分析简介1.1.1 判别分析概念判别分析(Discriminat Analysis)是多元分析中用于判别样本所属类型的一种统计分析方法。
1.1.2 判别分析的种类(1)确定性判别:Fisher型判别
(2)概率性判别:Bayes型判别
1.2 距离判别法1.2.1 两总体距离判别设μ1,μ2,Σ1,Σ2分别为两个类G1,G2的均值向量和协方差阵。
1.2.2 多总体距离判别与两总体距离判别类似:
(1)协方差矩阵相同:线性判别 1.3 Fisher 判别法1.3.1 Fisher 判别法原理在距离判别法中,向量X的维数较高:
Fisher在1936年提出了Fisher判别法:
即,利用一条过原点的判别函数,使得不同类别在判别函数上投影的距离尽可能大,而同一类别的距离尽可能小。 1.3.2 Fisher 判别法步骤1.4 Bayes 判别法1.4.1 Bayes 判别法概念Fisher判别缺陷:
Bayes判别准则:
1.4.2 概率判别1.4.3 损失判别1.5 几种判别方法总结(1)常用的判别方法有Fisher判别、距离判别、贝叶斯判别等,每个方法根据 其出发点不同各有其特点。 1.6 Fisher判别R语言操作2 logistic回归2.1 logistic回归模型设定考虑因变量y有两个取值的情况,用服从两点分布的随机变量刻画:
Logit变换: 2.2 Logistic回归模型系数估计2.3 Logistic回归模型系数的推断
2.3 Logistic回归R语言操作
|
请发表评论