• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

数据分析学习总结笔记08:数据分类典型方法及其R语言实现

原作者: [db:作者] 来自: [db:来源] 收藏 邀请


统计建模与数据挖掘中面对的三大重要问题:预测、分类和聚类。本文学习总结其中的分类问题,主要介绍判别分析方法和logistic回归,这两种方法在现实应用中也十分普遍。

1 判别分析

1.1 判别分析简介

1.1.1 判别分析概念

判别分析(Discriminat Analysis)是多元分析中用于判别样本所属类型的一种统计分析方法。

  • 在已知的分类之下,对新的样本,可以利用此方法选定一判别标准,以判定将该新样品放置于哪个类中。
  • 适用于数据集较小的情况,因为数据量够大的话神经网络的准确率会比传统的判别分析高得多
  • 判别分析的用途甚多:医学疾病诊断、动植物分类、商品等级划分和商业银行客户评级等。

1.1.2 判别分析的种类

(1)确定性判别:Fisher型判别

  • 线性型
  • 距离型
  • 非线性型

(2)概率性判别:Bayes型判别

  • 概率型
  • 损失型

1.2 距离判别法

1.2.1 两总体距离判别

设μ1,μ2,Σ1,Σ2分别为两个类G1,G2的均值向量和协方差阵。

  • 马氏距离(欧式距离只考虑了样本中心点的位置,马氏距离不仅考虑了样本中心点的位置,还考虑了样本各个特征间的相互关系以及样本的度量):
  • 判别准则

    (1)等方差阵:直线判别

    (2)异方差阵:曲线判别

1.2.2 多总体距离判别

与两总体距离判别类似:

  • 首先假定k个类别样本分属k个正态总体;
  • 然后基于马氏距离,依次建立建立判别函数和判别规则;
  • 基于样本信息,估计判别规则中的未知参数;
  • 带入未知样本信息,判别其类别。

(1)协方差矩阵相同:线性判别

(2)协方差矩阵不同:非线性判别

1.3 Fisher 判别法

1.3.1 Fisher 判别法原理

在距离判别法中,向量X的维数较高:

  • 均值、协方差估计中待估参数较多;
  • 导致判别规则中存在较大的误差。

Fisher在1936年提出了Fisher判别法:

  • 把高维空间的点向低维空间投影;
  • 先投影到一维空间上,如果判别效果不理想,再投影到另一条直线上(从而构成二维空间);
  • 以此类推,每个投影可以建立一个判别函数。

即,利用一条过原点的判别函数,使得不同类别在判别函数上投影的距离尽可能大,而同一类别的距离尽可能小。

1.3.2 Fisher 判别法步骤


1.4 Bayes 判别法

1.4.1 Bayes 判别法概念

Fisher判别缺陷:

  • 判别方法与各总体出现的概率无关
  • 判别方法与错判后造成的损失无关

Bayes判别准则:

  • 以个体归属于某类的概率(判别值)最大或错判总平均损失最小为标准。

1.4.2 概率判别

1.4.3 损失判别

1.5 几种判别方法总结

(1)常用的判别方法有Fisher判别、距离判别、贝叶斯判别等,每个方法根据 其出发点不同各有其特点。
(2) Fisher类判别对判别变量的分布类型并无要求,而Bayes类判别要变量的分 布类型。因此,Fisher类判别较Bayes类判别简单一些
(3)当两个总体时,若它们的协方差矩阵相同,则距离判别和Fisher判别等价。 当变量服从正态分布时,它们还和Bayes判别等价。

1.6 Fisher判别R语言操作







2 logistic回归

2.1 logistic回归模型设定

考虑因变量y有两个取值的情况,用服从两点分布的随机变量刻画:

  • 因变量y的期望,也就是y=1的概率只能在0和1之间取值;
  • 对模型中的参数添加了限制,给后续的参数估计带来困难;
  • 对因变量的期望做某个单调的变换,使得模型系数可以自由的取值

Logit变换:



Logistic 函数形似"S",是Sigmoid函数的典型代表,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。

2.2 Logistic回归模型系数估计

2.3 Logistic回归模型系数的推断

  • 类似回归模型,我们可以从全模型出发,依次删去不显著的自变量,找到一个最终模型
  • 当有了新的观测
    • 基于其自变量的取值,估计出这个观测对应因变量为1的概率
    • 进一步基于这个概率,对因变量做出预测,也就是对这个观测做出分类

2.3 Logistic回归R语言操作






本文主要根据个人学习(机器学习MOOC有用的统计学MOOC多元统计分析MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
拓端tecdat|R语言分布滞后线性和非线性模型(DLM和DLNM)建模发布时间:2022-07-18
下一篇:
R语言基础绘图发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap