• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

R语言:EM算法和高斯混合模型的R语言实现

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

本文我们讨论期望最大化理论,应用和评估基于期望最大化的聚类。


软件包


install.packages("mclust");

require(mclust)

## Loading required package: mclust

## Package 'mclust' version 5.1

## Type 'citation("mclust")' for citing this R package in publications.


数据


我们将使用mclust软件包附带的“糖尿病”数据。


data(diabetes)

summary(diabetes)

##      class      glucose      insulin            sspg##  Chemical:36  Min.  : 70  Min.  :  45.0  Min.  : 10.0##  Normal  :76  1st Qu.: 90  1st Qu.: 352.0  1st Qu.:118.0##  Overt  :33  Median : 97  Median : 403.0  Median :156.0##                Mean   :122  Mean  : 540.8  Mean  :186.1##                3rd Qu.:112  3rd Qu.: 558.0  3rd Qu.:221.0##                Max.  :353  Max.  :1568.0  Max.  :748.0



期望最大化(EM)


期望最大化(EM)算法是用于找到最大似然的或在统计模型参数,其中该模型依赖于未观察到的潜变量最大后验(MAP)估计的迭代方法。期望最大化(EM)可能是无监督学习最常用的算法。



似然函数


似然函数找到给定数据的最佳模型。



期望最大化(EM)算法


假设我们翻转硬币并得到以下内容 - 0,1,1,0,0,1,1,0,0,1。我们可以选择伯努利分布


或者,如果我们有以厘米为单位的人的身高(男性和女性)的数据。高度遵循正常的分布,但男性(平均)比女性高,因此这表明两个高斯分布混合模型




 

贝叶斯信息准则(BIC)


以糖尿病数据为例


EM集群与糖尿病数据使用mclust。


log.likelihood:这是BIC值的对数似然值

n:这是X点的数量

df:这是自由度

BIC:这是贝叶斯信息标准; 低是好的

ICL:综合完整X可能性 - BIC的分类版本。

clPairs(X,class.d)



EM的绘图命令会生成以下四个绘图:


BIC值用于选择簇的数量

聚类图

分类不确定性的图表

簇的轨道图








参考

C. Fraley,AE Raftery,TB Murphy和L. Scrucca(2012年)。用于R的mclust版本4:用于基于模型的聚类,分类和密度估计的正常混合建模。华盛顿大学统计系技术报告第597号。

C. Fraley和AE Raftery(2002)。基于模型的聚类,判别分析和密度估计。Journal of the American Statistical Association 97:611:631。

C. Fraley和AE Raftery(2005年,2009年修订)。正态混合估计和基于模型的聚类的贝叶斯正则化。技术报告,华盛顿大学统计系。

C. Fraley和AE Raftery(2007)。正态混合估计和基于模型的聚类的贝叶斯正则化。Journal of Classification 24:155-181。


▍关注我们

大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和
统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服
QQ: 3025393450

【服务场景】        
 
             
科研项目;
        
             
公司项目外包;线上线下一对一培训;学术研究。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务
 
分享最新的大数据资讯,每天学习一点数据分析,让我们一起做有态度的数据人
微信客服号:lico_9e
QQ交流群:186388004  
欢迎关注微信公众号,了解更多数据干货资讯!

 



鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言做文本挖掘Part2分词处理发布时间:2022-07-18
下一篇:
R语言实战(七)图形进阶发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap