• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

R语言抽样的问题

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

基本抽样函数sample

sample(x,size,replace=F/T)

x是数据集,

size规定了从对象中抽出多少个数

replace 为F时候,表示每次​抽取后的数就不能在下一次被抽取;T表示抽取过的数可以继续拿来被抽取。

 

不平衡数据的问题

 以某两类数据为目标做抽样,其中一类样本数量特别小,一类样本数特别大,这就是不平衡的情况。对应处理方式是做欠抽样处理,按照样本量小的类的数量,从大类中抽取样本。

以kaggle的信用卡欺诈案例为例,该项目欺诈的样本为492个,非欺诈样本284807个,对应处理方式为:

# 设定分层抽样
set.seed(1234)
index<-sample(x=1:nrow(card_data2),size = nrow(card_data1),replace = T)
# 非欺诈类对应的平衡后数据集为
card_data3<-card_data2[index,]
# head(card_data3)
# 合并欺诈样本和非欺诈样本,得到新数据集
new_card<-rbind(card_data1,card_data3)

# 其中card_data2为非欺诈样本集,card_data1为欺诈样本集

 


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言学习网站(分享)发布时间:2022-07-18
下一篇:
R语言学习笔记(一)发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap