在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
先做什么? 笔记: 伪Facebook的用户数据 笔记: getwd()## [1]“C:/ Users / HH / Desktop / R Data analyst”list.files()## [1]“07-tidy-data.pdf”“demystifying.R”## [3 ]“demystifyingR2_v3.html”“demystifyingR2_v3.Rmd”## [5]“EDA_Course_Materials.zip”“lesson3_student.html”## [7]“lesson3_student.rmd”“pseudo_facebook.tsv”## [9]“reddit.csv “”stateData.csv“## [11]”tidy-data.pdf“pf <-read.delim('pseudo_facebook.tsv')name(pf)## [1]”userid“”age“## [3 ]“dob_day”“dob_year”## [5]“dob_month”“gender”## [7]“tenure”“friend_count”## [9]“friendships_initiated”“likes”## [11]“likes_received”“mobile_likes “## [13]”mobile_likes_received“”www_likes“## [15]”www_likes_received“ 用户生日直方图 笔记: library(ggplot2)qplot(x = dob_day,data = pf)+ scale_x_continuous(breaks = 1:31)##`stat_bin()`using`bins = 30`。用`binwidth`选择更好的价值。
image.png 你注意到这个直方图有哪些东西? 回应:通常很多人一日出生 莫伊拉的调查 笔记: 估算您的受众规模 笔记: 想想您在Facebook上上发布特定消息或分享照片的时间。它以前如何? 响应: 你认为你的朋友中有多少人看到了这个帖子? 响应: 想想你在Facebook的上的朋友百分比会看到你在一个月内发表的任何帖子或评论。你认为这是多少百分比? 响应: 感知受众规模 笔记: 刻面 笔记: qplot(x = dob_day,data = pf)+ scale_x_continuous(breaks = 1:31)+ facet_wrap(~dob_month,ncol = 3)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。
image.png 让我们再看看我们的情节。你在这里有什么突出的? 响应: 持怀疑态度 - 异常值和异常 笔记: 莫伊拉的异常值 注意:####您认为哪种情况适用于莫伊拉异常值响应? 朋友数 笔记: 您将输入什么代码来创建朋友计数的直方图? qplot(friend_count,data = pf)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。
image.png 这个情节与莫伊拉的第一个情节有何相似之处? 响应: 限制轴 笔记: qplot(friend_count,data = pf)+ scale_x_continuous(limits = c(0,1000))##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##警告:删除了包含非有限值(stat_bin)的2951行。
image.png 使用斌宽度进行探索 笔记: 调整斌宽度 笔记: 面对朋友数量 #你会添加什么代码来按性别创建直方图?#将它添加到下面的代码中.qplot(x = friend_count,data = pf,binwidth = 10)+ scale_x_continuous(limits = c(0,1000) ),break = seq(0,1000,50))+ facet_wrap(〜sex性)##警告:删除了包含非有限值(stat_bin)的2951行。 image.png 省略NA值 笔记: qplot(friend_count,data = subset(pf,!is.na(gender)),binwidth = 25)+ scale_x_continuous(limits = c(0,1000),breaks = seq(0,1000,50))+ facet_wrap(〜性别)##警告:删除了包含非有限值(stat_bin)的2949行。
image.png 统计 '按' 性别 笔记: table(pf $ gender)## ## female male ## 40254 58574by(pf $ friend_count,pf $ gender,summary)## pf $ gender:female ## Min。第一曲。中位数第3曲。最大。## 0 37 96 242 244 4923 ## --------------------------------------- - ---------------- ## pf $性别:男## Min。第一曲。中位数第3曲。最大。## 0 27 74 165 182 4917 谁平均有更多的朋友:男人还是女人? 回复:女性####女性和男性的中位朋友数有什么不同?回复:22 ####为什么中位数比平均值更好?回复:有极端数据时不要改变太多*** 保有 笔记: qplot(x = tenure,data = pf,binwidth = 30,color = I('black'),fill = I('#099DD9'))##警告:删除了包含非有限值(stat_bin)的2行。
image.png 你会如何创建一年的任期直方图? qplot(x = tenure / 365,data = pf,binwidth = .25,color = I('black'),fill = I('#F79420'))+ scale_x_continuous(breaks = seq(1,7,1), limits = c(0,7))##警告:删除了包含非有限值(stat_bin)的26行。
image.png 标记图 笔记: qplot(x = tenure / 365,data = pf,xlab ='使用FB的年数',ylab ='样本中的用户数',binwidth = .25,color = I('black'),fill = I(' #F79420'))+ scale_x_continuous(breaks = seq(1,7,1),limits = c(0,7))##警告:删除了包含非有限值(stat_bin)的26行。 image.png 用户年龄 笔记: qplot(x =年龄,数据= pf,xlab ='用户年龄',ylab ='用户数',binwidth = 1,color = I('black'),fill = I('#5760AB'))+ scale_x_continuous(断裂= SEQ(1,113,5))
image.png 你注意到了什么? 响应: 模因的传播 笔记: Lada的Money Bag Meme 笔记: 转换数据 笔记: library(gridExtra)p1 < - qplot(x = friend_count,data = pf)p2 < - qplot(x = log10(friend_count + 1),data = pf)p3 < - qplot(x = sqrt(friend_count + 1),data = pf)grid.arrange(p1,p2,p3)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##`stat_bin()`使用`bins = 30` 。用`binwidth`选择更好的值。##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。 image.png p1 < - ggplot(aes(x = friend_count),data = pf)+ geom_histogram()p2 < - p1 + scale_x_log10()p3 < - p1 + scale_x_sqrt()grid.arrange(p1,p2,p3)##`stat_bin ()`使用`bins = 30`。使用`binwidth`选择更好的值。##警告:转换在连续的x轴中引入了无限值##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##警告:删除了1962行包含非有限值(stat_bin)。##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。 image.png 添加缩放图层 笔记: qplot(x = friend_count,data = pf)+ scale_x_log10()##警告:转换在连续的x轴中引入了无限值##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值##警告:删除了包含非有限值(stat_bin)的1962行。
image.png 频率多边形 q1 < - ggplot(aes(x = friend_count,y = .. count ../ sum(.. count ..)),data = subset(pf,!is.na(gender)))+ geom_freqpoly(aes(color) )=性别),binwidth = 10)+ scale_x_continuous(limits = c(0,1000),breaks =
image.png 喜欢网络 笔记: by(pf $ www_likes,pf $ gender,sum)## pf $ gender:female ## [1] 3507665 ## ----------------------- --------------------------------- ## pf $性别:男## [1] 1430175by(pf $ www_likes_received ,pf $性别,总和)## pf $性别:女性## [1] 4199879 ## ---------------------------- ---------------------------- ## pf $性别:男## [1] 1586098 方块图 笔记: qplot(x =性别,y = friend_count,data = subset(pf,!is.na(性别)),geom ='boxplot')+ scale_y_log10()##警告:转换在连续的y轴中引入了无限值##警告:删除了包含非有限值的1962行(stat_boxplot)。
image.png 调整代码以关注朋友数在0到1000之间的用户。 qplot(x =性别,y = friend_count,data = subset(pf,!is.na(性别)),geom ='boxplot')+ coord_cartesian(ylim = c(0,1000)) image.png 箱形图,四分位数和友谊 ▍需要帮助?联系我们
大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和 统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服)
【服务场景】 科研项目; 公司项目外包;线上线下一对一培训;学术研究。 【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务 分享最新的大数据资讯,每天学习一点数据分析,让我们一起做有态度的数据人 微信客服号:lico_9e QQ交流群:186388004 欢迎关注微信公众号,了解更多数据干货资讯! 加入欢迎的我们大数据学习必备利器课程 http://study.163.com/course/courseMain.htm?courseId=1003776041&share=2&shareId=1023497288
|
请发表评论