在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
一、因子 1.变量可分为名义型(没有顺序之分的类别变量),有序型(表示一种顺序关系而非数量关系),连续型(可以呈现某个范围内的任意值,并同时表示顺序和数量) 2.类别变量和有序类别变量在R中称为因子,函数factor()以一个整数向量的形式存储类别值,要表示有序型变量,需要为函数factor()指定参数ordered = TRUE,对于字符型向量,因子的水平默认依字母顺序创建,可以通过指定levels选项来覆盖默认顺序,保证指定的水平与数据中的真实值相匹配,任何在数据中出现而未在参数中列举的数据都将被设为缺失值。 在R中无法用//解释一行语句,str(patientdata)意思是显示对象的结构。 summary(patientdata) 表示显示对象的统计概要 summary()显示了连续型变量最小最大均值mean和各四分位数(1st Qu,median,3rd Qu,四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。 举例: 数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49 一共11项 Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9 Q1 = 15, Q2 = 40, Q3 = 43 实例2 数据总量: 7, 15, 36, 39, 40, 41 一共6项 数列项为偶数项时,四分位数Q2为该组数列的中数, Q1 = 0.75*15+0.25*7 = 13, Q2 = (36+39)/2= 37.5, Q3 = 0.25*41+0.75*40 = 40.25. 1、将数据从小到大排序,计为数组a(1 to n),n代表数据的长度 2、确定四分位数的位置:b= 1+(n-1) × 0.25= 2.25,b的整数部分计为c b的小数部分计为d 计算Q1:Q1=a(c)+[a(c+1)-a(c)]*d=a(2)+[a(3)-a(2)] *0.25 =15+(36-15)×(2.25-2)=20.25 3、计算如上 Q2与Q3的求法类似,四分位差=Q3-Q1 ) 二、列表 列表是R中数据类型最为复杂的,列表中可能是若干向量、矩阵、数据框。甚至其他列表的组合。通过list()创建列表。
mylist[[2]]和mylist[["ages"]]意思是输出第二个成分与输出向量ages。 注意点: 1.A&x是指数据框A中的变量x 2.必须以#作为多行注释每行的开始 3.可以把想让解释器忽略的代码放到语句if(FALSE){……}中,将FALSE改为TRUE则允许这段代码执行 4.将一个值赋给某个向量、矩阵、数组或列表中一个不存在的元素时,R将自动扩展这个数据结构以容纳新值。 5.R中没有标量。标量以单元素向量的形式出现。 6.R中的下标不从0开始,而从1开始,x[1]即表示第一个元素 7.变量无法被声明,它们在首次被赋值时生成。 数据输入: 1.使用键盘输入 |
请发表评论