by the way 今天上午教妹妹学英语,下午自己也学了会英语口语,真是让我头疼的口语
昨天学习liao回归模型,今天
广义与一般线性模型
今天的基本内容是:
一、数据的分类与模型选择
二、广义线性模型函数
三、logistic回归模型
四、对数线性模型
五、一般线性模型
一
变量的取值类型:
因变量y可以为连续变量、0-1变量或称二分类变量、有序变量(等级变量)、多分类变量、连续伴有删失变量
解释变量x可以为连续变量、分类变量、等级变量
二
广义线性模型函数glm()
glm(formula,family=gaussian,data,…)
formula为公式,即为要拟合的模型,family为分布族,包括正态分布(gauddian)、二项分布(binomial)、泊松分布(poission)、伽马分布(gamma),分布族还可以通过选项link=来指定使用的连接函数
data为可选择的数据框
三
eg
对19名驾驶员的调查结果,其中四个变量的含义为:
x1:表示视力状况,分类变量,1表示好,0表示有问题
x2:年龄,数值型变量
x3:驾车教育,分类变量,1表示参加过驾车教育,0表示没有
y:分类变量,出过事故1,没有0
首先读取数据
建立全变量logistic回归模型
logit<-glm(y~x1+x2+x3,family=binomial,data=d3.4)#logistic模型
summary(logit)#logistic模型结果
由于数据太少没有明显的影响因素。相对来讲x1影响大一点。由此得到1.初步的logistic回归模型:
写成logit的形式:
2.逐步筛选变量logistic回归模型:
逐步筛选法变量选择
logit.step=step(logit)
逐步筛选法变量选择结果
summary(logit.step)
筛选的结果也是x1,但数据太少,p值不通过。数据多一点就好了。
由此得到新的logistic模型:
3.预测发生交通事故的概率:
分别预测视力正常司机与有问题司机发生事故的概率。
四
eg
某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。
满意 不满意 合计
高 53 38 91
中 434 108 542
低 111 48 159
合计 598 194 792
数据形式变为:y表示频数,x1表示收入人群,x2表示满意程度
建立Poisson对数线性模型:
从检验结果可以看出,p1=0.0031<0.01,p2<0.01,说明收入和满意程度对产品有重要影响。
五
1.完全随机设计模型:
函数形式
其中μ表示观察结果yij的总体均值,ai是哑变量的系数,称为A因素各水平的主效应,eij是误差项。
(哑变量:用以反映质的属性的一个人工变量,是量化的自变量,通常取值为0或1,引入哑变量可使线性回归模型变得复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实)
eg
设有三台机器,用来生产规格相同的铝合金薄板。现从3台机器生产出的薄板中各随机抽取5块,测出厚度值,试分析各机器生产的薄板厚度有无显著差异?
数据
机器 1 2.36 2.38 2.48 2.45 2.47 2.43
机器2 2.57 2.53 2.55 2.54 2.56 2.61
机器3 2.58 2.64 2.59 2.67 2.66 2.62
完全随机设计模型方差分析:
p<0.05,说明各机器生产的薄板厚度有显著差异 2.随机单位组设计模型:
函数形式
其中μ总体均值,ai为处理因素A的第i个水平的效应,βj为第j个单位组的效应,eij是误差项。
eg
使用四种燃料,三种推进器作火箭射程试验,每一种组合情况做一次试验,分析各种燃料A与各种推进器B对火箭射程有无显著影响?
BA A1 A2 A3 A4
B1 582 491 601 758
B2 562 541 709 582
B3 653 516 392 487
随机单位组设计模型方差分析
PA>0.05,说明各种燃料A对火箭射程有无显著影响,
PB>0.05,说明各种推进器B对火箭射程也无显著影响。
|
请发表评论