UA MATH571A ANCOVA简介
UA MATH571A ANCOVA简介
- 回归
- ANCOVA
- ANCOVA的统计模型
- ANCOVA的结果
- Influential Analysis
- 线性回归的Influential Analysis
- ANCOVA的Influential Analysis
用一个例子引入我们要讨论的话题:一项Health Science的研究试图比较美国中西部地区女性的血清胆固醇(serum cholesterol)是否存在地区差异,为此研究人员收集到下列meta data
基于这两组数据,为了验证爱荷华与内布拉斯加女性的血清胆固醇是否存在显著差异,研究人员构建了下列回归方程:
log(cholesti)=β0+β1agei+β2State+β12agei×Statei+ϵi\log (cholest_i) = \beta_0 + \beta_1 age_i + \beta_2 State + \beta_{12}age_i \times State_i + \epsilon_ilog(cholesti)=β0+β1agei+β2State+β12agei×Statei+ϵi
在估计这个模型之前,我们先看看数据的散点图:
cholesterol.df = read.csv( file.choose() ) attach( cholesterol.df ) X = age; Y = log(cholesterol); State = StateNumstate = rep(0,length(State)) for (i in 1:length(State)) {if(State[i]=="Iowa"){Numstate[i]=1} }plot( Y ~ X, pch=(Numstate) , xlab = "Age", ylab = "log Cholest") legend(60,5,legend=c('Iowa','Nebraska'),pch=c(unique(Numstate)))从这个散点图没法很直观看出两个州女性血清胆固醇的差异,下面就用统计模型来判断吧。
回归
如果把State用Dummy来表示,然后根据上述模型做回归,那么State以及交互项的系数都是不显著的,说明不存在显著的地区差异。
> reg.lm <- lm( Y ~ X*Numstate) > summary(reg.lm)Call: lm(formula = Y ~ X * Numstate)Residuals:Min 1Q Median 3Q Max -0.4338 -0.1174 0.0141 0.1546 0.3147 Coefficients:Estimate Std. Error t value Pr(>|t|) (Intercept) 4.757e+00 1.410e-01 33.726 < 2e-16 *** X 1.322e-02 3.007e-03 4.396 0.000178 *** Numstate -2.650e-03 2.933e-03 -0.904 0.374810 X:Numstate 1.842e-05 5.585e-05 0.330 0.744356 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.2013 on 25 degrees of freedom Multiple R-squared: 0.5452, Adjusted R-squared: 0.4907 F-statistic: 9.991 on 3 and 25 DF, p-value: 0.0001649ANCOVA
线性模型有一个致命弱点,参数估计受变量取值的影响很大,所以把State用Dummy表示只能保证能够做回归,不能保证结果的准确性。
试验设计中我们介绍过nuisance factor,它会影响试验结果但不是我们研究兴趣所在。如果我们只是知道存在nuisance factor,但不知道具体是什么,就只能通过randomization来降低它的影响;如果我们知道nuisance factor是什么,可以测量它的值,但不能人为控制,可以用ANCOVA检验treatment factor效应是否显著;如果我们知道nuisance factor是什么并且可以人为控制,就可以用Blocking design。在上面的例子中,State是treatment factor,age是nuisance factor,可以测量但不能控制,所以上面的数据应该用ANCOVA来分析。
ANCOVA的统计模型
yij=μ′+τi+βxij+ϵijy_{ij} = \mu'+\tau_i + \beta x_{ij} + \epsilon_{ij}yij=μ′+τi+βxij+ϵij
其中xijx_{ij}xij表示nuisance factor,对应上面例子中的age;yijy_{ij}yij表示response,对应上面例子中的血清胆固醇的对数;μ′\mu'μ′不再是grand mean了,它是grand mean加上βxˉ..\beta \bar{x}_{..}βxˉ..;τi\tau_iτi是treatment effect,在上面的例子中就是State的effect,i=1,2i=1,2i=1,2。ANCOVA的假设检验是
H0:τi=0Ha:τi≠0H_0:\tau_i = 0 \\ H_a:\tau_i \ne 0H0:τi=0Ha:τi=0
ANCOVA的结果
> cholestFM.lm = lm( Y ~ X*factor(State) ) > anova( cholestFM.lm ) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) X 1 1.0240 1.02401 25.2733 3.473e-05 *** factor(State) 1 0.1860 0.18600 4.5906 0.04207 * X:factor(State) 1 0.0044 0.00440 0.1087 0.74436 Residuals 25 1.0129 0.04052 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1ANCOVA结果显示,在0.05的显著性水平下,State是显著的,但交互项不显著,这说明爱荷华和内布拉斯加女性血清胆固醇存在显著差异,但这种差异并非是由两个州女性的年龄结构所造成的。
> cholestRM.lm = lm( Y ~ X + factor(State) ) > anova( cholestRM.lm ) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) X 1 1.0240 1.02401 26.1704 2.477e-05 *** factor(State) 1 0.1860 0.18600 4.7536 0.03848 * Residuals 26 1.0173 0.03913 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > anova( cholestRM.lm,cholestFM.lm ) Analysis of Variance TableModel 1: Y ~ X + factor(State) Model 2: Y ~ X * factor(State)Res.Df RSS Df Sum of Sq F Pr(>F) 1 26 1.0173 2 25 1.0129 1 0.004405 0.1087 0.7444如果我们剔除掉交互项,只保留一次项,第二个ANOVA的结果说明这样做与保留交互项的模型没有显著差异,而第一个ANOVA的结果则说明去掉交互项,State的显著性会有一点点提升。
Influential Analysis
线性回归的Influential Analysis
> influence.measures(reg.lm) Influence measures oflm(formula = Y ~ X * Numstate) :dfb.1_ dfb.X dfb.Nmst dfb.X.Nm dffit cov.r cook.d hat inf 1 -8.11e-16 1.08e-15 1.111496 -0.951079 1.3411 0.927 0.401830 0.3116 * 2 -1.15e-16 6.89e-17 0.263426 -0.213166 0.3429 1.361 0.030027 0.1995 3 6.58e-16 -7.96e-16 -0.768725 0.603894 -1.0477 0.637 0.233917 0.1708 4 5.32e-18 -5.24e-18 0.015858 -0.010880 0.0268 1.334 0.000187 0.1184 5 -2.36e-16 1.18e-16 -0.378992 0.212313 -0.8331 0.519 0.143444 0.1001 * 6 2.19e-17 -9.42e-18 0.070604 -0.018041 0.2539 1.167 0.016358 0.0916 7 1.50e-17 1.57e-17 0.061938 0.025057 0.4228 0.974 0.043339 0.0914 8 -2.40e-17 1.14e-17 0.023939 -0.065395 -0.2181 1.228 0.012180 0.1041 9 8.09e-18 0.00e+00 -0.048069 0.064505 0.1128 1.401 0.003306 0.1685 10 -1.62e-17 4.51e-17 0.296029 -0.354837 -0.5189 1.421 0.068007 0.2663 11 4.92e-17 -1.37e-16 -0.602514 0.690281 0.9400 1.496 0.216943 0.3779 * 12 -2.06e-01 1.80e-01 0.099018 -0.096861 -0.2101 1.446 0.011413 0.2084 13 6.36e-01 -5.52e-01 -0.305986 0.297225 0.6516 1.110 0.103119 0.1969 14 5.37e-01 -4.59e-01 -0.258250 0.246956 0.5550 1.129 0.075637 0.1753 15 -3.27e-01 2.48e-01 0.157259 -0.133754 -0.3718 1.070 0.034238 0.1003 16 -1.39e-01 1.04e-01 0.067011 -0.055789 -0.1617 1.247 0.006740 0.0942 17 -2.10e-02 1.48e-02 0.010087 -0.007970 -0.0256 1.283 0.000171 0.0834 18 3.07e-02 -9.06e-03 -0.014769 0.004876 0.0666 1.233 0.001150 0.0566 19 4.07e-02 -7.41e-03 -0.019554 0.003987 0.1004 1.212 0.002607 0.0559 20 -3.86e-02 1.18e-03 0.018542 -0.000633 -0.1113 1.204 0.003200 0.0556 21 -7.93e-02 2.42e-03 0.038114 -0.001302 -0.2289 1.078 0.013151 0.0556 22 -2.04e-02 -2.19e-02 0.009824 0.011808 -0.1241 1.198 0.003967 0.0573 23 1.29e-03 -7.82e-03 -0.000621 0.004213 -0.0197 1.259 0.000101 0.0660 24 1.02e-01 -2.07e-01 -0.048984 0.111198 -0.3442 1.053 0.029332 0.0868 25 -2.80e-02 5.03e-02 0.013487 -0.027059 0.0762 1.294 0.001510 0.0983 26 -1.60e-02 2.87e-02 0.007707 -0.015462 0.0436 1.302 0.000494 0.0983 27 -2.49e-01 3.77e-01 0.119530 -0.202796 0.4914 1.059 0.059060 0.1347 28 -3.42e-01 4.82e-01 0.164480 -0.259635 0.5862 1.089 0.083703 0.1719 29 2.06e-01 -2.80e-01 -0.099057 0.150631 -0.3278 1.381 0.027508 0.2045上面的结果说明第一个样本对State的系数、第一个样本和第三个样本对拟合值的影响都比较大,第1、10、11、12、29个样本的hat value超过或者十分接近临界值,他们对参数估计有较大影响,可能是outlier。
ANCOVA的Influential Analysis
> influence.measures(cholestRM.lm) Influence measures oflm(formula = Y ~ X + factor(State)) :dfb.1_ dfb.X dfb.f.S. dffit cov.r cook.d hat inf 1 0.631133 -0.45026 -0.53256 0.70058 0.981 1.54e-01 0.1549 2 0.173140 -0.10751 -0.16842 0.21201 1.233 1.54e-02 0.1224 3 -0.661110 0.38302 0.68141 -0.84988 0.692 2.05e-01 0.1141 4 0.005454 -0.00237 -0.00672 0.00835 1.248 2.42e-05 0.0989 5 -0.461593 0.13908 0.65468 -0.82602 0.614 1.87e-01 0.0936 * 6 0.115497 -0.01162 -0.19612 0.25538 1.146 2.20e-02 0.0911 7 0.162487 0.01638 -0.32154 0.43177 0.998 6.01e-02 0.0910 8 -0.043651 -0.03988 0.13584 -0.19860 1.188 1.35e-02 0.0947 9 -0.004440 0.05248 -0.06500 0.11787 1.252 4.80e-03 0.1134 10 0.059818 -0.16540 0.12062 -0.27619 1.241 2.60e-02 0.1417 11 -0.188716 0.39180 -0.19926 0.56681 1.140 1.05e-01 0.1741 12 -0.108177 0.11867 -0.01675 -0.14592 1.328 7.35e-03 0.1641 13 0.435432 -0.47769 0.07545 0.59537 1.068 1.14e-01 0.1559 14 0.364596 -0.39998 0.07835 0.51426 1.085 8.61e-02 0.1406 15 -0.184317 0.20220 -0.10096 -0.33510 1.074 3.72e-02 0.0874 16 -0.074240 0.08144 -0.04549 -0.14158 1.195 6.89e-03 0.0830 17 -0.007383 0.00810 -0.00574 -0.01581 1.216 8.67e-05 0.0753 18 0.007234 -0.00794 0.03829 0.06904 1.181 1.65e-03 0.0563 19 0.005837 -0.00640 0.05892 0.10296 1.166 3.65e-03 0.0558 20 -0.000919 0.00101 -0.06665 -0.11327 1.160 4.41e-03 0.0556 21 -0.001890 0.00207 -0.13706 -0.23293 1.068 1.81e-02 0.0556 22 0.017410 -0.01910 -0.07996 -0.12764 1.155 5.59e-03 0.0568 23 0.007616 -0.00835 -0.01588 -0.02437 1.199 2.06e-04 0.0630 24 0.164906 -0.18091 -0.22010 -0.33860 1.040 3.77e-02 0.0777 25 -0.032409 0.03555 0.03845 0.05983 1.225 1.24e-03 0.0859 26 -0.015799 0.01733 0.01874 0.02917 1.229 2.95e-04 0.0859 27 -0.273544 0.30009 0.26082 0.42314 1.073 5.87e-02 0.1118 28 -0.341834 0.37501 0.28734 0.48495 1.100 7.70e-02 0.1382 29 0.232338 -0.25488 -0.18096 -0.31478 1.262 3.37e-02 0.1613上面的结果说明,不存在对ANCOVA的结果有明显影响的样本。
《新程序员》:云原生和全面数字化实践50位技术专家共同创作,文字、视频、音频交互阅读总结
以上是生活随笔为你收集整理的UA MATH571A ANCOVA简介的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: UA MATH566 统计理论 推导卡方
- 下一篇: UA MATH564 概率论 依概率收敛