当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH571A ANCOVA简介

发布时间：2025/4/14 编程问答 41 豆豆

生活随笔收集整理的这篇文章主要介绍了 UA MATH571A ANCOVA简介小编觉得挺不错的,现在分享给大家,帮大家做个参考.

UA MATH571A ANCOVA简介

- - 回归
  - ANCOVA
  - - ANCOVA的统计模型
    - ANCOVA的结果
  - Influential Analysis
  - - 线性回归的Influential Analysis
    - ANCOVA的Influential Analysis

用一个例子引入我们要讨论的话题：一项Health Science的研究试图比较美国中西部地区女性的血清胆固醇（serum cholesterol）是否存在地区差异，为此研究人员收集到下列meta data

基于这两组数据，为了验证爱荷华与内布拉斯加女性的血清胆固醇是否存在显著差异，研究人员构建了下列回归方程：
$log⁡(cholesti)=β0+β1agei+β2State+β12agei×Statei+ϵi\log (cholest_i) = \beta_0 + \beta_1 age_i + \beta_2 State + \beta_{12}age_i \times State_i + \epsilon_i$

在估计这个模型之前，我们先看看数据的散点图：

cholesterol.df = read.csv( file.choose() ) attach( cholesterol.df ) X = age; Y = log(cholesterol); State = StateNumstate = rep(0,length(State)) for (i in 1:length(State)) {if(State[i]=="Iowa"){Numstate[i]=1} }plot( Y ~ X, pch=(Numstate) , xlab = "Age", ylab = "log Cholest") legend(60,5,legend=c('Iowa','Nebraska'),pch=c(unique(Numstate)))

从这个散点图没法很直观看出两个州女性血清胆固醇的差异，下面就用统计模型来判断吧。

回归

如果把State用Dummy来表示，然后根据上述模型做回归，那么State以及交互项的系数都是不显著的，说明不存在显著的地区差异。

> reg.lm <- lm( Y ~ X*Numstate) > summary(reg.lm)Call: lm(formula = Y ~ X * Numstate)Residuals:Min 1Q Median 3Q Max -0.4338 -0.1174 0.0141 0.1546 0.3147 Coefficients:Estimate Std. Error t value Pr(>|t|) (Intercept) 4.757e+00 1.410e-01 33.726 < 2e-16 *** X 1.322e-02 3.007e-03 4.396 0.000178 *** Numstate -2.650e-03 2.933e-03 -0.904 0.374810 X:Numstate 1.842e-05 5.585e-05 0.330 0.744356 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.2013 on 25 degrees of freedom Multiple R-squared: 0.5452, Adjusted R-squared: 0.4907 F-statistic: 9.991 on 3 and 25 DF, p-value: 0.0001649

ANCOVA

线性模型有一个致命弱点，参数估计受变量取值的影响很大，所以把State用Dummy表示只能保证能够做回归，不能保证结果的准确性。

试验设计中我们介绍过nuisance factor，它会影响试验结果但不是我们研究兴趣所在。如果我们只是知道存在nuisance factor，但不知道具体是什么，就只能通过randomization来降低它的影响；如果我们知道nuisance factor是什么，可以测量它的值，但不能人为控制，可以用ANCOVA检验treatment factor效应是否显著；如果我们知道nuisance factor是什么并且可以人为控制，就可以用Blocking design。在上面的例子中，State是treatment factor，age是nuisance factor，可以测量但不能控制，所以上面的数据应该用ANCOVA来分析。

ANCOVA的统计模型

$yij=μ′+τi+βxij+ϵijy_{ij} = \mu'+\tau_i + \beta x_{ij} + \epsilon_{ij}$

其中 $x_{ij}$ 表示nuisance factor，对应上面例子中的age； $y_{ij}$ 表示response，对应上面例子中的血清胆固醇的对数； $μ′\mu'$ 不再是grand mean了，它是grand mean加上 $βxˉ..\beta \bar{x}_{..}$ ； $τi\tau_i$ 是treatment effect，在上面的例子中就是State的effect， $i = 1, 2$ 。ANCOVA的假设检验是
$H0:τi=0Ha:τi≠0H_0:\tau_i = 0 \\ H_a:\tau_i \ne 0$

ANCOVA的结果

> cholestFM.lm = lm( Y ~ X*factor(State) ) > anova( cholestFM.lm ) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) X 1 1.0240 1.02401 25.2733 3.473e-05 *** factor(State) 1 0.1860 0.18600 4.5906 0.04207 * X:factor(State) 1 0.0044 0.00440 0.1087 0.74436 Residuals 25 1.0129 0.04052 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

ANCOVA结果显示，在0.05的显著性水平下，State是显著的，但交互项不显著，这说明爱荷华和内布拉斯加女性血清胆固醇存在显著差异，但这种差异并非是由两个州女性的年龄结构所造成的。

> cholestRM.lm = lm( Y ~ X + factor(State) ) > anova( cholestRM.lm ) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) X 1 1.0240 1.02401 26.1704 2.477e-05 *** factor(State) 1 0.1860 0.18600 4.7536 0.03848 * Residuals 26 1.0173 0.03913 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > anova( cholestRM.lm,cholestFM.lm ) Analysis of Variance TableModel 1: Y ~ X + factor(State) Model 2: Y ~ X * factor(State)Res.Df RSS Df Sum of Sq F Pr(>F) 1 26 1.0173 2 25 1.0129 1 0.004405 0.1087 0.7444

如果我们剔除掉交互项，只保留一次项，第二个ANOVA的结果说明这样做与保留交互项的模型没有显著差异，而第一个ANOVA的结果则说明去掉交互项，State的显著性会有一点点提升。

Influential Analysis

线性回归的Influential Analysis

> influence.measures(reg.lm) Influence measures oflm(formula = Y ~ X * Numstate) :dfb.1_ dfb.X dfb.Nmst dfb.X.Nm dffit cov.r cook.d hat inf 1 -8.11e-16 1.08e-15 1.111496 -0.951079 1.3411 0.927 0.401830 0.3116 * 2 -1.15e-16 6.89e-17 0.263426 -0.213166 0.3429 1.361 0.030027 0.1995 3 6.58e-16 -7.96e-16 -0.768725 0.603894 -1.0477 0.637 0.233917 0.1708 4 5.32e-18 -5.24e-18 0.015858 -0.010880 0.0268 1.334 0.000187 0.1184 5 -2.36e-16 1.18e-16 -0.378992 0.212313 -0.8331 0.519 0.143444 0.1001 * 6 2.19e-17 -9.42e-18 0.070604 -0.018041 0.2539 1.167 0.016358 0.0916 7 1.50e-17 1.57e-17 0.061938 0.025057 0.4228 0.974 0.043339 0.0914 8 -2.40e-17 1.14e-17 0.023939 -0.065395 -0.2181 1.228 0.012180 0.1041 9 8.09e-18 0.00e+00 -0.048069 0.064505 0.1128 1.401 0.003306 0.1685 10 -1.62e-17 4.51e-17 0.296029 -0.354837 -0.5189 1.421 0.068007 0.2663 11 4.92e-17 -1.37e-16 -0.602514 0.690281 0.9400 1.496 0.216943 0.3779 * 12 -2.06e-01 1.80e-01 0.099018 -0.096861 -0.2101 1.446 0.011413 0.2084 13 6.36e-01 -5.52e-01 -0.305986 0.297225 0.6516 1.110 0.103119 0.1969 14 5.37e-01 -4.59e-01 -0.258250 0.246956 0.5550 1.129 0.075637 0.1753 15 -3.27e-01 2.48e-01 0.157259 -0.133754 -0.3718 1.070 0.034238 0.1003 16 -1.39e-01 1.04e-01 0.067011 -0.055789 -0.1617 1.247 0.006740 0.0942 17 -2.10e-02 1.48e-02 0.010087 -0.007970 -0.0256 1.283 0.000171 0.0834 18 3.07e-02 -9.06e-03 -0.014769 0.004876 0.0666 1.233 0.001150 0.0566 19 4.07e-02 -7.41e-03 -0.019554 0.003987 0.1004 1.212 0.002607 0.0559 20 -3.86e-02 1.18e-03 0.018542 -0.000633 -0.1113 1.204 0.003200 0.0556 21 -7.93e-02 2.42e-03 0.038114 -0.001302 -0.2289 1.078 0.013151 0.0556 22 -2.04e-02 -2.19e-02 0.009824 0.011808 -0.1241 1.198 0.003967 0.0573 23 1.29e-03 -7.82e-03 -0.000621 0.004213 -0.0197 1.259 0.000101 0.0660 24 1.02e-01 -2.07e-01 -0.048984 0.111198 -0.3442 1.053 0.029332 0.0868 25 -2.80e-02 5.03e-02 0.013487 -0.027059 0.0762 1.294 0.001510 0.0983 26 -1.60e-02 2.87e-02 0.007707 -0.015462 0.0436 1.302 0.000494 0.0983 27 -2.49e-01 3.77e-01 0.119530 -0.202796 0.4914 1.059 0.059060 0.1347 28 -3.42e-01 4.82e-01 0.164480 -0.259635 0.5862 1.089 0.083703 0.1719 29 2.06e-01 -2.80e-01 -0.099057 0.150631 -0.3278 1.381 0.027508 0.2045

上面的结果说明第一个样本对State的系数、第一个样本和第三个样本对拟合值的影响都比较大，第1、10、11、12、29个样本的hat value超过或者十分接近临界值，他们对参数估计有较大影响，可能是outlier。

ANCOVA的Influential Analysis

> influence.measures(cholestRM.lm) Influence measures oflm(formula = Y ~ X + factor(State)) :dfb.1_ dfb.X dfb.f.S. dffit cov.r cook.d hat inf 1 0.631133 -0.45026 -0.53256 0.70058 0.981 1.54e-01 0.1549 2 0.173140 -0.10751 -0.16842 0.21201 1.233 1.54e-02 0.1224 3 -0.661110 0.38302 0.68141 -0.84988 0.692 2.05e-01 0.1141 4 0.005454 -0.00237 -0.00672 0.00835 1.248 2.42e-05 0.0989 5 -0.461593 0.13908 0.65468 -0.82602 0.614 1.87e-01 0.0936 * 6 0.115497 -0.01162 -0.19612 0.25538 1.146 2.20e-02 0.0911 7 0.162487 0.01638 -0.32154 0.43177 0.998 6.01e-02 0.0910 8 -0.043651 -0.03988 0.13584 -0.19860 1.188 1.35e-02 0.0947 9 -0.004440 0.05248 -0.06500 0.11787 1.252 4.80e-03 0.1134 10 0.059818 -0.16540 0.12062 -0.27619 1.241 2.60e-02 0.1417 11 -0.188716 0.39180 -0.19926 0.56681 1.140 1.05e-01 0.1741 12 -0.108177 0.11867 -0.01675 -0.14592 1.328 7.35e-03 0.1641 13 0.435432 -0.47769 0.07545 0.59537 1.068 1.14e-01 0.1559 14 0.364596 -0.39998 0.07835 0.51426 1.085 8.61e-02 0.1406 15 -0.184317 0.20220 -0.10096 -0.33510 1.074 3.72e-02 0.0874 16 -0.074240 0.08144 -0.04549 -0.14158 1.195 6.89e-03 0.0830 17 -0.007383 0.00810 -0.00574 -0.01581 1.216 8.67e-05 0.0753 18 0.007234 -0.00794 0.03829 0.06904 1.181 1.65e-03 0.0563 19 0.005837 -0.00640 0.05892 0.10296 1.166 3.65e-03 0.0558 20 -0.000919 0.00101 -0.06665 -0.11327 1.160 4.41e-03 0.0556 21 -0.001890 0.00207 -0.13706 -0.23293 1.068 1.81e-02 0.0556 22 0.017410 -0.01910 -0.07996 -0.12764 1.155 5.59e-03 0.0568 23 0.007616 -0.00835 -0.01588 -0.02437 1.199 2.06e-04 0.0630 24 0.164906 -0.18091 -0.22010 -0.33860 1.040 3.77e-02 0.0777 25 -0.032409 0.03555 0.03845 0.05983 1.225 1.24e-03 0.0859 26 -0.015799 0.01733 0.01874 0.02917 1.229 2.95e-04 0.0859 27 -0.273544 0.30009 0.26082 0.42314 1.073 5.87e-02 0.1118 28 -0.341834 0.37501 0.28734 0.48495 1.100 7.70e-02 0.1382 29 0.232338 -0.25488 -0.18096 -0.31478 1.262 3.37e-02 0.1613

上面的结果说明，不存在对ANCOVA的结果有明显影响的样本。

《新程序员》：云原生和全面数字化实践50位技术专家共同创作，文字、视频、音频交互阅读

总结

以上是生活随笔为你收集整理的UA MATH571A ANCOVA简介的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇： UA MATH566 统计理论推导卡方
下一篇： UA MATH564 概率论依概率收敛