UA MATH566 统计理论 推导卡方拟合优度检验
UA MATH566 统计理论 推导卡方拟合优度检验
卡方拟合优度检验主要是检验categorical data的,假设一共有ddd种category,每一种理论比例为pip_ipi,满足
∑i=1dpi=1,pi≥0\sum_{i=1}^d p_i = 1,p_i \ge 0i=1∑dpi=1,pi≥0
假设我们想要检验的问题是:
H0:πi=pi,i=1,⋯,dHa:πi≠pi,∃iH_0:\pi_i = p_i,i = 1,\cdots,d \\ H_a:\pi_i \ne p_i,\exists iH0:πi=pi,i=1,⋯,dHa:πi=pi,∃i
假设每一种category的频数为n1,⋯,ndn_1,\cdots,n_dn1,⋯,nd,则category data的似然为
L(p1,⋯,pd)=∏i=1dpinilnL(p1,⋯,pd)=∑i=1dnilnpiL(p_1,\cdots,p_d) = \prod_{i=1}^d p_i^{n_i} \\ \ln L(p_1,\cdots,p_d) = \sum_{i=1}^dn_i\ln p_iL(p1,⋯,pd)=i=1∏dpinilnL(p1,⋯,pd)=i=1∑dnilnpi
考虑pip_ipi的MLE,
maxpilnL(p1,⋯,pd)=∑i=1dnilnpis.t.∑i=1dpi=1,pi≥0\max_{p_i} \ln L(p_1,\cdots,p_d) = \sum_{i=1}^dn_i\ln p_i \\ s.t.\ \sum_{i=1}^d p_i = 1,p_i \ge 0pimaxlnL(p1,⋯,pd)=i=1∑dnilnpis.t. i=1∑dpi=1,pi≥0
定义
g(p1,⋯,pd,λ)=∑i=1dnilnpi−λ(∑i=1dpi−1)∂g∂pi=nipi−λ=0⇒pi=niλ⇒∑i=1dniλ=nλ=1g(p_1,\cdots,p_d,\lambda) = \sum_{i=1}^dn_i\ln p_i - \lambda(\sum_{i=1}^d p_i - 1) \\ \frac{\partial g}{\partial p_i} = \frac{n_i}{p_i} - \lambda = 0 \Rightarrow p_i = \frac{n_i}{\lambda}\Rightarrow \sum_{i=1}^d \frac{n_i}{\lambda} = \frac{n}{\lambda} = 1g(p1,⋯,pd,λ)=i=1∑dnilnpi−λ(i=1∑dpi−1)∂pi∂g=pini−λ=0⇒pi=λni⇒i=1∑dλni=λn=1
所以MLE为
p^i=nin\hat p_i = \frac{n_i}{n}p^i=nni
这个检验的似然比为
Λ(n)=∏i=1dπini∏i=1dp^ini=∏i=1d(nπini)ni\Lambda(n) = \frac{\prod_{i=1}^d \pi_i^{n_i}}{\prod_{i=1}^d \hat p_i^{n_i}} = \prod_{i=1}^d \left(\frac{ n\pi_i}{n_i} \right)^{n_i}Λ(n)=∏i=1dp^ini∏i=1dπini=i=1∏d(ninπi)ni
根据似然比检验的原理,当Λ(n)\Lambda(n)Λ(n)比较小的时候应该拒绝原假设。考虑统计量
−2lnΛ(n)→dχd−12,asn→∞-2\ln \Lambda(n) \to_d \chi^2_{d-1},\ as\ n \to \infty−2lnΛ(n)→dχd−12, as n→∞
实际计算的时候会用近似:
−2lnΛ(n)=2∑i=1dnilnninπi-2\ln \Lambda(n) = 2\sum_{i=1}^d n_i \ln \frac{n_i}{n\pi_i}−2lnΛ(n)=2i=1∑dnilnnπini
定义Oi=ni,Ei=nπiO_i = n_i, E_i = n\pi_iOi=ni,Ei=nπi,OiO_iOi是观测值,EiE_iEi是理论值
−2lnΛ(n)=2∑i=1dOilnOiEi=∑i=1dln(OiEi)2Oi=∑i=1dln(1−Ei−OiEi)2Oi≈∑i=1d(Ei−OiEi)2-2\ln \Lambda(n) = 2\sum_{i=1}^d O_i \ln \frac{O_i}{E_i} = \sum_{i=1}^d \ln \left( \frac{O_i}{E_i} \right)^{2O_i} \\= \sum_{i=1}^d \ln \left(1- \frac{E_i-O_i}{E_i} \right)^{2O_i} \approx \sum_{i=1}^d \left( \frac{E_i-O_i}{E_i} \right)^2−2lnΛ(n)=2i=1∑dOilnEiOi=i=1∑dln(EiOi)2Oi=i=1∑dln(1−EiEi−Oi)2Oi≈i=1∑d(EiEi−Oi)2
因此卡方检验的统计量为
χ2=∑i=1d(Ei−OiEi)2∼χd−12\chi^2 = \sum_{i=1}^d \left( \frac{E_i-O_i}{E_i} \right)^2 \sim \chi^2_{d-1}χ2=i=1∑d(EiEi−Oi)2∼χd−12
总结
以上是生活随笔为你收集整理的UA MATH566 统计理论 推导卡方拟合优度检验的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: UA MATH571A 回归分析 概念与
- 下一篇: UA MATH571A ANCOVA简介