欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

UA MATH564 概率论V 中心极限定理

发布时间:2025/4/14 73 豆豆
生活随笔 收集整理的这篇文章主要介绍了 UA MATH564 概率论V 中心极限定理 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

UA MATH564 概率论V 中心极限定理

  • 随机变量序列的极限
    • 收敛模式之间的关系
  • 大数法则
  • 中心极限定理
    • Classical Central Limit Theorem
      • Sugden法则
    • Delta方法

现在考虑随机序列的收敛以及相关应用。假设{Xi}i=1n\{X_i\}_{i=1}^n{Xi}i=1n是定义在概率空间(Ω,F,P)(\Omega,\mathcal{F},P)(Ω,F,P)上的一列随机变量,n∈Nn \in \mathbb{N}nN,假设XXX是定义在这个概率空间上的随机变量,它和那个序列的象空间都是可测空间(X,B(X))(\mathcal{X},\mathcal{B}(\mathcal{X}))(X,B(X))。定义随机序列的收敛之前先定义随机事件的收敛,这个概念在之后证明某些性质的时候用得上。假设{Aj}j=1m⊂F\{A_j\}_{j=1}^m \subset \mathcal{F}{Aj}j=1mF,我们比较熟悉的是实数极限的定义,因此我们可以用indicate function把随机事件的收敛转换成实数的收敛来讨论。考虑序列{IAj}j=1m\{I_{A_j}\}_{j=1}^m{IAj}j=1m,这个序列是一个0-1序列,它并不总存在极限,但它一定有上极限和下极限。
这个序列的上极限,只可能取0或者1,如果上极限为0,说明几乎所有的事件都是零概率事件,如果下极限为1,说明只有有限个事件是零概率事件。对于
lim sup⁡m→∞IAm=1⇔∀n∈N,∃m>n,IAm=1\limsup_{m \to \infty} I_{A_m}=1 \\ \Leftrightarrow \forall n \in \mathbb{N}, \exists m>n,I_{A_m}=1mlimsupIAm=1nN,m>n,IAm=1
这个极限可以等价地表示为
w∈lim sup⁡m→∞Am=⋂m=1∞⋃l=m∞Al=Ami.o.w \in \limsup_{m \to \infty} A_m = \bigcap_{m=1}^{\infty} \bigcup_{l=m}^{\infty} A_l = A_m i.o.wmlimsupAm=m=1l=mAl=Ami.o.
i.o.i.o.i.o.是infinite often的缩写,后面三项是等价的记号。对于
lim inf⁡m→∞IAm=1⇔∃n∈N,∀m<n,IAm=1\liminf_{m \to \infty} I_{A_m}=1 \\ \Leftrightarrow \exists n \in \mathbb{N}, \forall m<n,I_{A_m}=1mliminfIAm=1nN,m<n,IAm=1
这个极限可以等价地表示为
w∈lim inf⁡m→∞Am=⋃m=1∞⋂l=m∞Al=Ama.a.w \in \liminf_{m \to \infty} A_m = \bigcup_{m=1}^{\infty} \bigcap_{l=m}^{\infty} A_l = A_m a.a.wmliminfAm=m=1l=mAl=Ama.a.
a.a.a.a.a.a.是almost always的缩写。
需要注意的是,尽管极限也可以表达上面那些含义,并且形式更简洁,但还是那句话,极限并不总是存在的,但上极限和下极限一定是存在的,所以用上极限和下极限来表达infinite often和almost always。

随机变量序列的极限

下面给出四种随机变量序列收敛的模式:

  • 几乎必然收敛,Xn→Xa.s.X_n \to X\ a.s.XnX a.s.
    P[lim⁡n→∞Xn=X]=1P[\lim_{n \to \infty}X_n = X]=1P[nlimXn=X]=1
  • Lp(p>0)L_p(p>0)Lp(p>0)收敛,Xn→LpXX_n \to_{L_p} XXnLpX
    lim⁡n→∞E[∣Xn−X∣p]=0\lim_{n\to \infty} E[|X_n-X|^p] = 0nlimE[XnXp]=0
    如果p=1p=1p=1,称为依均值收敛;如果p=2p=2p=2,称为均方收敛;
  • 依概率收敛,Xn→PXX_n \to_P XXnPX
    ∀ϵ>0,P[∣Xn−X∣>ϵ]=0\forall \epsilon>0, P[|X_n-X|>\epsilon]=0ϵ>0,P[XnX>ϵ]=0
  • 依分布收敛,Xn→DXX_n \to_D XXnDX
    对任一有界连续函数h:(X,B(X))→(X,B(X))h:(\mathcal{X},\mathcal{B}(\mathcal{X}))\to (\mathcal{X},\mathcal{B}(\mathcal{X}))h:(X,B(X))(X,B(X))
    lim⁡n→∞Eh(Xn)=Eh(X)\lim_{n \to \infty} Eh(X_n) = Eh(X)nlimEh(Xn)=Eh(X)
  • 收敛模式之间的关系

    定理1p>qp>qp>q,若Xn→LpXX_n \to_{L_p}XXnLpX,则Xn→LqXX_n \to_{L_q} XXnLqX
    证明
    考虑期望的Jensen不等式(参考信息论第一篇文章)
    0≤E[∣Xn−X∣q]p/q≤E[∣Xn−X∣p]0 \le E[|X_n-X|^q]^{p/q} \le E[|X_n-X|^p]0E[XnXq]p/qE[XnXp]
    显然E[∣Xn−X∣q]E[|X_n-X|^q]E[XnXq]可以被E[∣Xn−X∣p]E[|X_n-X|^p]E[XnXp]控制,因此若Xn→LpXX_n \to_{L_p}XXnLpX,则Xn→LqXX_n \to_{L_q} XXnLqX

    定理2 :若Xn→LpXX_n \to_{L_p}XXnLpX,则Xn→PXX_n \to_P XXnPX
    证明
    这个定理的证明非常简单,根据Chebyshev不等式,
    0≤P[∣Xn−X∣>ϵ]≤E[∣Xn−X∣p]ϵp0 \le P[|X_n-X|>\epsilon] \le \frac{E[|X_n-X|^p]}{\epsilon^p}0P[XnX>ϵ]ϵpE[XnXp]
    LpL_pLp收敛的时候上界被控制,因此中间的概率也会趋近于0。

    定理3:若Xn→Xa.s.X_n \to X\ a.s.XnX a.s.,则Xn→PXX_n \to_P XXnPX
    证明
    考虑几乎必然收敛的叙述,P[lim⁡n→∞Xn=X]=1P[\lim_{n \to \infty}X_n = X]=1P[nlimXn=X]=1
    对于lim⁡n→∞Xn=X\lim_{n \to \infty}X_n = XlimnXn=X,定义事件An=∣Xn−X∣>ϵ,∀ϵA_n = |X_n-X|>\epsilon,\forall \epsilonAn=XnX>ϵ,ϵ,则上面那个极限等价于
    P[Ani.o.]=1P[A_n\ i.o.] = 1P[An i.o.]=1
    因为
    Ani.o.=⋂n=1∞⋃m=n∞AmA_n\ i.o. = \bigcap_{n=1}^{\infty} \bigcup_{m=n}^{\infty} A_mAn i.o.=n=1m=nAm
    注意到⋃m=n∞Am\bigcup_{m=n}^{\infty} A_mm=nAm会递减到概率空间(Ω,F,P)(\Omega,\mathcal{F},P)(Ω,F,P)中的零概集。因此根据
    0≤P[An]≤P[Ani.o.]0\le P[A_n] \le P[A_n\ i.o.]0P[An]P[An i.o.]
    可以将P[An]P[A_n]P[An]控制为0。

    关于这些收敛模式还有几个比较重要的性质:假设ggg是定义在(X,B(X))(\mathcal{X},\mathcal{B}(\mathcal{X}))(X,B(X))上的连续函数,
    定理4:若Xn→Xa.s.X_n \to X\ a.s.XnX a.s.,则g(Xn)→g(X)a.s.g(X_n) \to g(X)\ a.s.g(Xn)g(X) a.s.
    定理5:若Xn→DXX_n \to_{D}XXnDX,则g(Xn)→Dg(X)g(X_n) \to_{D} g(X)g(Xn)Dg(X)
    定理6:若Xn→PXX_n \to_{P}XXnPX,则g(Xn)→Pg(X)g(X_n) \to_{P} g(X)g(Xn)Pg(X)
    这几个定理本质就是交换一下极限的顺序,都非常平凡。
    定理7Xn→Xa.s.X_n \to X\ a.s.XnX a.s.g(x)g(x)g(x)是一个凸函数,且xp=o(g(x))x^p=o(g(x))xp=o(g(x))。如果{Eg(Xn)}\{Eg(X_n)\}{Eg(Xn)}是一个有界序列,则Xn→LpXX_n\to_{L_p}XXnLpX
    定理8给出了几乎必然收敛与LpL_pLp收敛的关系,o()o()o()是Landau符号,那个式子的含义是g(x)g(x)g(x)阶数比ppp高,则在{Eg(Xn)}\{Eg(X_n)\}{Eg(Xn)}有界的条件下可以根据Lebesgue控制收敛定理让{∣Xn−X∣p}\{|X_n-X|^p\}{XnXp}收敛。

    再深入讨论一下依分布收敛,因为之后讨论中心极限定理要用。首先根据依分布收敛的叙述,对任一有界连续函数h:(X,B(X))→(X,B(X))h:(\mathcal{X},\mathcal{B}(\mathcal{X}))\to (\mathcal{X},\mathcal{B}(\mathcal{X}))h:(X,B(X))(X,B(X))
    lim⁡n→∞Eh(Xn)=Eh(X)\lim_{n \to \infty} Eh(X_n) = Eh(X)nlimEh(Xn)=Eh(X)
    这个极限可以写成
    lim⁡n→∞∫Xh(x)dFXn=∫Xh(x)dFX\lim_{n \to \infty} \int_{\mathcal{X}} h(x)dF_{X_n} = \int_{\mathcal{X}} h(x)dF_{X} nlimXh(x)dFXn=Xh(x)dFX
    我们可以取h(x)=IB(x),∀B∈B(X)h(x)=I_{B}(x),\forall B \in \mathcal{B}(\mathcal{X})h(x)=IB(x),BB(X),从而上面的极限可以变成
    lim⁡n→∞FXn(x)=F(X),∀x∈X\lim_{n \to \infty} F_{X_n}(x) = F(X),\forall x \in \mathcal{X} nlimFXn(x)=F(X),xX
    根据这个关系,根据Fourier变换、Laplace变换的完备性,我们可以进一步得到XnX_nXn的特征函数与矩生成函数趋近于XXX的特征函数与矩生成函数。
    关于依分布收敛还有一个非常重要的定理,这个定理在后面做中心极限定理的推广的时候会比较有用。
    定理(Slutsky定理)
    Xn→DXX_n \to_D XXnDXYn→PcY_n \to_P cYnPc,则XnYn→DcXX_nY_n \to_D cXXnYnDcXXn+Yn→DX+cX_n+Y_n \to_D X+cXn+YnDX+c

    大数法则

    数理统计中最常用的统计量是样本均值,大数法则和中心极限定理讨论的就是样本均值的收敛情况,只是二者讨论的是不同的收敛模式。
    定理(Weak Law of Large Number)
    假设{X1,⋯,Xn}\{X_1,\cdots,X_n\}{X1,,Xn}是总体XXX的简单随机样本,总体的均值存在,记为μ=EX\mu = EXμ=EX,总体的方差有界,记σ2=Var(X)\sigma^2 = Var(X)σ2=Var(X),则样本均值满足
    Xˉ→L2μ\bar{X} \to_{L_2} \muXˉL2μ
    证明
    因为EXˉ=μE\bar{X} = \muEXˉ=μ,因此
    E[Xˉ−μ]2=Var(Xˉ)=σ2nE[\bar{X}-\mu]^2 = Var(\bar{X}) = \frac{\sigma^2}{n}E[Xˉμ]2=Var(Xˉ)=nσ2
    因为方差有界,∃M>0\exists M>0M>0σ2≤M\sigma^2\le Mσ2M,则
    E[Xˉ−μ]2≤Mn→0,asn→∞E[\bar{X}-\mu]^2 \le \frac{M}{n} \to 0,as\ n\to \inftyE[Xˉμ]2nM0,as n
    所以
    Xˉ→L2μ\bar{X} \to_{L_2} \muXˉL2μ

    中心极限定理

    Classical Central Limit Theorem

    定理(Classical Central Limit Theorem)
    Zn=Xˉ−μσ/n→DN(0,1)Z_n = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \to_D N(0,1)Zn=σ/nXˉμDN(0,1)
    证明
    思路是说明
    lim⁡n→∞MZn(t)=exp⁡t22\lim_{n \to \infty} M_{Z_n}(t) = \exp \frac{t^2}{2}nlimMZn(t)=exp2t2
    等价地,也就是证明累积量生成函数的极限满足
    lim⁡n→∞KZn(t)=t22\lim_{n \to \infty} K_{Z_n}(t) = \frac{t^2}{2}nlimKZn(t)=2t2
    定义Yi=Xi−μσ∼iidN(0,1)Y_i = \frac{X_i-\mu}{\sigma} \sim_{iid} N(0,1)Yi=σXiμiidN(0,1),它的矩生成函数和累积量生成函数是
    MYi(t)=exp⁡t22,KYi=t22M_{Y_i}(t) = \exp \frac{t^2}{2},K_{Y_i} = \frac{t^2}{2}MYi(t)=exp2t2,KYi=2t2
    ZnZ_nZn写成
    Zn=1n∑i=1nYiZ_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_iZn=n1i=1nYi
    因为独立随机变量和的矩生成函数等于他们矩生成函数的乘积,因此
    MZn=∏i=1nMYi(tn)=[MYi(tn)]nKZn(t)=ln⁡MZn=nKYi(tn)M_{Z_n} = \prod_{i=1}^n M_{Y_i}(\frac{t}{\sqrt{n}}) = [M_{Y_i}(\frac{t}{\sqrt{n}})]^n \\ K_{Z_n}(t) = \ln M_{Z_n} = nK_{Y_i}(\frac{t}{\sqrt{n}})MZn=i=1nMYi(nt)=[MYi(nt)]nKZn(t)=lnMZn=nKYi(nt)
    注意到
    KYi′(0)=0,KYi′′(0)=1K_{Y_i}'(0)=0,K_{Y_i}''(0)=1KYi(0)=0,KYi(0)=1
    根据洛必达法则,
    lim⁡n→∞nKYi(tn)=lim⁡ϵ→01ϵ2KYi(ϵt)=lim⁡ϵ→0t2KYi′′(ϵt)2=t22\lim_{n \to \infty} nK_{Y_i}(\frac{t}{\sqrt{n}}) = \lim_{\epsilon \to 0} \frac{1}{\epsilon^2}K_{Y_i}(\epsilon t) = \lim_{\epsilon \to 0} \frac{t^2K''_{Y_i}(\epsilon t)}{2} = \frac{t^2}{2} nlimnKYi(nt)=ϵ0limϵ21KYi(ϵt)=ϵ0lim2t2KYi(ϵt)=2t2

    Sugden法则

    中心极限定理的理论结果非常美好,但实际应用中样本数就是科研经费呀!所以人们更关心的是到底要多少样本才能有这种收敛的效果。一个经验法则是,如果总体分布的偏度越大,那么要收敛需要的样本数就越多,基于这个观察Sugden et al. (2000)提出了近似为正态需要的最小样本数的经验法则:
    n∗=28+25γ12n^* = 28 + 25\gamma_1^2n=28+25γ12
    其中γ1\gamma_1γ1为偏度。需要指出的是这篇文章是根据Cochran规则和Edgeworth展开,28和25是近似值,这个经验法则能够保证样本数不少于28+25γ1228 + 25\gamma_1^228+25γ12时,我们有95%的confidence认为ZnZ_nZn服从标准正态分布。这个经验法则的推导在之后写统计中张量方法那个系列的时候再来完成。

    Delta方法

    在误差分析中,通常假设某个准确值为X∗X^*X的测量会有一个Gaussian误差YYYY∼N(0,σ2)Y\sim N(0,\sigma^2)YN(0,σ2),测量结果为X=X∗+Y∼N(X∗,σ2)X=X^*+Y \sim N(X^*,\sigma^2)X=X+YN(X,σ2)。通常测量结果会用来进行某些运算,假设要做的运算为ggg,则运算结果为g(X)g(X)g(X)。接下来我们研究一下这个测量误差怎么影响运算结果。
    首先对g(X)g(X)g(X)X∗X^*X附近做一阶Taylor展开,则
    g(X)≈g(X∗)+g′(X∗)Yg(X) \approx g(X^*) + g'(X^*)Yg(X)g(X)+g(X)Y
    对式子两边求期望与方差:
    Eg(X)≈Eg(X∗)Var[g(X)]≈[g′(X∗)]2Var(Y)=[g′(X∗)]2σ2Eg(X) \approx Eg(X^*) \\ Var[g(X)] \approx [g'(X^*)]^2 Var(Y) = [g'(X^*)]^2 \sigma^2Eg(X)Eg(X)Var[g(X)][g(X)]2Var(Y)=[g(X)]2σ2
    第一个式子说明只考虑一阶量,Gaussian误差对这个测量的运算结果不会有影响,即具有近似的无偏性。第二个式子给出了误差的方差在运算中的传播规则。
    如果这个测量是多元变量,则Gaussian误差YYYY∼Nn(0,Σ)Y\sim N_n(0,\Sigma)YNn(0,Σ),做一阶Taylor展开为
    g(X)≈g(X∗)+Dg(X∗)Yg(X) \approx g(X^*) + Dg(X^*)Yg(X)g(X)+Dg(X)Y
    对式子两边求期望与方差:
    Eg(X)≈Eg(X∗)Var[g(X)]≈[g′(X∗)]2Var(Y)=Dg(X∗)Σ[Dg(X∗)]TEg(X) \approx Eg(X^*) \\ Var[g(X)] \approx [g'(X^*)]^2 Var(Y) = Dg(X^*) \Sigma [Dg(X^*)]^TEg(X)Eg(X)Var[g(X)][g(X)]2Var(Y)=Dg(X)Σ[Dg(X)]T
    在中心极限定理的实际应用中,我们构造统计量ZnZ_nZn替代样本均值并试图用标准正态分布来近似ZnZ_nZn的分布。为了分析这个近似的效率,我们需要知道ZnZ_nZn的一些数字特征,而ZnZ_nZn可以看成是Xˉ\bar{X}Xˉ的一个函数。假设我们考虑任一用样本均值构造的统计量g(Xˉ)g(\bar{X})g(Xˉ),根据上面的方差传播规律,并设X∗=μX^*=\muX=μ
    Var[g(Xˉ)]≈[g′(μ)]2Var(Xˉ−μ)=[g′(μ)]2σ2nVar[g(\bar{X})] \approx [g'(\mu)]^2 Var(\bar{X}-\mu) = [g'(\mu)]^2 \frac{\sigma^2}{n}Var[g(Xˉ)][g(μ)]2Var(Xˉμ)=[g(μ)]2nσ2
    根据这个式子可以用来估计根据样本均值构造的统计量g(Xˉ)g(\bar{X})g(Xˉ)的方差,这个方法叫做Delta方法。Delta方法的意义远不止如此,它可以用来推广中心极限定理。考虑
    Zn=Xˉ−μσ/n→DN(0,1)Z_n = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \to_D N(0,1)Zn=σ/nXˉμDN(0,1)
    可以用g(Xˉ)g(\bar{X})g(Xˉ)替换Xˉ\bar{X}Xˉ,用delta方法近似标准差和均值,则
    Zn=g(Xˉ)−g(μ)[g′(μ)]2σ2n→DN(0,1)Z_n = \frac{g(\bar{X})-g(\mu)}{\sqrt{[g'(\mu)]^2 \frac{\sigma^2}{n}}} \to_D N(0,1)Zn=[g(μ)]2nσ2g(Xˉ)g(μ)DN(0,1)
    证明
    根据Lagrange中值定理,∃η\exists \etaηXˉ\bar{X}Xˉμ\muμ之间,
    g(Xˉ)−g(μ)=g′(η)(Xˉ−μ)g(\bar{X})-g(\mu) = g'(\eta)(\bar{X}-\mu)g(Xˉ)g(μ)=g(η)(Xˉμ)
    这个式子左右两边可以同时乘以n\sqrt{n}n
    ng(Xˉ)−g(μ)=g′(η)n(Xˉ−μ)\sqrt{n}g(\bar{X})-g(\mu) =g'(\eta) \sqrt{n}(\bar{X}-\mu)ng(Xˉ)g(μ)=g(η)n(Xˉμ)
    根据弱大数法则,Xˉ→μa.s.\bar{X} \to \mu \ a.s.Xˉμ a.s.,则η→μa.s.\eta \to \mu\ a.s.ημ a.s.,根据定理4,g′(η)→g′(μ)a.s.g'(\eta)\to g'(\mu)\ a.s.g(η)g(μ) a.s.。记ZZZ为标准正态随机变量,根据中心极限定理,
    n(Xˉ−μ)→DσZ\sqrt{n}(\bar{X}-\mu) \to_{D} \sigma Zn(Xˉμ)DσZ
    再用一下Slutsky定理即可:
    g′(η)n(Xˉ−μ)→σg′(μ)Zg'(\eta) \sqrt{n}(\bar{X}-\mu) \to \sigma g'(\mu)Zg(η)n(Xˉμ)σg(μ)Z

    关于Delta方法还有几点补充:从一元推广到多元就用多元的方差传递公式做就可以了;如果正好g(μ)=0g(\mu)=0g(μ)=0,那就用二阶Taylor展开来做近似。

    总结

    以上是生活随笔为你收集整理的UA MATH564 概率论V 中心极限定理的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。