欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH564 概率论IV 次序统计量

发布时间:2025/4/14 编程问答 47 豆豆
生活随笔 收集整理的这篇文章主要介绍了 UA MATH564 概率论IV 次序统计量 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

UA MATH564 概率论IV 次序统计量

  • 次序统计量的分布
  • 例子
    • 例1:均匀分布的次序统计量
    • 例2:Dirichlet分布

次序统计量的分布

次序统计量的作用是比较大的,经常可以作为某些分布的充分统计量,统计量的含义以及次序统计量的重要性可以参考统计理论那个系列。假设样本为{X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}{X1,X2,,Xn},总体分布为F(X)F(X)F(X),概率密度为f(x)f(x)f(x)。将这组样本按从小到大的顺序排列,并记为{X(1),X(2),⋯,X(n)}\{X_{(1)},X_{(2)},\cdots,X_{(n)}\}{X(1),X(2),,X(n)},则这种统计量叫做样本的次序统计量。

定理1(单个次序统计量的分布)
FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}FX(j)=k=jnCnk[F(x)]k[1F(x)]nk
证明
先描述一个比较直观的推导:要计算X(j)X_{(j)}X(j)的分布就是要想办法估计P(X(j)≤x)P(X_{(j)} \le x)P(X(j)x),显然X(1)X_{(1)}X(1)X(j−1)X_{(j-1)}X(j1)也要小于xxx。这意味着在原来的nnn个样本{X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}{X1,X2,,Xn}中,至少有jjj个比xxx小。简单随机样本独立同分布,因此比xxx小的样本数目服从二项分布binom(n,F(x))binom(n,F(x))binom(n,F(x))。如果有k≥jk\ge jkj个比xxx小,那么概率就是Cnk[F(x)]k[1−F(x)]n−kC_n^k [F(x)]^k[1-F(x)]^{n-k}Cnk[F(x)]k[1F(x)]nk,对所有可能的kkk求和就可以得到P(X(j)≤x)P(X_{(j)} \le x)P(X(j)x)
下面给出正式证明:
定义Yj=I(−∞,x](Xj)Y_j = I_{(-\infty,x]}(X_j)Yj=I(,x](Xj),记
p=P(Yj=1)=P(Xj≤x)=F(x)p = P(Y_j=1)=P(X_j \le x) = F(x)p=P(Yj=1)=P(Xjx)=F(x)
从而Yj∼Ber(F(x))Y_j \sim Ber(F(x))YjBer(F(x))。定义Sn=∑j=1nYjS_n = \sum_{j=1}^n Y_jSn=j=1nYj,根据Bernoulli分布的可加性,Sn∼Binom(n,F(x))S_n \sim Binom(n,F(x))SnBinom(n,F(x))。从而
FX(j)=P(X(j)≤x)=P(Sn≥j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = P(X_{(j)} \le x) = P(S_n \ge j) \\ = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}FX(j)=P(X(j)x)=P(Snj)=k=jnCnk[F(x)]k[1F(x)]nk

定理2(单个次序统计量的概率密度)
fX(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)f_{X_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x)fX(j)(x)=jCnj[F(x)]j1[1F(x)]njf(x)
证明
这个其实可以直接硬算,但这里给一个比较直观的推导:考虑
fX(j)(x)Δx=P(x≤X(j)<x+Δx)f_{X_{(j)}}(x) \Delta x = P(x \le X_{(j)}<x+\Delta x)fX(j)(x)Δx=P(xX(j)<x+Δx)
这个概率可以分成三部分来求:

  • 有一个样本在[x,x+Δx)[x,x+\Delta x)[x,x+Δx)中;
  • j−1j-1j1个样本在(∞,x)(\infty,x)(,x)中;
  • n−jn-jnj个样本在[x+Δx,+∞)[x+\Delta x,+\infty)[x+Δx,+)中;
  • 第一条对应的概率为Cn1f(x)ΔxC_n^1f(x) \Delta xCn1f(x)Δx;第二条对应的概率为Cn−1j−1[F(x)]j−1C_{n-1}^{j-1}[F(x)]^{j-1}Cn1j1[F(x)]j1;第三条对应的概率为[1−F(x)]n−j[1-F(x)]^{n-j}[1F(x)]nj。因此
    fX(j)(x)Δx=[Cn1f(x)Δx][Cn−1j−1[F(x)]j−1][[1−F(x)]n−j]=jCnj[F(x)]j−1[1−F(x)]n−jf(x)Δxf_{X_{(j)}}(x) \Delta x = [C_n^1f(x) \Delta x][C_{n-1}^{j-1}[F(x)]^{j-1}][[1-F(x)]^{n-j}] \\ =jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \Delta xfX(j)(x)Δx=[Cn1f(x)Δx][Cn1j1[F(x)]j1][[1F(x)]nj]=jCnj[F(x)]j1[1F(x)]njf(x)Δx
    这里只用了一个nCn−1j−1=jCnjnC_{n-1}^{j-1} = jC_n^jnCn1j1=jCnj的关系。

    定理3(两个次序统计量的联合概率密度)不妨假设j>ij>ij>i,则
    fX(i),X(j)(xi,xj)=(n)2f(xi)f(xj)Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−jf_{X_{(i)},X_{(j)}}(x_i,x_j)=(n)_2f(x_{i})f(x_{j}) C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}fX(i),X(j)(xi,xj)=(n)2f(xi)f(xj)Cn2i1Cni3ji1[F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]nj
    证明
    用上面那个定理那种比较直观的推导办法。
    fX(i),X(j)(xi,xj)(Δx)2=P(xi≤X(i)<xi+Δx,xj≤X(j)<xj+Δx)f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2 = P(x_i \le X_{(i)} < x_i + \Delta x, x_j\le X_{(j)} < x_j + \Delta x)fX(i),X(j)(xi,xj)(Δx)2=P(xiX(i)<xi+Δx,xjX(j)<xj+Δx)
    将这个概率分成四部分计算:

  • 有两个样本,一个在[xi,xi+Δx)[x_i,x_i+\Delta x)[xi,xi+Δx)中,另一个在[xj,xj+Δx)[x_j,x_j+\Delta x)[xj,xj+Δx)中;
  • i−1i-1i1个样本在(∞,xi)(\infty,x_i)(,xi)中;
  • j−i−1j-i-1ji1个样本在[xi+Δx,xj][x_i+\Delta x,x_j][xi+Δx,xj]中;
  • n−jn-jnj个样本在[xj+Δx,+∞)[x_j+\Delta x,+\infty)[xj+Δx,+)中;
  • 第一条对应的概率是(n)2f(xi)Δxf(xj)Δx(n)_2f(x_i)\Delta x f(x_j)\Delta x(n)2f(xi)Δxf(xj)Δx;第二条对应的概率是Cn−2i−1[F(xi)]i−1C_{n-2}^{i-1}[F(x_i)]^{i-1}Cn2i1[F(xi)]i1;第三条对应的概率是Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}Cni3ji1[F(xj)F(xi)]ji1;第四条对应的概率是[1−F(xj)]n−j[1-F(x_j)]^{n-j}[1F(xj)]nj。因此
    fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δxf(xj)Δx][Cn−2i−1[F(xi)]i−1][Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1][[1−F(xj)]n−j]f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2=[(n)_2f(x_i)\Delta x f(x_j)\Delta x][C_{n-2}^{i-1}[F(x_i)]^{i-1}][C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}][[1-F(x_j)]^{n-j}]fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δxf(xj)Δx][Cn2i1[F(xi)]i1][Cni3ji1[F(xj)F(xi)]ji1][[1F(xj)]nj]

    例子

    例1:均匀分布的次序统计量

    假设{U1,⋯,Un}\{U_1,\cdots,U_n\}{U1,,Un}是一组[0,1][0,1][0,1]上的均匀分布的简单随机样本,则
    F(x)=x,f(x)=1F(x)=x,f(x) = 1F(x)=x,f(x)=1
    根据定理2:
    fU(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)=n!(j−1)!(n−j)!xj−1(1−x)n−j=Γ(n+1)Γ(j)Γ(n−j+1)xj−1(1−x)n−jf_{U_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \\ = \frac{n!}{(j-1)!(n-j)!}x^{j-1}(1-x)^{n-j} \\ = \frac{\Gamma(n+1)}{\Gamma{(j)}\Gamma(n-j+1)}x^{j-1}(1-x)^{n-j}fU(j)(x)=jCnj[F(x)]j1[1F(x)]njf(x)=(j1)!(nj)!n!xj1(1x)nj=Γ(j)Γ(nj+1)Γ(n+1)xj1(1x)nj
    因此U(j)∼Beta(j,n−j+1)U_{(j)} \sim Beta(j,n-j+1)U(j)Beta(j,nj+1)。即均匀分布U[0,1]U[0,1]U[0,1]的次序统计量会服从beta分布。根据定理3:
    fU(i),U(j)(xi,xj)=(n)2Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−j=n!(i−1)!(j−i−1)!(n−j)!xii−1(xj−xi)j−i−1(1−xj)n−j=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)xii−1(xj−xi)j−i−1(1−xi−(xj−xi))n−jf_{U_{(i)},U_{(j)}}(x_i,x_j)=(n)_2C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j} \\ = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_j)^{n-j} \\ =\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_i - (x_j-x_i))^{n-j}fU(i),U(j)(xi,xj)=(n)2Cn2i1Cni3ji1[F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]nj=(i1)!(ji1)!(nj)!n!xii1(xjxi)ji1(1xj)nj=Γ(i)Γ(ji)Γ(nj+1)Γ(n+1)xii1(xjxi)ji1(1xi(xjxi))nj
    ui=xi,uj=xj−xiu_i=x_i,u_j=x_j-x_iui=xi,uj=xjxi
    fU(i),U(j)(ui,uj)=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)uii−1ujj−i−1(1−ui−uj)n−jf_{U_{(i)},U_{(j)}}(u_i,u_j)=\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} u_i^{i-1}u_j^{j-i-1}(1-u_i-u_j)^{n-j}fU(i),U(j)(ui,uj)=Γ(i)Γ(ji)Γ(nj+1)Γ(n+1)uii1ujji1(1uiuj)nj
    这个是二元的beta分布,可以记为beta(i,j−i,n−j+1)beta(i,j-i,n-j+1)beta(i,ji,nj+1)

    例2:Dirichlet分布

    在上面的例子中,提到一个多元beta分布的东西,但它一般被称为Dirichlet分布,其一般形式为
    f(x∣α)=Γ(∑i=1nαi)∏i=1nΓ(αi)∏i=1nxiαi−1f(x|\alpha) = \frac{\Gamma(\sum_{i=1}^n \alpha_i)}{\prod_{i=1}^n \Gamma(\alpha_i)} \prod_{i=1}^n x_i^{\alpha_i-1}f(xα)=i=1nΓ(αi)Γ(i=1nαi)i=1nxiαi1
    这个分布定义在n−1n-1n1维(因为是n−1n-1n1维的线性流形)的单纯形Δn−1={x:∑i=1nxi=1,xi≥0}\Delta^{n-1}=\{x:\sum_{i=1}^n x_i=1,x_i \ge 0\}Δn1={x:i=1nxi=1,xi0}上,分布可以记为Dir(α1,⋯,αn)Dir(\alpha_1,\cdots,\alpha_n)Dir(α1,,αn)。关于Dirichlet分布有几个有趣的性质:

  • αi=1,∀i\alpha_i=1,\forall iαi=1,i,Dirichlet分布退化为单纯形Δn\Delta^nΔn上的均匀分布;
  • (X1,⋯,Xi+Xi+1,⋯,Xn)∼Dir(α1,⋯,αi+αi+1,⋯,αn)(X_1,\cdots,X_i+X_{i+1},\cdots,X_n)\sim Dir(\alpha_1,\cdots,\alpha_i+\alpha_{i+1},\cdots,\alpha_n)(X1,,Xi+Xi+1,,Xn)Dir(α1,,αi+αi+1,,αn)
  • Xi∼beta(αi,∑j=1nαj−αi)X_i \sim beta(\alpha_i,\sum_{j=1}^n \alpha_j - \alpha_i)Xibeta(αi,j=1nαjαi)
  • {U1,⋯,Un}\{U_1,\cdots,U_n\}{U1,,Un}mmm个次序统计量(序号为i1,⋯,imi_{1},\cdots,i_{m}i1,,im)的联合分布为Dir(i1,i2−i2,⋯,n−im+1)Dir(i_1,i_2-i_2,\cdots,n-i_m+1)Dir(i1,i2i2,,nim+1)
  • 总结

    以上是生活随笔为你收集整理的UA MATH564 概率论IV 次序统计量的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。