当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH564 概率论IV 次序统计量

发布时间：2025/4/14 编程问答 47 豆豆

生活随笔收集整理的这篇文章主要介绍了 UA MATH564 概率论IV 次序统计量小编觉得挺不错的,现在分享给大家,帮大家做个参考.

UA MATH564 概率论IV 次序统计量

次序统计量的分布
例子
- 例1：均匀分布的次序统计量
- 例2：Dirichlet分布

次序统计量的分布

次序统计量的作用是比较大的，经常可以作为某些分布的充分统计量，统计量的含义以及次序统计量的重要性可以参考统计理论那个系列。假设样本为 ${X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}$ ，总体分布为 $F (X)$ ，概率密度为 $f (x)$ 。将这组样本按从小到大的顺序排列，并记为 ${X(1),X(2),⋯,X(n)}\{X_{(1)},X_{(2)},\cdots,X_{(n)}\}$ ，则这种统计量叫做样本的次序统计量。

定理1（单个次序统计量的分布）
$FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}$
证明
先描述一个比较直观的推导：要计算 $X_{(j)}$ 的分布就是要想办法估计 $P(X(j)≤x)P(X_{(j)} \le x)$ ，显然 $X_{(1)}$ 到 $X_{(j-1)}$ 也要小于 $x$ 。这意味着在原来的 $n$ 个样本 ${X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}$ 中，至少有 $j$ 个比 $x$ 小。简单随机样本独立同分布，因此比 $x$ 小的样本数目服从二项分布 $b i n o m (n, F (x))$ 。如果有 $k≥jk\ge j$ 个比 $x$ 小，那么概率就是 $C_n^k [F(x)]^k[1-F(x)]^{n-k}$ ，对所有可能的 $k$ 求和就可以得到 $P(X(j)≤x)P(X_{(j)} \le x)$ 。
下面给出正式证明：
定义 $Yj=I(−∞,x](Xj)Y_j = I_{(-\infty,x]}(X_j)$ ，记
$P(Y_j=1)=P(X_j \le x) = F(x)$
从而 $Yj∼Ber(F(x))Y_j \sim Ber(F(x))$ 。定义 $Sn=∑j=1nYjS_n = \sum_{j=1}^n Y_j$ ，根据Bernoulli分布的可加性， $Sn∼Binom(n,F(x))S_n \sim Binom(n,F(x))$ 。从而
$FX(j)=P(X(j)≤x)=P(Sn≥j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = P(X_{(j)} \le x) = P(S_n \ge j) \\ = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}$

定理2（单个次序统计量的概率密度）
$f_{X_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x)$
证明
这个其实可以直接硬算，但这里给一个比较直观的推导：考虑
$fX(j)(x)Δx=P(x≤X(j)<x+Δx)f_{X_{(j)}}(x) \Delta x = P(x \le X_{(j)}<x+\Delta x)$
这个概率可以分成三部分来求：

有一个样本在

[x,x+Δx)[x,x+\Delta x)

中；

有

j - 1

个样本在

(∞,x)(\infty,x)

中；

有

n - j

个样本在

[x+Δx,+∞)[x+\Delta x,+\infty)

中；

第一条对应的概率为 $Cn1f(x)ΔxC_n^1f(x) \Delta x$ ；第二条对应的概率为 $C_{n-1}^{j-1}[F(x)]^{j-1}$ ；第三条对应的概率为 $1-F(x)]^{n-j}$ 。因此
$fX(j)(x)Δx=[Cn1f(x)Δx][Cn−1j−1[F(x)]j−1][[1−F(x)]n−j]=jCnj[F(x)]j−1[1−F(x)]n−jf(x)Δxf_{X_{(j)}}(x) \Delta x = [C_n^1f(x) \Delta x][C_{n-1}^{j-1}[F(x)]^{j-1}][[1-F(x)]^{n-j}] \\ =jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \Delta x$
这里只用了一个 $nC_{n-1}^{j-1} = jC_n^j$ 的关系。

定理3（两个次序统计量的联合概率密度）不妨假设 $j > i$ ，则
$f_{X_{(i)},X_{(j)}}(x_i,x_j)=(n)_2f(x_{i})f(x_{j}) C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}$
证明
用上面那个定理那种比较直观的推导办法。
$fX(i),X(j)(xi,xj)(Δx)2=P(xi≤X(i)<xi+Δx,xj≤X(j)<xj+Δx)f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2 = P(x_i \le X_{(i)} < x_i + \Delta x, x_j\le X_{(j)} < x_j + \Delta x)$
将这个概率分成四部分计算：

有两个样本，一个在

[xi,xi+Δx)[x_i,x_i+\Delta x)

中，另一个在

[xj,xj+Δx)[x_j,x_j+\Delta x)

中；

有

i - 1

个样本在

(∞,xi)(\infty,x_i)

中；

有

j - i - 1

个样本在

[xi+Δx,xj][x_i+\Delta x,x_j]

中；

有

n - j

个样本在

[xj+Δx,+∞)[x_j+\Delta x,+\infty)

中；

第一条对应的概率是 $(n)2f(xi)Δxf(xj)Δx(n)_2f(x_i)\Delta x f(x_j)\Delta x$ ；第二条对应的概率是 $C_{n-2}^{i-1}[F(x_i)]^{i-1}$ ；第三条对应的概率是 $C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}$ ；第四条对应的概率是 $1-F(x_j)]^{n-j}$ 。因此
$fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δxf(xj)Δx][Cn−2i−1[F(xi)]i−1][Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1][[1−F(xj)]n−j]f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2=[(n)_2f(x_i)\Delta x f(x_j)\Delta x][C_{n-2}^{i-1}[F(x_i)]^{i-1}][C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}][[1-F(x_j)]^{n-j}]$

例子

例1：均匀分布的次序统计量

假设 ${U1,⋯,Un}\{U_1,\cdots,U_n\}$ 是一组 $[0, 1]$ 上的均匀分布的简单随机样本，则
$F (x) = x, f (x) = 1$
根据定理2：
$fU(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)=n!(j−1)!(n−j)!xj−1(1−x)n−j=Γ(n+1)Γ(j)Γ(n−j+1)xj−1(1−x)n−jf_{U_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \\ = \frac{n!}{(j-1)!(n-j)!}x^{j-1}(1-x)^{n-j} \\ = \frac{\Gamma(n+1)}{\Gamma{(j)}\Gamma(n-j+1)}x^{j-1}(1-x)^{n-j}$
因此 $U(j)∼Beta(j,n−j+1)U_{(j)} \sim Beta(j,n-j+1)$ 。即均匀分布 $U [0, 1]$ 的次序统计量会服从beta分布。根据定理3：
$fU(i),U(j)(xi,xj)=(n)2Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−j=n!(i−1)!(j−i−1)!(n−j)!xii−1(xj−xi)j−i−1(1−xj)n−j=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)xii−1(xj−xi)j−i−1(1−xi−(xj−xi))n−jf_{U_{(i)},U_{(j)}}(x_i,x_j)=(n)_2C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j} \\ = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_j)^{n-j} \\ =\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_i - (x_j-x_i))^{n-j}$
记 $u_i=x_i,u_j=x_j-x_i$ ，
$fU(i),U(j)(ui,uj)=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)uii−1ujj−i−1(1−ui−uj)n−jf_{U_{(i)},U_{(j)}}(u_i,u_j)=\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} u_i^{i-1}u_j^{j-i-1}(1-u_i-u_j)^{n-j}$
这个是二元的beta分布，可以记为 $b e t a (i, j - i, n - j + 1)$ 。

例2：Dirichlet分布

在上面的例子中，提到一个多元beta分布的东西，但它一般被称为Dirichlet分布，其一般形式为
$f(x∣α)=Γ(∑i=1nαi)∏i=1nΓ(αi)∏i=1nxiαi−1f(x|\alpha) = \frac{\Gamma(\sum_{i=1}^n \alpha_i)}{\prod_{i=1}^n \Gamma(\alpha_i)} \prod_{i=1}^n x_i^{\alpha_i-1}$
这个分布定义在 $n - 1$ 维（因为是 $n - 1$ 维的线性流形）的单纯形 $Δn−1={x:∑i=1nxi=1,xi≥0}\Delta^{n-1}=\{x:\sum_{i=1}^n x_i=1,x_i \ge 0\}$ 上，分布可以记为 $Dir(α1,⋯,αn)Dir(\alpha_1,\cdots,\alpha_n)$ 。关于Dirichlet分布有几个有趣的性质：

αi=1,∀i\alpha_i=1,\forall i

，Dirichlet分布退化为单纯形

Δn\Delta^n

上的均匀分布；

(X1,⋯,Xi+Xi+1,⋯,Xn)∼Dir(α1,⋯,αi+αi+1,⋯,αn)(X_1,\cdots,X_i+X_{i+1},\cdots,X_n)\sim Dir(\alpha_1,\cdots,\alpha_i+\alpha_{i+1},\cdots,\alpha_n)

Xi∼beta(αi,∑j=1nαj−αi)X_i \sim beta(\alpha_i,\sum_{j=1}^n \alpha_j - \alpha_i)

{U1,⋯,Un}\{U_1,\cdots,U_n\}

的

m

个次序统计量（序号为

i1,⋯,imi_{1},\cdots,i_{m}

）的联合分布为

Dir(i1,i2−i2,⋯,n−im+1)Dir(i_1,i_2-i_2,\cdots,n-i_m+1)

总结

以上是生活随笔为你收集整理的UA MATH564 概率论IV 次序统计量的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇： UA MATH636 信息论5 信道编码
下一篇： UA MATH636 信息论6 微分熵