贝叶斯统计:Inverted Beta与Three Parameter Beta分布
贝叶斯统计:Inverted Beta与Three Parameter Beta分布
- Beta分布
- Inverted Beta与Three Parameter Beta
- TPB-Normal Mixture
这一篇介绍两个基于beta分布延申出来的在贝叶斯统计中非常常用的分布——Inverted Beta(IB)与Three Parameter Beta(TPB)。
Beta分布
Beta分布记为Beta(α,β)Beta(\alpha,\beta)Beta(α,β),它的概率密度是
f(x)=1B(α,β)xα−1(1−x)β−1,x∈(0,1)B(α,β)=Γ(α)Γ(β)Γ(α+β),α,β>0f(x) = \frac{1}{\Beta (\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1},x \in (0,1) \\ B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)},\alpha,\beta>0f(x)=B(α,β)1xα−1(1−x)β−1,x∈(0,1)B(α,β)=Γ(α+β)Γ(α)Γ(β),α,β>0
其中Γ()\Gamma()Γ()是gamma函数,B()\Beta()B()是beta函数。在贝叶斯统计中,如果样本服从二项分布,则Beta分布是样本的共轭分布;二项分布的多元推广是多项分布,Beta分布的多元推广是Dirichlet分布,而Dirichlet分布也是多项分布样本的共轭分布。
Beta分布的参数α,β\alpha,\betaα,β可以确定唯一一个Beta分布,但α,β\alpha,\betaα,β可以用其他参数来表示,用两个参数表示Beta分布的表示方法被称为Two Parameter Beta,用四个参数表示Beta分布的表示方法被称为Four Parameter Beta,下面介绍两个常见的两参数表示:
均值与样本量表示
用μ\muμ表示Beta(α,β)Beta(\alpha,\beta)Beta(α,β)的均值,用ν\nuν表示α+β\alpha+\betaα+β,在贝叶斯统计中对于α+β\alpha+\betaα+β的解释与样本量有关,所以这种两参数表示被称为均值与样本量表示,
α=μν,β=(1−μ)ν\alpha=\mu \nu, \beta=(1-\mu)\nuα=μν,β=(1−μ)ν
均值与方差
均值与方差是最容易想到的两参数表示了,用μ\muμ表示Beta(α,β)Beta(\alpha,\beta)Beta(α,β)的均值,varvarvar表示Beta(α,β)Beta(\alpha,\beta)Beta(α,β)的方差,
α=μ(μ(1−μ)var−1),β=(1−μ)(μ(1−μ)var−1)\alpha=\mu \left( \frac{\mu(1-\mu)}{var}-1 \right),\beta=(1-\mu) \left( \frac{\mu(1-\mu)}{var}-1 \right)α=μ(varμ(1−μ)−1),β=(1−μ)(varμ(1−μ)−1)
因为α+β>0\alpha+\beta>0α+β>0,有var<μ(1−μ)var<\mu(1-\mu)var<μ(1−μ)。
四参数beta
对xxx做变换,y=x(c−a)+ay=x(c-a)+ay=x(c−a)+a,y∈(a,c)y \in (a,c)y∈(a,c),使得BetaBetaBeta分布的支撑集变为(a,c)(a,c)(a,c),变换后概率密度为
f(y;α,β,a,c)=(y−ac−a)α−1(c−yc−a)β−1(c−a)B(α,β)f(y;\alpha,\beta,a,c) = \frac{(\frac{y-a}{c-a})^{\alpha-1} (\frac{c-y}{c-a})^{\beta-1}}{(c-a)\Beta(\alpha,\beta)}f(y;α,β,a,c)=(c−a)B(α,β)(c−ay−a)α−1(c−ac−y)β−1
这个分布被称为四参数beta,它的作用是把Beta分布从(0,1)(0,1)(0,1)推广到更大或者更小的区间(a,c)(a,c)(a,c)上。
Inverted Beta与Three Parameter Beta
Inverted Beta分布也叫第二类Beta分布(Beta density of the second kind),记为IB(β,α)IB(\beta,\alpha)IB(β,α),其中α,β>0\alpha,\beta>0α,β>0,假设X∼IB(β,α)X \sim IB(\beta,\alpha)X∼IB(β,α),它的概率密度是
f(x)=1B(α,β)xα−1(1+x)−(α+β),x>0f(x) =\frac{1}{\Beta(\alpha,\beta)} x^{\alpha-1}(1+x)^{-(\alpha+\beta)},x>0f(x)=B(α,β)1xα−1(1+x)−(α+β),x>0
下表是Kowal et. al (2019) Dynamic Shrinkage Process的总结:
Three Parameter Beta分布记为TPB(α,β,τ2)TPB(\alpha,\beta,\tau^2)TPB(α,β,τ2),如果X∼TPB(α,β,τ2)X \sim TPB(\alpha,\beta,\tau^2)X∼TPB(α,β,τ2),它的概率密度是
f(x)=(τ2)βB(α,β)xβ−1(1−x)α−1[1−(1−τ2)x]−(α+β),x∈(0,1)f(x) = \frac{(\tau^2)^{\beta}}{\Beta(\alpha,\beta)}x^{\beta-1}(1-x)^{\alpha-1}[1-(1-\tau^2)x]^{-(\alpha+\beta)} ,x \in (0,1)f(x)=B(α,β)(τ2)βxβ−1(1−x)α−1[1−(1−τ2)x]−(α+β),x∈(0,1)
假设τ=1\tau=1τ=1,则
f(x)=xβ−1(1−x)α−1B(α,β)f(x)=\frac{x^{\beta-1}(1-x)^{\alpha-1}}{\Beta(\alpha,\beta)}f(x)=B(α,β)xβ−1(1−x)α−1
也就是TPB(α,β,1)=Beta(β,α)TPB(\alpha,\beta,1)=Beta(\beta,\alpha)TPB(α,β,1)=Beta(β,α)。为了研究Beta分布、IB与TPB之间的关系,再引入一个辅助分布,记为Z(α,β,μ,σ)Z(\alpha,\beta,\mu,\sigma)Z(α,β,μ,σ),它的概率密度为
f(z)=[exp(z−μσ)]α[1+exp(z−μσ)]−(α+β)σB(α,β),z∈Rf(z)=\frac{[\exp(\frac{z-\mu}{\sigma})]^{\alpha}[1+\exp(\frac{z-\mu}{\sigma})]^{-(\alpha+\beta)}}{\sigma \Beta(\alpha,\beta)},z \in \mathbb{R}f(z)=σB(α,β)[exp(σz−μ)]α[1+exp(σz−μ)]−(α+β),z∈R
性质1 如果X∼IB(α,β)X \sim IB(\alpha,\beta)X∼IB(α,β),则11+X∼Beta(α,β)\frac{1}{1+X} \sim Beta(\alpha,\beta)1+X1∼Beta(α,β)
性质2 如果X∼IB(α,β)X \sim IB(\alpha,\beta)X∼IB(α,β),则log(X)∼Z(α,β,0,1)\log(X) \sim Z(\alpha,\beta,0,1)log(X)∼Z(α,β,0,1)
性质3 如果X∼Z(α,β,μ,1)X \sim Z(\alpha,\beta,\mu,1)X∼Z(α,β,μ,1),则11+eX∼TPB(α,β,eμ)\frac{1}{1+e^X} \sim TPB(\alpha,\beta,e^{\mu})1+eX1∼TPB(α,β,eμ)
证明
eXe^XeX的密度核为
y−1[elog(y)−μ]α[1+elog(y)−μ]−(α+β)∝yα−1(1+y/eμ)−(α+β)y^{-1}[e^{\log(y)-\mu}]^{\alpha}[1+e^{\log(y)-\mu}]^{-(\alpha+\beta)} \propto y^{\alpha-1}(1+y/e^{\mu})^{-(\alpha+\beta)}y−1[elog(y)−μ]α[1+elog(y)−μ]−(α+β)∝yα−1(1+y/eμ)−(α+β)
假设μ=0\mu=0μ=0,这个密度核为
yα−1(1+y)−(α+β)y^{\alpha-1}(1+y)^{-(\alpha+\beta)}yα−1(1+y)−(α+β)
这是IB(α,β)IB(\alpha,\beta)IB(α,β)的密度核,所以Z(α,β,0,1)=IB(α,β)Z(\alpha,\beta,0,1)=IB(\alpha,\beta)Z(α,β,0,1)=IB(α,β),性质二得证。
11+eX\frac{1}{1+e^X}1+eX1的密度核为
z−2(z−1−1)α−1[1+(z−1−1)/eμ]−(α+β)∝z−2−(α−1)(1−z)α−1[z−1(zeμ+(1−z))]−(α+β)∝(1−z)α−1zβ−1[zeμ+(1−z)]−(α+β)\begin{aligned} & z^{-2}(z^{-1}-1)^{\alpha-1}[1+(z^{-1}-1)/e^{\mu}]^{-(\alpha+\beta)} \\ \propto & z^{-2-(\alpha-1)}(1-z)^{\alpha-1}[z^{-1}(ze^{\mu}+(1-z))]^{-(\alpha+\beta)} \\ \propto & (1-z)^{\alpha-1}z^{\beta-1}[ze^{\mu}+(1-z)]^{-(\alpha+\beta)}\end{aligned}∝∝z−2(z−1−1)α−1[1+(z−1−1)/eμ]−(α+β)z−2−(α−1)(1−z)α−1[z−1(zeμ+(1−z))]−(α+β)(1−z)α−1zβ−1[zeμ+(1−z)]−(α+β)
因此11+eX∼TPB(α,β,eμ)\frac{1}{1+e^X} \sim TPB(\alpha,\beta,e^{\mu})1+eX1∼TPB(α,β,eμ),性质三得证,结合性质二与性质三可得性质一。
TPB-Normal Mixture
之所以要引入TPB这个看起来复杂又奇怪的分布是因为它在Gaussian Mixture中作为先验有非常好的性质。
定理
在正态均值模型μ∼N(0,λ2τ2)\mu \sim N(0,\lambda^2 \tau^2)μ∼N(0,λ2τ2)中,如果λ2∼IB(α,β)\lambda^2 \sim IB(\alpha,\beta)λ2∼IB(α,β),则给定τ\tauτ时,relevant amount of shrinkage κ=11+λ2τ2∼TPB(α,β,τ2)\kappa=\frac{1}{1+\lambda^2\tau^2} \sim TPB(\alpha,\beta,\tau^2)κ=1+λ2τ21∼TPB(α,β,τ2)。
证明
如果τ=1\tau=1τ=1,根据前文性质二、三可以直接得到这个定理;如果τ≠1\tau \ne 1τ=1,考虑x=λ2τ2x=\lambda^2 \tau^2x=λ2τ2的密度核:
(x/τ2)α−1(1+x/τ2)−(α+β)(x/\tau^2)^{\alpha-1}(1+x/\tau^2)^{-(\alpha+\beta)}(x/τ2)α−1(1+x/τ2)−(α+β)
然后考虑z=11+xz=\frac{1}{1+x}z=1+x1的密度核:
z−2(z−1−1)α−1[1+(z−1−1)/τ2]−(α+β)\begin{aligned} & z^{-2}(z^{-1}-1)^{\alpha-1}[1+(z^{-1}-1)/\tau^2]^{-(\alpha+\beta)} \end{aligned}z−2(z−1−1)α−1[1+(z−1−1)/τ2]−(α+β)
所以κ=11+λ2τ2∼TPB(α,β,τ2)\kappa=\frac{1}{1+\lambda^2\tau^2} \sim TPB(\alpha,\beta,\tau^2)κ=1+λ2τ21∼TPB(α,β,τ2)。
总结
以上是生活随笔为你收集整理的贝叶斯统计:Inverted Beta与Three Parameter Beta分布的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 电动力学每日一题 2021/10/11
- 下一篇: 电动力学每日一题 2021/10/12