当前位置：首页 >

统计学习II.7 广义线性模型1 指数分布族

发布时间：2025/4/14 52 豆豆

生活随笔收集整理的这篇文章主要介绍了统计学习II.7 广义线性模型1 指数分布族小编觉得挺不错的,现在分享给大家,帮大家做个参考.

统计学习II.7 广义线性模型1 指数分布族

指数分布族的定义
- 指数分布族的例子
- - Bernoulli分布
  - Multinoulli分布
- 指数分布族的性质
指数分布族的MLE
指数分布族的贝叶斯方法

这一部分介绍广义线性模型，这是一类监督学习方法，通常用来构造分类器等。考虑 ${(X_i,Y_i)\}_{i=1}^N$ ，广义线性模型通常假设 $Y_i$ 服从某种指数分布族。因此这一部分先介绍指数分布族，然后介绍基于不同指数分布族导出的广义线性模型的不同效果。

指数分布族的定义

用 $p(x∣θ)p(x|\theta)$ 表示某个密度函数，称它是指数分布族(exponential family)如果：
$p(x∣θ)=h(x)exp⁡(θTϕ(x)−A(θ))p(x|\theta) = h(x)\exp(\theta^T \phi(x)-A(\theta))$

根据密度函数的归一性，
$∫p(x∣θ)dx=∫h(x)exp⁡(θTϕ(x)−A(θ))dx=exp⁡(−A(θ))∫h(x)exp⁡(θTϕ(x))dx=1\int p(x|\theta)dx =\int h(x)\exp(\theta^T \phi(x)-A(\theta))dx \\ = \exp(-A(\theta))\int h(x)\exp(\theta^T \phi(x))dx =1$

于是

$A(θ)=log⁡Z(θ),Z(θ)=∫h(x)exp⁡(θTϕ(x))dxA(\theta)=\log Z(\theta), Z(\theta)=\int h(x)\exp(\theta^T\phi(x))dx$

其中 $θ\theta$ 被称为natural parameter， $ϕ(X)\phi(X)$ 是这个指数族的充分统计量（基于Fisher-Neyman定理）， $Z(θ)Z(\theta)$ 是partition function， $A(θ)A(\theta)$ 是cumulant function，如果 $ϕ(X)=X\phi(X)=X$ ，称这样的指数族为自然指数族(natural exponential family)。

指数分布的另一种形式为
$p(x∣θ)=h(x)exp⁡(η(θ)Tϕ(x)−A(η(θ)))p(x|\theta) = h(x)\exp(\eta(\theta)^T \phi(x)-A(\eta(\theta)))$ 如果 $dim⁡(θ)<dim⁡(η(θ))\dim(\theta)<\dim(\eta(\theta))$ ，称之为curved exponential family，此时充分统计量的数目比参数多；如果 $dim⁡(θ)=dim⁡(η(θ))\dim(\theta)=\dim(\eta(\theta))$ ，称之为canonical form；

指数分布族的例子

Bernoulli分布

$p(x∣μ)=μx(1−μ)1−x=exp⁡(ϕ(x)Tθ)p(x|\mu)=\mu^x(1-\mu)^{1-x}=\exp(\phi(x)^T\theta)$

其中
$ϕ(x)=[1x=0,1x=1]T,θ=[log⁡(μ),log⁡(1−μ)]T\phi(x)=[1_{x=0},1_{x=1}]^T,\theta=[\log(\mu),\log(1-\mu)]^T$

这并不是一个好的表示，因为 $\in \{0,1\}$ ， $1Tϕ(x)=11^T \phi(x)=1$ ，也就是说 $ϕ(x)\phi(x)$ 的两个分量是线性相关的，这会导致在估计的时候 $θ\theta$ 只有一个方程。一种更好的表示方法是
$p(x∣μ)=(1−μ)exp⁡[xlog⁡(μ1−μ)]=exp⁡(ϕ(x)Tθ)=exp⁡(ϕ(x)Tθ)p(x|\mu)=(1-\mu)\exp \left[ x\log \left( \frac{\mu}{1-\mu} \right) \right]=\exp(\phi(x)^T\theta)=\exp(\phi(x)^T\theta)$

其中
$ϕ(x)=x,θ=log⁡(μ1−μ)\phi(x)=x,\theta = \log \left( \frac{\mu}{1-\mu} \right)$

称 $θ\theta$ 为log-odds ratio；从natural parameter还原为 $μ\mu$ 的函数是sigmoid函数
$μ=sigm(θ)=11+e−θ\mu = sigm(\theta)=\frac{1}{1+e^{-\theta}}$

Multinoulli分布

$p(x∣μ1,⋯,μK)=∏k=1Kμkxk=exp⁡[∑k=1K−1xklog⁡(μkμK)+log⁡μK]p(x|\mu_1,\cdots,\mu_K)=\prod_{k=1}^K \mu_k^{x_k}=\exp\left[ \sum_{k=1}^{K-1} x_k\log \left( \frac{\mu_k}{\mu_K}\right) +\log \mu_K\right]$

其中
$∑k=1Kμk=1\sum_{k=1}^K \mu_k = 1$

于是
$p(x∣θ)=h(x)exp⁡(θTϕ(x)−A(θ))p(x|\theta)=h(x)\exp(\theta^T \phi(x)-A(\theta))$ 其中
$θ=[log⁡μ1μK,⋯,log⁡μK−1μK]T,ϕ(x)=[1x=1,⋯,1x=K−1]TA(θ)=log⁡(1+∑k=1K−1eθk)\theta=[\log \frac{\mu_1}{\mu_K},\cdots,\log \frac{\mu_{K-1}}{\mu_K}]^T,\phi(x)=[1_{x=1},\cdots,1_{x=K-1}]^T \\ A(\theta)=\log \left( 1+ \sum_{k=1}^{K-1} e^{\theta_k} \right)$

从natural parameter还原到 $μ\mu$ 的方法为
${μk=eθk1+∑j=1K−1eθj,k=1,⋯,K−1μK=1∑j=1K−1eθj\begin{cases} \mu_k = \frac{e^{\theta_k}}{1+\sum_{j=1}^{K-1}e^{\theta_j}},k=1,\cdots,K-1 \\ \mu_K = \frac{1}{\sum_{j=1}^{K-1}}e^{\theta_{j}} \end{cases}$

指数分布族的性质

性质1
$dAdθ=E[ϕ(X)]\frac{dA}{d\theta}=E[\phi(X)]$

直接计算这个导数即可，下面的两个性质也都是直接计算导数
$dAdθ=ddθlog⁡∫h(x)exp⁡(θTϕ(x))dx=∫ϕ(x)p(x∣θ)dx\frac{dA}{d\theta}=\frac{d}{d\theta}\log \int h(x)\exp(\theta^T\phi(x))dx=\int \phi(x)p(x|\theta)dx$

性质2
$d2Adθ2=Var[ϕ(X)]\frac{d^2A}{d\theta^2}=Var[\phi(X)]$

性质3
$∇2A(θ)=Cov(ϕ(X))\nabla^2 A(\theta)=Cov(\phi(X))$

指数分布族的MLE

指数分布族MLE的moment matching equation
假设 $X1,⋯,XN∼iidp(x∣θ)X_1,\cdots,X_N \sim_{iid} p(x|\theta)$ , 似然函数为
$L(θ∣X1,⋯,XN)=[∏i=1Nh(Xi)]exp⁡(θT∑i=1Nϕ(Xi)−NA(θ))L(\theta|X_1,\cdots,X_N)=\left[ \prod_{i=1}^N h(X_i) \right] \exp \left( \theta^T \sum_{i=1}^N \phi(X_i) -NA(\theta)\right)$

对数似然为
$log⁡L(θ∣X1,⋯,XN)=log⁡[∏i=1Nh(Xi)]+θT∑i=1Nϕ(Xi)−NA(θ)\log L(\theta|X_1,\cdots,X_N)=\log \left[ \prod_{i=1}^N h(X_i) \right] +\theta^T \sum_{i=1}^N \phi(X_i) -NA(\theta)$

考虑MLE满足的方程
$∇log⁡L(θ∣X1,⋯,XN)=∑i=1Nϕ(Xi)−N∇A(θ)=∑i=1Nϕ(Xi)−NE[ϕ(X)]=0\nabla \log L(\theta|X_1,\cdots,X_N) = \sum_{i=1}^N \phi(X_i)-N\nabla A(\theta)=\sum_{i=1}^N \phi(X_i)-NE[\phi(X)]=0$

也就是
$E[ϕ(X)]=1N∑i=1Nϕ(Xi)E[\phi(X)]=\frac{1}{N}\sum_{i=1}^N \phi(X_i)$

这里 $ϕ(X)\phi(X)$ 是指数分布的充分统计量，称这个方程为moment matching equation，它的含义是充分统计量的样本均值等于理论均值。

指数分布族的贝叶斯方法

指数分布族是一个共轭分布族
我们把似然函数写成下面的形式：
$L(θ∣X1,⋯,XN)∝g(θ)Neη(θ)TsN,sN=∑i=1Ns(Xi)L(\theta|X_1,\cdots,X_N)\propto g(\theta)^N e^{\eta(\theta)^T s_N},s_N = \sum_{i=1}^N s(X_i)$

引入指数函数族先验，
$p(θ∣nu0,τ0)∝g(θ)ν0eη(θ)Tτ0p(\theta|nu_0,\tau_0) \propto g(\theta)^{\nu_0}e^{\eta(\theta)^T \tau_0}$

则后验为
$p(θ∣ν0+N,τ0+sN)∝g(θ)ν0+Neη(θ)T(τ0+sN)p(\theta|\nu_0+N,\tau_0+s_N)\propto g(\theta)^{\nu_0+N}e^{\eta(\theta)^T(\tau_0+s_N)}$

总结

以上是生活随笔为你收集整理的统计学习II.7 广义线性模型1 指数分布族的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：偏微分方程I PDE的例子1 一维波动与
下一篇： R语言数据可视化 ggplot2基础2