UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式
UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式
- Hoeffding不等式
- Chernoff不等式
MATH 564系列我们已经介绍了几个基本的概率不等式:Markov不等式、Chebyshev不等式、Chernoff不等式,这一类不等式有一个共同的名字,叫concentration inequalities,因为它们反映的是概率集中到分布的中心(比如均值)的程度,所以我觉得翻译成集中度不等式是还可以的,中文的wiki用的是集中不等式,我觉得含义也差不多。在概率不等式0中我们讨论了Chebyshev不等式,它在大样本时非常不sharp,所以这一讲的目标是基于Markov不等式推出更sharp一点的不等式,也就是Hoeffding不等式与Chernoff不等式。
Hoeffding不等式
假设Xi∈[mi,Mi],i=1,⋯,NX_i \in [m_i,M_i],i=1,\cdots,NXi∈[mi,Mi],i=1,⋯,N, ∀t>0\forall t>0∀t>0, 下面的不等式被称为Hoeffding不等式,
P(∑i=1N(Xi−EXi)≥t)≤exp(−2t2∑i=1N(Mi−mi)2)P \left( \sum_{i=1}^N (X_i - EX_i)\ge t \right) \le \exp \left( -\frac{2t^2}{\sum_{i=1}^N (M_i - m_i)^2} \right)P(i=1∑N(Xi−EXi)≥t)≤exp(−∑i=1N(Mi−mi)22t2)
完整的证明可以参考Hoeffding (1963)的文章,这里证明一个特殊情况,Xi∼iidBer(1/2)X_i\sim_{iid}Ber(1/2)Xi∼iidBer(1/2) (对称Bernoulli分布):
P(∑i=1NaiXi≥t)≤exp(−t22∑i=1Nai2)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le \exp \left( -\frac{t^2}{2\sum_{i=1}^N a_i^2} \right)P(i=1∑NaiXi≥t)≤exp(−2∑i=1Nai2t2)
证明这个特例是因为接下来用到的证明方法是用来证明类似Hoeffding不等式的一般性思路。
证明
考虑函数g(t)=eλtg(t)=e^{\lambda t}g(t)=eλt,对随机变量∑i=1NaiXi\sum_{i=1}^N a_iX_i∑i=1NaiXi使用Markov不等式,
P(∑i=1NaiXi≥t)≤e−λtEexp(λ∑i=1NaiXi)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)P(i=1∑NaiXi≥t)≤e−λtEexp(λi=1∑NaiXi)
因为λ\lambdaλ的任意性,我们可以选择一个最小的上界:
minλe−λtEexp(λ∑i=1NaiXi)\min_{\lambda} e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)λmine−λtEexp(λi=1∑NaiXi)
接下来我们要做的就是找到这个最值,计算
e−λtEexp(λ∑i=1NaiXi)=e−λt∏i=1NEeλaiXi=e−λt∏i=1Neλai+e−λai2≤e−λt∏i=1Neλ2ai2/2=exp(−λt+λ22∑i=1Nai2)e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda a_i X_i} \\ = e^{-\lambda t}\prod_{i=1}^N \frac{e^{\lambda a_i}+e^{-\lambda a_i}}{2} \le e^{-\lambda t}\prod_{i=1}^N e^{\lambda^2 a_i^2/2}\\=\exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) e−λtEexp(λi=1∑NaiXi)=e−λti=1∏NEeλaiXi=e−λti=1∏N2eλai+e−λai≤e−λti=1∏Neλ2ai2/2=exp(−λt+2λ2i=1∑Nai2)
需要注意的是第二行我们把这个上界又放大了一点,主要的目的是找一个更容易计算最小值的形式:
minexp(−λt+λ22∑i=1Nai2)=e−λtEexp(λ∑i=1NaiXi)\min \exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) = e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)minexp(−λt+2λ2i=1∑Nai2)=e−λtEexp(λi=1∑NaiXi)
证毕
Hoeffding不等式在统计学习中具有广泛的应用,比如监督学习理论中Principle of empirical risk minimization的一致性推导,Boosting的运行次数估计等。
Chernoff不等式
在UA MATH564 概率论 概率不等式中,我们介绍了Chernoff上界。给定具有某种特定分布形式的随机变量,我们可以用Legendre变换的思路计算出随机变量尾部概率的Chernoff上界。Chernoff不等式是Chernoff上界的一个特例,考虑互相独立的Bernoulli变量Xi∼Ber(pi)X_i \sim Ber(p_i)Xi∼Ber(pi),定义SN=∑i=1NXiS_N = \sum_{i=1}^N X_iSN=∑i=1NXi,μ=ESN\mu = ES_Nμ=ESN,对于t>μt>\mut>μ,
P(SN≥t)≤e−μ(eμ/t)tP(S_N \ge t) \le e^{-\mu} (e\mu/t)^tP(SN≥t)≤e−μ(eμ/t)t对于t<μt<\mut<μ,
P(SN≤t)≤e−μ(eμ/t)tP(S_N\le t) \le e^{-\mu} (e\mu/t)^tP(SN≤t)≤e−μ(eμ/t)t
为了展示证明方法,这里给出上界的证明,当然也可以用564介绍的计算Chernoff bound的方法。
证明
根据Hoeffding不等式的证明过程,
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN≥t)≤e−λti=1∏NEeλXi
下面计算:
∏i=1NEeλXi=∏i=1N[1+(eλ−1)pi]≤∏i=1Nexp[(eλ−1)pi]=exp[(eλ−1)μ]\prod_{i=1}^NEe^{\lambda X_i} =\prod_{i=1}^N[ 1+(e^{\lambda}-1)p_i] \le \prod_{i=1}^N \exp [(e^{\lambda}-1)p_i] = \exp[(e^{\lambda}-1)\mu]i=1∏NEeλXi=i=1∏N[1+(eλ−1)pi]≤i=1∏Nexp[(eλ−1)pi]=exp[(eλ−1)μ]
中间一步用了Bernoulli不等式。因此
P(SN≥t)≤e−λtexp[(eλ−1)μ]P(S_N\ge t) \le e^{-\lambda t}\exp[(e^{\lambda}-1)\mu]P(SN≥t)≤e−λtexp[(eλ−1)μ]
这个上界在λ=ln(t/μ)\lambda = \ln(t/\mu)λ=ln(t/μ)时取最小值,因此
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN≥t)≤e−λti=1∏NEeλXi
证毕
Hoeffding不等式与Chernoff不等式它们的上界关于ttt都是指数级递减的,这种上界就比Chebyshev那种二次的递减更sharp。
总结
以上是生活随笔为你收集整理的UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: UA SIE545 优化理论基础1 凸分
- 下一篇: UA SIE545 优化理论基础9 优先