欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

发布时间:2025/4/14 编程问答 84 豆豆
生活随笔 收集整理的这篇文章主要介绍了 UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

  • Hoeffding不等式
  • Chernoff不等式

MATH 564系列我们已经介绍了几个基本的概率不等式:Markov不等式、Chebyshev不等式、Chernoff不等式,这一类不等式有一个共同的名字,叫concentration inequalities,因为它们反映的是概率集中到分布的中心(比如均值)的程度,所以我觉得翻译成集中度不等式是还可以的,中文的wiki用的是集中不等式,我觉得含义也差不多。在概率不等式0中我们讨论了Chebyshev不等式,它在大样本时非常不sharp,所以这一讲的目标是基于Markov不等式推出更sharp一点的不等式,也就是Hoeffding不等式与Chernoff不等式。

Hoeffding不等式

假设Xi∈[mi,Mi],i=1,⋯,NX_i \in [m_i,M_i],i=1,\cdots,NXi[mi,Mi],i=1,,N, ∀t>0\forall t>0t>0, 下面的不等式被称为Hoeffding不等式,
P(∑i=1N(Xi−EXi)≥t)≤exp⁡(−2t2∑i=1N(Mi−mi)2)P \left( \sum_{i=1}^N (X_i - EX_i)\ge t \right) \le \exp \left( -\frac{2t^2}{\sum_{i=1}^N (M_i - m_i)^2} \right)P(i=1N(XiEXi)t)exp(i=1N(Mimi)22t2)

完整的证明可以参考Hoeffding (1963)的文章,这里证明一个特殊情况,Xi∼iidBer(1/2)X_i\sim_{iid}Ber(1/2)XiiidBer(1/2) (对称Bernoulli分布):
P(∑i=1NaiXi≥t)≤exp⁡(−t22∑i=1Nai2)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le \exp \left( -\frac{t^2}{2\sum_{i=1}^N a_i^2} \right)P(i=1NaiXit)exp(2i=1Nai2t2)

证明这个特例是因为接下来用到的证明方法是用来证明类似Hoeffding不等式的一般性思路。

证明
考虑函数g(t)=eλtg(t)=e^{\lambda t}g(t)=eλt,对随机变量∑i=1NaiXi\sum_{i=1}^N a_iX_ii=1NaiXi使用Markov不等式,
P(∑i=1NaiXi≥t)≤e−λtEexp⁡(λ∑i=1NaiXi)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)P(i=1NaiXit)eλtEexp(λi=1NaiXi)

因为λ\lambdaλ的任意性,我们可以选择一个最小的上界:
min⁡λe−λtEexp⁡(λ∑i=1NaiXi)\min_{\lambda} e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)λmineλtEexp(λi=1NaiXi)

接下来我们要做的就是找到这个最值,计算
e−λtEexp⁡(λ∑i=1NaiXi)=e−λt∏i=1NEeλaiXi=e−λt∏i=1Neλai+e−λai2≤e−λt∏i=1Neλ2ai2/2=exp⁡(−λt+λ22∑i=1Nai2)e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda a_i X_i} \\ = e^{-\lambda t}\prod_{i=1}^N \frac{e^{\lambda a_i}+e^{-\lambda a_i}}{2} \le e^{-\lambda t}\prod_{i=1}^N e^{\lambda^2 a_i^2/2}\\=\exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) eλtEexp(λi=1NaiXi)=eλti=1NEeλaiXi=eλti=1N2eλai+eλaieλti=1Neλ2ai2/2=exp(λt+2λ2i=1Nai2)

需要注意的是第二行我们把这个上界又放大了一点,主要的目的是找一个更容易计算最小值的形式:
min⁡exp⁡(−λt+λ22∑i=1Nai2)=e−λtEexp⁡(λ∑i=1NaiXi)\min \exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) = e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)minexp(λt+2λ2i=1Nai2)=eλtEexp(λi=1NaiXi)

证毕

Hoeffding不等式在统计学习中具有广泛的应用,比如监督学习理论中Principle of empirical risk minimization的一致性推导,Boosting的运行次数估计等。

Chernoff不等式

在UA MATH564 概率论 概率不等式中,我们介绍了Chernoff上界。给定具有某种特定分布形式的随机变量,我们可以用Legendre变换的思路计算出随机变量尾部概率的Chernoff上界。Chernoff不等式是Chernoff上界的一个特例,考虑互相独立的Bernoulli变量Xi∼Ber(pi)X_i \sim Ber(p_i)XiBer(pi),定义SN=∑i=1NXiS_N = \sum_{i=1}^N X_iSN=i=1NXiμ=ESN\mu = ES_Nμ=ESN,对于t>μt>\mut>μ
P(SN≥t)≤e−μ(eμ/t)tP(S_N \ge t) \le e^{-\mu} (e\mu/t)^tP(SNt)eμ(eμ/t)t对于t<μt<\mut<μ
P(SN≤t)≤e−μ(eμ/t)tP(S_N\le t) \le e^{-\mu} (e\mu/t)^tP(SNt)eμ(eμ/t)t

为了展示证明方法,这里给出上界的证明,当然也可以用564介绍的计算Chernoff bound的方法。

证明
根据Hoeffding不等式的证明过程,
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SNt)eλti=1NEeλXi

下面计算:
∏i=1NEeλXi=∏i=1N[1+(eλ−1)pi]≤∏i=1Nexp⁡[(eλ−1)pi]=exp⁡[(eλ−1)μ]\prod_{i=1}^NEe^{\lambda X_i} =\prod_{i=1}^N[ 1+(e^{\lambda}-1)p_i] \le \prod_{i=1}^N \exp [(e^{\lambda}-1)p_i] = \exp[(e^{\lambda}-1)\mu]i=1NEeλXi=i=1N[1+(eλ1)pi]i=1Nexp[(eλ1)pi]=exp[(eλ1)μ]

中间一步用了Bernoulli不等式。因此
P(SN≥t)≤e−λtexp⁡[(eλ−1)μ]P(S_N\ge t) \le e^{-\lambda t}\exp[(e^{\lambda}-1)\mu]P(SNt)eλtexp[(eλ1)μ]

这个上界在λ=ln⁡(t/μ)\lambda = \ln(t/\mu)λ=ln(t/μ)时取最小值,因此
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SNt)eλti=1NEeλXi

证毕

Hoeffding不等式与Chernoff不等式它们的上界关于ttt都是指数级递减的,这种上界就比Chebyshev那种二次的递减更sharp。

总结

以上是生活随笔为你收集整理的UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。