UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差
上一讲我们推导了noisy setting下LASSO估计误差的阶O(slogd/n)O(\sqrt{s\log d/n})O(slogd/n),但它的假设是design matrix为常矩阵;这一讲我们放宽假设,推导随机设计矩阵下LASSO的估计误差。
定理 假设A∼Rn×dA \sim \mathbb{R}^{n \times d}A∼Rn×d,并且它的行向量iid服从N(0,Σ)N(0,\Sigma)N(0,Σ),则存在常数C1<1<C2C_1<1<C_2C1<1<C2使得
∥Ax∥22n≥C1∥Σx∥22−C2ρ2(Σ)logdn∥x∥12\frac{\left\| A x \right\|_2^2}{n} \ge C_1 \left\| \sqrt{\Sigma}x \right\|_2^2-C_2\rho^2(\Sigma)\frac{\log d}{n}\left\| x\right\|_1^2n∥Ax∥22≥C1∥∥∥Σx∥∥∥22−C2ρ2(Σ)nlogd∥x∥12
成立的概率不小于1−e−n/321−e−n/321-\frac{e^{-n/32}}{1-e^{-n/32}}1−1−e−n/32e−n/32,其中ρ2(Σ)=maxiΣii\rho^2(\Sigma)=\max_i\Sigma_{ii}ρ2(Σ)=maxiΣii
评注
这个定理的证明可以参考Manwright的high-dimensional statistics那本书的section 7.6 proof of theorem 7.16;
这个定理蕴涵Restricted Eigenvalue Condition,记γmin\gamma_{\min}γmin为Σ\SigmaΣ的最小的特征值,
C1∥Σx∥22≥C1(γmin∥x∥2)2=C1γmin∥x∥22C_1 \left\| \sqrt{\Sigma}x\right\|_2^2 \ge C_1(\sqrt{\gamma_{\min}}\left\| x\right\|_2)^2=C_1\gamma_{\min}\left\|x \right\|_2^2C1∥∥∥Σx∥∥∥22≥C1(γmin∥x∥2)2=C1γmin∥x∥22
取x∈Cα(S)x \in C_{\alpha}(S)x∈Cα(S),则
∥x∥1=∥xS∥1+∥xSC∥1≤(1+α)∥xS∥1≤(1+α)s∥xS∥2≤(1+α)s∥x∥2\left\|x \right\|_1=\left\|x_S \right\|_1+\left\|x_{S^C} \right\|_1 \le (1+\alpha)\left\|x_S \right\|_1 \\ \le (1+\alpha)\sqrt{s}\left\|x_S \right\|_2 \le (1+\alpha)\sqrt{s}\left\|x \right\|_2∥x∥1=∥xS∥1+∥xSC∥1≤(1+α)∥xS∥1≤(1+α)s∥xS∥2≤(1+α)s∥x∥2
根据这个定理,
∥Ax∥22n≥C1γmin∥x∥22−C2ρ2(Σ)logdn(1+α)2s∥x∥22≥C12γmin∥x∥22\frac{\left\| A x \right\|_2^2}{n} \ge C_1\gamma_{\min}\left\|x \right\|_2^2-C_2\rho^2(\Sigma)\frac{\log d}{n}(1+\alpha)^2s\left\|x \right\|_2^2 \\ \ge \frac{C_1}{2}\gamma_{\min}\left\|x \right\|_2^2n∥Ax∥22≥C1γmin∥x∥22−C2ρ2(Σ)nlogd(1+α)2s∥x∥22≥2C1γmin∥x∥22
只要
C2ρ2(Σ)logdn(1+α)2s∥x∥22<C12γmin∥x∥22C_2\rho^2(\Sigma)\frac{\log d}{n}(1+\alpha)^2s\left\|x \right\|_2^2<\frac{C_1}{2}\gamma_{\min}\left\|x \right\|_2^2C2ρ2(Σ)nlogd(1+α)2s∥x∥22<2C1γmin∥x∥22上式第二个不等号就成立,而这个条件实际上是对sparsity的限制(这个条件非常有趣,可以发现稀疏性的上界关于样本量nnn是线性的,关于特征数ddd是对数的,因此高维最小二乘模型中允许d>nd>nd>n的情况存在),
s≤C12γminnlogd1C2ρ2(Σ)(1+α)2s \le \frac{C_1}{2}\gamma_{\min} \frac{n}{\log d} \frac{1}{C_2\rho^2(\Sigma)(1+\alpha)^2}s≤2C1γminlogdnC2ρ2(Σ)(1+α)21
如果α=3\alpha=3α=3,这个上界为
C132γminnlogd1C2ρ2(Σ)\frac{C_1}{32}\gamma_{\min} \frac{n}{\log d} \frac{1}{C_2\rho^2(\Sigma)}32C1γminlogdnC2ρ2(Σ)1
综上,当x∈C3(S)x \in C_3(S)x∈C3(S)时
∥Ax∥22n≥C12γmin∥x∥22\frac{\left\| A x \right\|_2^2}{n} \ge \frac{C_1}{2}\gamma_{\min}\left\|x \right\|_2^2 n∥Ax∥22≥2C1γmin∥x∥22
对所有满足∣S∣=s≤C132γminnlogd1C2ρ2(Σ)|S|=s \le \frac{C_1}{32}\gamma_{\min} \frac{n}{\log d} \frac{1}{C_2\rho^2(\Sigma)}∣S∣=s≤32C1γminlogdnC2ρ2(Σ)1的指标集SSS成立,因此这个定理蕴涵RE(C12γmin,3)RE(\frac{C_1}{2}\gamma_{\min},3)RE(2C1γmin,3)。
Design Matrix的Dependence Structure
协方差矩阵Σ\SigmaΣ决定Design Matrix的Dependence Structure,在simulation study中,常用的dependence structure比如
AR(1)AR(1)AR(1): ρ\rhoρ是自相关性系数
Σ=[1ρρ2⋯1ρ⋯⋯1]\Sigma = \left[ \begin{matrix} 1 & \rho & \rho^2 \cdots \\ & 1 & \rho & \cdots \\ \cdots \\ & & & & 1\\ \end{matrix} \right]Σ=⎣⎢⎢⎡1⋯ρ1ρ2⋯ρ⋯1⎦⎥⎥⎤
也就是AR(1)AR(1)AR(1)序列的协方差矩阵;
Compound Symmetry:
Σ=(1−ρ)Id+ρ1⃗1⃗T\Sigma=(1-\rho)I_d+\rho \vec 1 \vec 1^TΣ=(1−ρ)Id+ρ11T
定理 对于Penalized Least Square形式的LASSO,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\|\frac{A^Tw}{n} \right\|_{\infty}λn≥2∥∥∥nATw∥∥∥∞,则对任意满足∣S∣≤C164C2κρ2(Σ)nlogd|S| \le \frac{C_1}{64C_2}\frac{\kappa}{\rho^2(\Sigma)}\frac{n}{\log d}∣S∣≤64C2C1ρ2(Σ)κlogdn的指标集SSS,
∥x^−x∗∥22≤144C12λn2κ2∣S∣+16C1λnκ∥xSC∗∥1+32C2C1ρ2(Σ)κlogdn∥xSC∗∥12\left\| \hat x - x^* \right\|_2^2 \le \frac{144}{C_1^2}\frac{\lambda_n^2}{\kappa^2}|S|+\frac{16}{C_1}\frac{\lambda_n}{\kappa}\left\| x^*_{S^C} \right\|_1+\frac{32C_2}{C_1}\frac{\rho^2(\Sigma)}{\kappa}\frac{\log d}{n}\left\| x^*_{S^C}\right\|_1^2∥x^−x∗∥22≤C12144κ2λn2∣S∣+C116κλn∥xSC∗∥1+C132C2κρ2(Σ)nlogd∥xSC∗∥12
这个上界可以由∣S∣|S|∣S∣与∥θSC∗∥1\left\|\theta_{S^C}^*\right\|_1∥∥θSC∗∥∥1控制,当二者均比较小时,这个上界就会比较小,但它们是此消彼长的关系。
总结
以上是生活随笔为你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: UA MATH567 高维统计专题1 稀
- 下一篇: 马尔可夫“折棍子”过程 Markovia