欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

发布时间:2025/4/14 编程问答 49 豆豆
生活随笔 收集整理的这篇文章主要介绍了 UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

    • Signal Recovery Noisy Setting
    • LASSO的估计误差

Signal Recovery Noisy Setting

前四讲算是把无噪声的情况讨论得差不多了,这一讲开始我们讨论含噪声的稀疏信号恢复问题。假设observations是
y=Ax∗+wy=Ax^*+wy=Ax+w

其中A∈Rn×dA \in \mathbb{R^{n \times d}}ARn×d是design matrix,x∗∈Rdx^* \in \mathbb{R}^dxRd是true signal,www是noise;现在的问题是我们知道yyyAAA,想要得到真实信号的一个估计量x^\hat xx^;关于这个问题有三种等价的分析框架:

Penalized Least Square
min⁡x12n∥y−Ax∥22+λnϕ(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)xmin  2n1yAx22+λnϕ(x)

其中λn\lambda_nλn是regularization parameter,ϕ(x)\phi(x)ϕ(x)是penalty function,12n∥y−Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^22n1yAx22是least square loss:

  • ϕ(x)=∥x∥1\phi(x)=\left\| x \right\|_1ϕ(x)=x1: LASSO
  • ϕ(x)=∥x∥2\phi(x)=\left\| x \right\|_2ϕ(x)=x2: Ridge regression
  • ϕ(x)=η∥x∥1+(1−η)∥x∥2\phi(x)=\eta \left\| x\right\|_1+(1-\eta)\left\| x\right\|_2ϕ(x)=ηx1+(1η)x2: Elastic net
  • 此外还有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通过设计penalty function得到能实现不同目的的penalized least square模型;

    Constraint Least Square
    min⁡x12n∥y−Ax∥22s.t.ϕ(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le Rxmin  2n1yAx22s.t.  ϕ(x)R

    这与Penalized Least Square是完全等价的。

    Relaxed Basis Pursuit或者Basis Pursuit Denoising

    min⁡xϕ(x)s.t.12n∥y−Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2xmin  ϕ(x)s.t.  2n1yAx22b2

    这种一般在EECS的文献中比较常见,统计学一般用前两种(主要是第一种)框架。


    LASSO的估计误差

    在noisy setting下,full recovery自然是不可能的了,但我们希望估计误差∥x^−x∗∥\left\| \hat x - x^*\right\|x^x尽可能小,下面我们讨论一下LASSO估计误差的下界。

    在第二讲推导L1L_1L1-minimization时,为了构造L0L_0L0-norm的scale-invariant性质,我们引入了一个凸锥
    C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}C(S)={Rd:ΔSC1ΔS1}

    其中S⊂{1,2,⋯,d}S \subset \{1,2,\cdots,d\}S{1,2,,d}是一个指标集;在讨论LASSO估计量时,我们需要再对这个凸锥做一点修正,考虑到LASSO估计量的特点是L1L_1L1-norm作为penalty提供sparse solution,没有被shrink to zero的那些observation会被proportional shrink,据此我们引入一个新的凸锥
    Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}Cα(S)={Rd:ΔSC1αΔS1}

    Restricted Eigenvalue Condition
    称design matrix AAA满足Restricted Eigenvalue Condition over index set SSS with parameter (κ,α)(\kappa,\alpha)(κ,α)如果
    1n∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)n1AΔ22κΔ22,ΔCα(S)

    通常将这个条件简单记为RE(κ,α)RE(\kappa,\alpha)RE(κ,α)

    评注
    如果κ>0\kappa>0κ>0,则RE(κ,α)RE(\kappa,\alpha)RE(κ,α)说明
    1n∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}n1AΔ22κΔ22>0,ΔCα(S){0}

    这说明
    C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}C1(S)Null(A)={0}

    也就是Restricted Null Property成立。

    定理 如果supp(x∗)=Ssupp(x^*)=Ssupp(x)=S∣S∣=s|S|=sS=sAAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α) over SSS:

  • 在Penalized Least Square形式的LASSO中,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\| \frac{A^Tw}{n}\right\|_{\infty}λn2nATw∥x^−x∗∥2≤3κsλn\left\| \hat x-x^* \right\|_2 \le \frac{3}{\kappa}\sqrt{s}\lambda_nx^x2κ3sλn因此最小的上界为6κs∥ATwn∥∞\frac{6}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ6snATw
  • 在Constraint Least Square形式的LASSO中,如果R=∥x∗∥1R=\left\| x^*\right\|_1R=x1,则∥x^−x∗∥2≤4κs∥ATwn∥∞\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}x^x2κ4snATw
  • 在Relaxed Basis Pursuit形式的LASSO中,如果b2≥∥w∥222nb^2 \ge \frac{\left\| w \right\|_2^2}{2n}b22nw22,则∥x^−x∗∥2≤4κsλn∥ATwn∥∞+2κb2−∥w∥222n\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s}\lambda_n \left\| \frac{A^Tw}{n}\right\|_{\infty}+\frac{2}{\sqrt{\kappa}}\sqrt{b^2-\frac{\left\| w\right\|_2^2}{2n}}x^x2κ4sλnnATw+κ2b22nw22因此,当b2=∥w∥222nb^2 = \frac{\left\| w \right\|_2^2}{2n}b2=2nw22时,上界最小,为4κs∥ATwn∥∞\frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ4snATw
  • 评注
    从上面这几个结果来看,κ\kappaκ越大(restricted eigenvalue condition越严格),sss越小(信号越系数),估计量的误差就越小;另外,上界的大小主要由∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}nATw决定,其中www是noise term;如果AAA是固定的,w∼iidN(0,σ2)w \sim_{iid} N(0,\sigma^2)wiidN(0,σ2),假设(标准化design matrix的列向量)
    ∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1nAj2=1

    AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α),则
    ATwn∼N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)nATwN(0,n2ATAσ2)

    ATwn\frac{A^Tw}{n}nATw中每个元素的边缘分布为N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n),因此ATwn\frac{A^Tw}{n}nATwL∞L_{\infty}L-norm其实就是dddN(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)的最大值;根据UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:拐点侦测的统计量及假设检验中介绍的最大值的概率不等式,
    P(∥ATwn∥∞≥σ(2log⁡dn+δ))≤2e−nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}P(nATwσ(n2logd+δ))2e2nδ2

    1n≲δ\frac{1}{\sqrt{n}} \lesssim \deltan1δ,则nδ2→∞n\delta^2 \to \inftynδ2,从而以上概率的上界为0,这说明∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}nATw依概率1满足
    ∥ATwn∥∞=O(slog⁡dn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})nATw=O(nslogd)

    这是一个非常重要的结果,这时到目前为止的Frequentist Optimality;

    证明第二条结论
    考虑
    min⁡x12n∥y−Ax∥22s.t.∥x∥1≤R=∥x∗∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1xmin  2n1yAx22s.t.  x1R=x1

    假设θ^\hat \thetaθ^是它的解,x∗x^*x是true signal,定义Δ=x^−x∗\Delta=\hat x - x^*Δ=x^x;根据解的定义,
    ∥y−Ax^∥22≤∥y−Ax∗∥22∥Ax∗+w−Ax^∥22≤∥w∥22∥w−AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22−2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ\left\| y -A\hat x \right\|_2^2 \le \left\| y -Ax^* \right\|_2^2 \\ \left\| Ax^* +w-A\hat x \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w-A\Delta \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w \right\|_2^2 +\left\|A\Delta \right\|_2^2-2w^TA\Delta \le \left\|w \right\|_2^2 \\ \left\|A\Delta \right\|_2^2 \le 2w^TA\DeltayAx^22yAx22Ax+wAx^22w22wAΔ22w22w22+AΔ222wTAΔw22AΔ222wTAΔ

    根据Cauchy不等式
    ∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1nAΔ22n2wTAΔ2nATwΔ1

    下面我们说明Δ∈C1(S)⊂C3(S)\Delta \in C_1(S) \subset C_3(S)ΔC1(S)C3(S):因为x∗x^*x是true signal,所以
    ∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1xS=x1=Rx^1=x+Δ1=xS+ΔS1+ΔSC1xSΔS1+ΔSC1

    所以
    ∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1ΔSC1ΔS1

    也就是说Δ∈C1(S)\Delta \in C_1(S)ΔC1(S);根据RE(κ,1)RE(\kappa,1)RE(κ,1)
    ∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1 Δ22nκ1AΔ22κ2nATwΔ1

    其中
    ∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2Δ1=ΔS1+ΔSC12ΔS12sΔS2

    代入上式中可得
    ∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}Δ2κ4snATw

    总结

    以上是生活随笔为你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。