当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

发布时间：2025/4/14 编程问答 49 豆豆

生活随笔收集整理的这篇文章主要介绍了 UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差小编觉得挺不错的,现在分享给大家,帮大家做个参考.

UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

- Signal Recovery Noisy Setting
- LASSO的估计误差

Signal Recovery Noisy Setting

前四讲算是把无噪声的情况讨论得差不多了，这一讲开始我们讨论含噪声的稀疏信号恢复问题。假设observations是
$y=Ax^*+w$

其中 $\in \mathbb{R^{n \times d}}$ 是design matrix， $x∗∈Rdx^* \in \mathbb{R}^d$ 是true signal， $w$ 是noise；现在的问题是我们知道 $y$ 和 $A$ ，想要得到真实信号的一个估计量 $x^\hat x$ ；关于这个问题有三种等价的分析框架：

Penalized Least Square
$min⁡x12n∥y−Ax∥22+λnϕ(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)$

其中 $λn\lambda_n$ 是regularization parameter， $ϕ(x)\phi(x)$ 是penalty function， $12n∥y−Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^2$ 是least square loss：

ϕ(x)=∥x∥1\phi(x)=\left\| x \right\|_1

: LASSO

ϕ(x)=∥x∥2\phi(x)=\left\| x \right\|_2

: Ridge regression

ϕ(x)=η∥x∥1+(1−η)∥x∥2\phi(x)=\eta \left\| x\right\|_1+(1-\eta)\left\| x\right\|_2

: Elastic net

此外还有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通过设计penalty function得到能实现不同目的的penalized least square模型；

Constraint Least Square
$min⁡x12n∥y−Ax∥22s.t.ϕ(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le R$

这与Penalized Least Square是完全等价的。

Relaxed Basis Pursuit或者Basis Pursuit Denoising

$min⁡xϕ(x)s.t.12n∥y−Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2$

这种一般在EECS的文献中比较常见，统计学一般用前两种（主要是第一种）框架。

LASSO的估计误差

在noisy setting下，full recovery自然是不可能的了，但我们希望估计误差 $∥x^−x∗∥\left\| \hat x - x^*\right\|$ 尽可能小，下面我们讨论一下LASSO估计误差的下界。

在第二讲推导 $L_1$ -minimization时，为了构造 $L_0$ -norm的scale-invariant性质，我们引入了一个凸锥
$C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}$

其中 $\subset \{1,2,\cdots,d\}$ 是一个指标集；在讨论LASSO估计量时，我们需要再对这个凸锥做一点修正，考虑到LASSO估计量的特点是 $L_1$ -norm作为penalty提供sparse solution，没有被shrink to zero的那些observation会被proportional shrink，据此我们引入一个新的凸锥
$Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}$

Restricted Eigenvalue Condition
称design matrix $A$ 满足Restricted Eigenvalue Condition over index set $S$ with parameter $(κ,α)(\kappa,\alpha)$ 如果
$1n∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)$

通常将这个条件简单记为 $RE(κ,α)RE(\kappa,\alpha)$ 。

评注
如果 $κ>0\kappa>0$ ，则 $RE(κ,α)RE(\kappa,\alpha)$ 说明
$1n∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}$

这说明
$C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}$

也就是Restricted Null Property成立。

定理如果 $supp(x^*)=S$ ， $∣ S ∣ = s$ ， $A$ 满足 $RE(κ,α)RE(\kappa,\alpha)$ over $S$ :

在Penalized Least Square形式的LASSO中，如果

λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\| \frac{A^Tw}{n}\right\|_{\infty}

则

∥x^−x∗∥2≤3κsλn\left\| \hat x-x^* \right\|_2 \le \frac{3}{\kappa}\sqrt{s}\lambda_n

因此最小的上界为

6κs∥ATwn∥∞\frac{6}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}

在Constraint Least Square形式的LASSO中，如果

R=∥x∗∥1R=\left\| x^*\right\|_1

，则

∥x^−x∗∥2≤4κs∥ATwn∥∞\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}

在Relaxed Basis Pursuit形式的LASSO中，如果

b2≥∥w∥222nb^2 \ge \frac{\left\| w \right\|_2^2}{2n}

，则

∥x^−x∗∥2≤4κsλn∥ATwn∥∞+2κb2−∥w∥222n\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s}\lambda_n \left\| \frac{A^Tw}{n}\right\|_{\infty}+\frac{2}{\sqrt{\kappa}}\sqrt{b^2-\frac{\left\| w\right\|_2^2}{2n}}

因此，当

b2=∥w∥222nb^2 = \frac{\left\| w \right\|_2^2}{2n}

时，上界最小，为

4κs∥ATwn∥∞\frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}

；

评注
从上面这几个结果来看， $κ\kappa$ 越大（restricted eigenvalue condition越严格）， $s$ 越小（信号越系数），估计量的误差就越小；另外，上界的大小主要由 $∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}$ 决定，其中 $w$ 是noise term；如果 $A$ 是固定的， $\sim_{iid} N(0,\sigma^2)$ ，假设（标准化design matrix的列向量）
$∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1$

且 $A$ 满足 $RE(κ,α)RE(\kappa,\alpha)$ ，则
$ATwn∼N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)$

$ATwn\frac{A^Tw}{n}$ 中每个元素的边缘分布为 $N(0,σ2/n)N(0,\sigma^2/n)$ ，因此 $ATwn\frac{A^Tw}{n}$ 的 $L∞L_{\infty}$ -norm其实就是 $d$ 个 $N(0,σ2/n)N(0,\sigma^2/n)$ 的最大值；根据UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用：拐点侦测的统计量及假设检验中介绍的最大值的概率不等式，
$P(∥ATwn∥∞≥σ(2log⁡dn+δ))≤2e−nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}$

取 $1n≲δ\frac{1}{\sqrt{n}} \lesssim \delta$ ，则 $nδ2→∞n\delta^2 \to \infty$ ，从而以上概率的上界为0，这说明 $∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}$ 依概率1满足
$∥ATwn∥∞=O(slog⁡dn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})$

这是一个非常重要的结果，这时到目前为止的Frequentist Optimality；

证明第二条结论
考虑
$min⁡x12n∥y−Ax∥22s.t.∥x∥1≤R=∥x∗∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1$

根据Cauchy不等式
$∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1$

下面我们说明 $Δ∈C1(S)⊂C3(S)\Delta \in C_1(S) \subset C_3(S)$ ：因为 $x^*$ 是true signal，所以
$∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1$

所以
$∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1$

也就是说 $Δ∈C1(S)\Delta \in C_1(S)$ ；根据 $RE(κ,1)RE(\kappa,1)$ ，
$∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1$

其中
$∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2$

代入上式中可得
$∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}$

，

总结

以上是生活随笔为你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：马尔可夫“折棍子”过程 Markovia
下一篇： UA MATH567 高维统计专题1 稀