UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差
- Signal Recovery Noisy Setting
- LASSO的估计误差
Signal Recovery Noisy Setting
前四讲算是把无噪声的情况讨论得差不多了,这一讲开始我们讨论含噪声的稀疏信号恢复问题。假设observations是
y=Ax∗+wy=Ax^*+wy=Ax∗+w
其中A∈Rn×dA \in \mathbb{R^{n \times d}}A∈Rn×d是design matrix,x∗∈Rdx^* \in \mathbb{R}^dx∗∈Rd是true signal,www是noise;现在的问题是我们知道yyy和AAA,想要得到真实信号的一个估计量x^\hat xx^;关于这个问题有三种等价的分析框架:
Penalized Least Square
minx12n∥y−Ax∥22+λnϕ(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)xmin 2n1∥y−Ax∥22+λnϕ(x)
其中λn\lambda_nλn是regularization parameter,ϕ(x)\phi(x)ϕ(x)是penalty function,12n∥y−Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^22n1∥y−Ax∥22是least square loss:
此外还有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通过设计penalty function得到能实现不同目的的penalized least square模型;
Constraint Least Square
minx12n∥y−Ax∥22s.t.ϕ(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le Rxmin 2n1∥y−Ax∥22s.t. ϕ(x)≤R
这与Penalized Least Square是完全等价的。
Relaxed Basis Pursuit或者Basis Pursuit Denoising
minxϕ(x)s.t.12n∥y−Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2xmin ϕ(x)s.t. 2n1∥y−Ax∥22≤b2
这种一般在EECS的文献中比较常见,统计学一般用前两种(主要是第一种)框架。
LASSO的估计误差
在noisy setting下,full recovery自然是不可能的了,但我们希望估计误差∥x^−x∗∥\left\| \hat x - x^*\right\|∥x^−x∗∥尽可能小,下面我们讨论一下LASSO估计误差的下界。
在第二讲推导L1L_1L1-minimization时,为了构造L0L_0L0-norm的scale-invariant性质,我们引入了一个凸锥
C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}
其中S⊂{1,2,⋯,d}S \subset \{1,2,\cdots,d\}S⊂{1,2,⋯,d}是一个指标集;在讨论LASSO估计量时,我们需要再对这个凸锥做一点修正,考虑到LASSO估计量的特点是L1L_1L1-norm作为penalty提供sparse solution,没有被shrink to zero的那些observation会被proportional shrink,据此我们引入一个新的凸锥
Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}
Restricted Eigenvalue Condition
称design matrix AAA满足Restricted Eigenvalue Condition over index set SSS with parameter (κ,α)(\kappa,\alpha)(κ,α)如果
1n∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)n1∥AΔ∥22≥κ∥Δ∥22,∀Δ∈Cα(S)
通常将这个条件简单记为RE(κ,α)RE(\kappa,\alpha)RE(κ,α)。
评注
如果κ>0\kappa>0κ>0,则RE(κ,α)RE(\kappa,\alpha)RE(κ,α)说明
1n∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}n1∥AΔ∥22≥κ∥Δ∥22>0,∀Δ∈Cα(S)∖{0}
这说明
C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}C1(S)∩Null(A)={0}
也就是Restricted Null Property成立。
定理 如果supp(x∗)=Ssupp(x^*)=Ssupp(x∗)=S,∣S∣=s|S|=s∣S∣=s,AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α) over SSS:
评注
从上面这几个结果来看,κ\kappaκ越大(restricted eigenvalue condition越严格),sss越小(信号越系数),估计量的误差就越小;另外,上界的大小主要由∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥nATw∥∥∥∞决定,其中www是noise term;如果AAA是固定的,w∼iidN(0,σ2)w \sim_{iid} N(0,\sigma^2)w∼iidN(0,σ2),假设(标准化design matrix的列向量)
∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1n∥Aj∥2=1
且AAA满足RE(κ,α)RE(\kappa,\alpha)RE(κ,α),则
ATwn∼N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)nATw∼N(0,n2ATAσ2)
ATwn\frac{A^Tw}{n}nATw中每个元素的边缘分布为N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n),因此ATwn\frac{A^Tw}{n}nATw的L∞L_{\infty}L∞-norm其实就是ddd个N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)的最大值;根据UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:拐点侦测的统计量及假设检验中介绍的最大值的概率不等式,
P(∥ATwn∥∞≥σ(2logdn+δ))≤2e−nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}P(∥∥∥∥nATw∥∥∥∥∞≥σ(n2logd+δ))≤2e−2nδ2
取1n≲δ\frac{1}{\sqrt{n}} \lesssim \deltan1≲δ,则nδ2→∞n\delta^2 \to \inftynδ2→∞,从而以上概率的上界为0,这说明∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥nATw∥∥∥∞依概率1满足
∥ATwn∥∞=O(slogdn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})∥∥∥∥nATw∥∥∥∥∞=O(nslogd)
这是一个非常重要的结果,这时到目前为止的Frequentist Optimality;
证明第二条结论
考虑
minx12n∥y−Ax∥22s.t.∥x∥1≤R=∥x∗∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1xmin 2n1∥y−Ax∥22s.t. ∥x∥1≤R=∥x∗∥1
假设θ^\hat \thetaθ^是它的解,x∗x^*x∗是true signal,定义Δ=x^−x∗\Delta=\hat x - x^*Δ=x^−x∗;根据解的定义,
∥y−Ax^∥22≤∥y−Ax∗∥22∥Ax∗+w−Ax^∥22≤∥w∥22∥w−AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22−2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ\left\| y -A\hat x \right\|_2^2 \le \left\| y -Ax^* \right\|_2^2 \\ \left\| Ax^* +w-A\hat x \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w-A\Delta \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w \right\|_2^2 +\left\|A\Delta \right\|_2^2-2w^TA\Delta \le \left\|w \right\|_2^2 \\ \left\|A\Delta \right\|_2^2 \le 2w^TA\Delta∥y−Ax^∥22≤∥y−Ax∗∥22∥Ax∗+w−Ax^∥22≤∥w∥22∥w−AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22−2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ
根据Cauchy不等式
∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1n∥AΔ∥22≤n2wTAΔ≤2∥∥∥∥nATw∥∥∥∥∞∥Δ∥1
下面我们说明Δ∈C1(S)⊂C3(S)\Delta \in C_1(S) \subset C_3(S)Δ∈C1(S)⊂C3(S):因为x∗x^*x∗是true signal,所以
∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1∥xS∗∥=∥x∗∥1=R≥∥x^∥1=∥x∗+Δ∥1=∥xS∗+ΔS∥1+∥ΔSC∥1≥∥xS∗∥−∥ΔS∥1+∥ΔSC∥1
所以
∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1∥ΔSC∥1≤∥ΔS∥1
也就是说Δ∈C1(S)\Delta \in C_1(S)Δ∈C1(S);根据RE(κ,1)RE(\kappa,1)RE(κ,1),
∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1 ∥Δ∥22≤nκ1∥AΔ∥22≤κ2∥∥∥∥nATw∥∥∥∥∞∥Δ∥1
其中
∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2
代入上式中可得
∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥Δ∥2≤κ4s∥∥∥∥nATw∥∥∥∥∞
,
总结
以上是生活随笔为你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 马尔可夫“折棍子”过程 Markovia
- 下一篇: UA MATH567 高维统计专题1 稀