UA SIE545 优化理论基础0 优化建模3 线性回归的参数估计问题
UA SIE545 优化理论基础0 优化建模3 线性回归的参数估计问题
- OLS
- Least Absolute Deviation (LAD)
- Least Max Deviation (LMD)
- Least Weighted Deviation
考虑一元线性回归问题,假设数据集为{(xi,yi),i=1,⋯,n}\{(x_i,y_i),i=1,\cdots,n\}{(xi,yi),i=1,⋯,n},假设被解释变量为yyy,解释变量为xxx,并且二者是线性关系:
y=β0+β1xy = \beta_0 + \beta_1 xy=β0+β1x
OLS
考虑最小二乘法,优化问题可以写成
min∑i=1n(yi−(β0+β1xi))2\min\ \ \sum_{i=1}^n (y_i-(\beta_0+\beta_1 x_i))^2min i=1∑n(yi−(β0+β1xi))2
决策变量是系数β0\beta_0β0与β1\beta_1β1,目标函数是二次函数。由此是可以看出优化与统计的区别的,优化研究的是最优β0,β1\beta_0,\beta_1β0,β1的存在性,以及最优性条件、稳定性以及数值解法;统计在此基础上研究在数据具有一定随机性时,最优的β0,β1\beta_0,\beta_1β0,β1具有怎么样的统计性质(无偏、有效、渐近分布等)以及怎样基于这些性质做统计推断(假设检验、区间估计)。
Least Absolute Deviation (LAD)
考虑最小一乘法,
min∑i=1n∣yi−(β0+β1xi)∣\min\ \ \sum_{i=1}^n |y_i-(\beta_0+\beta_1 x_i)|min i=1∑n∣yi−(β0+β1xi)∣
目标函数不可导,我们可以用一些技巧来重构这个优化问题:定义ui=∣yi−(β0+β1xi)∣u_i = |y_i-(\beta_0+\beta_1 x_i)|ui=∣yi−(β0+β1xi)∣,则这个优化问题等价于
min∑i=1nuis.t.ui=∣yi−(β0+β1xi)∣\min\ \ \sum_{i=1}^n u_i \\ s.t.\ \ u_i=|y_i-(\beta_0+\beta_1 x_i)|min i=1∑nuis.t. ui=∣yi−(β0+β1xi)∣
可以将这个优化问题等价地写成:
min∑i=1nuis.t.ui≥∣yi−(β0+β1xi)∣\min\ \ \sum_{i=1}^n u_i \\ s.t.\ \ u_i \ge |y_i-(\beta_0+\beta_1 x_i)|min i=1∑nuis.t. ui≥∣yi−(β0+β1xi)∣
注意到ui≥0u_i \ge 0ui≥0,目标函数是最小化uiu_iui的和,因此uiu_iui必定倾向于取等。这个结果可以进一步化简为
min∑i=1nuis.t.ui≥[yi−(β0+β1xi)]ui≤−[yi−(β0+β1xi)]\min\ \ \sum_{i=1}^n u_i \\ s.t.\ \ u_i \ge [y_i-(\beta_0+\beta_1 x_i)] \\ u_i \le -[y_i-(\beta_0+\beta_1 x_i)] min i=1∑nuis.t. ui≥[yi−(β0+β1xi)]ui≤−[yi−(β0+β1xi)]
这就是一个典型的线性规划问题。
Least Max Deviation (LMD)
LMD的优化问题为
minβ0,β1maxi∣yi−(β0+β1xi)∣\min_{\beta_0,\beta_1}\ \ \max_i |y_i-(\beta_0+\beta_1 x_i)|β0,β1min imax∣yi−(β0+β1xi)∣
用LAD的思路,定义u=maxi∣yi−(β0+β1xi)∣u=\max_i |y_i-(\beta_0+\beta_1 x_i)|u=maxi∣yi−(β0+β1xi)∣,则优化问题可以等价变形为:
minβ0,β1us.t.u=maxi∣yi−(β0+β1xi)∣\min_{\beta_0,\beta_1}\ \ u \\ s.t.\ \ u=\max_i |y_i-(\beta_0+\beta_1 x_i)|β0,β1min us.t. u=imax∣yi−(β0+β1xi)∣
现在放松等式约束,
minβ0,β1us.t.u≥maxi∣yi−(β0+β1xi)∣⟺minβ0,β1us.t.u≥∣yi−(β0+β1xi)∣,∀i⟺minβ0,β1us.t.u≥[yi−(β0+β1xi)],∀iu≤−[yi−(β0+β1xi)],∀i\min_{\beta_0,\beta_1}\ \ u \\ s.t.\ \ u \ge \max_i |y_i-(\beta_0+\beta_1 x_i)| \\ \Longleftrightarrow \\ \min_{\beta_0,\beta_1}\ \ u \\ s.t.\ \ u \ge |y_i-(\beta_0+\beta_1 x_i)|,\forall i \\ \Longleftrightarrow \\ \min_{\beta_0,\beta_1}\ \ u \\ s.t.\ \ u \ge [y_i-(\beta_0+\beta_1 x_i)],\forall i \\ u \le -[y_i-(\beta_0+\beta_1 x_i)],\forall iβ0,β1min us.t. u≥imax∣yi−(β0+β1xi)∣⟺β0,β1min us.t. u≥∣yi−(β0+β1xi)∣,∀i⟺β0,β1min us.t. u≥[yi−(β0+β1xi)],∀iu≤−[yi−(β0+β1xi)],∀i
Least Weighted Deviation
这种情形类似于UA MATH574提到的监督学习unequal cost的情况,因为yi−(β0+β1xi)y_i-(\beta_0+\beta_1 x_i)yi−(β0+β1xi)的符号是有含义的,大于0表示低估;小于0表示高估。有时低估和高估的cost不一样,可以分别定义为w+,w−w^+,w^{-}w+,w−,则最优化可以写成:
minw+∑i=1nmax{0,yi−(β0+β1xi)}+w−∑i=1nmax{0,−yi+(β0+β1xi)}\min w^+\sum_{i=1}^n \max\{0,y_i-(\beta_0+\beta_1 x_i)\}+w^-\sum_{i=1}^n \max\{0,-y_i+(\beta_0+\beta_1 x_i)\}minw+i=1∑nmax{0,yi−(β0+β1xi)}+w−i=1∑nmax{0,−yi+(β0+β1xi)}
这个最优化问题也可以重写成线性规划:定义ui+=max{0,yi−(β0+β1xi)},ui−=max{0,−yi+(β0+β1xi)}u_i^+=\max\{0,y_i-(\beta_0+\beta_1 x_i)\},u_i^-=\max\{0,-y_i+(\beta_0+\beta_1 x_i)\}ui+=max{0,yi−(β0+β1xi)},ui−=max{0,−yi+(β0+β1xi)},把这两个作为决策变量,可以把等式约束放松为
ui+≥max{0,yi−(β0+β1xi)}ui−≥max{0,−yi+(β0+β1xi)}u_i^+\ge \max\{0,y_i-(\beta_0+\beta_1 x_i)\} \\ u_i^-\ge \max\{0,-y_i+(\beta_0+\beta_1 x_i)\}ui+≥max{0,yi−(β0+β1xi)}ui−≥max{0,−yi+(β0+β1xi)}
进而
ui+≥0,ui+≥yi−(β0+β1xi)ui−≥0,ui−≥−yi+(β0+β1xi)u_i^+\ge 0,\ u_i^+\ge y_i-(\beta_0+\beta_1 x_i) \\ u_i^-\ge 0,\ u_i^-\ge -y_i+(\beta_0+\beta_1 x_i)ui+≥0, ui+≥yi−(β0+β1xi)ui−≥0, ui−≥−yi+(β0+β1xi)
因此上面的优化问题可以表示为线性规划:
minw+∑i=1nui++w−∑i=1nui−s.t.ui+≥0,ui+≥yi−(β0+β1xi)ui−≥0,ui−≥−yi+(β0+β1xi)\min w^+\sum_{i=1}^n u_i^++w^-\sum_{i=1}^n u_i^- \\ s.t. \ \ u_i^+\ge 0,\ u_i^+\ge y_i-(\beta_0+\beta_1 x_i) \\ u_i^-\ge 0,\ u_i^-\ge -y_i+(\beta_0+\beta_1 x_i)minw+i=1∑nui++w−i=1∑nui−s.t. ui+≥0, ui+≥yi−(β0+β1xi)ui−≥0, ui−≥−yi+(β0+β1xi)
总结
以上是生活随笔为你收集整理的UA SIE545 优化理论基础0 优化建模3 线性回归的参数估计问题的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: UA MATH523A 实分析1 集合论
- 下一篇: UA MATH563 概率论的数学基础1