线性回归

input space

X=Rd\mathcal{X}=\mathbb{R}^d

label space / output space(y的范围是0到1)

Y=R\mathcal{Y}=\mathbb{R}

hypothesis class F

F:{x wx+bwRd,bR}\mathcal{F}:\{x \mapsto\ w^\top x+b | w\in\mathbb{R}^d,b\in\mathbb{R}\}

loss function(l2l_2-loss) square loss

(f(x),y)=(f(x)y)2\ell(f(x),y)=(f(x)-y)^2\\

loss function( absolute loss )

(f(x),y)=f(x)y\ell(f(x),y)=|f(x)-y|

Empricial Risk Minizer(convex)

R^(w)=1mi=1m(yiwxi)2\hat R(w)=\frac{1}{m}\sum_{i=1}^m(y_i-w^\top x_i)^2

因为上面这个函数时convex,所以我们可以通过求导并使其等于0来求min。通过上述方法从ERM中求出来的w如下(如果XTXX^TX可逆的话)

w^=(XX)1XY\hat w=(X^\top X)^{-1}X^\top Y

Regulation

Regulation:为了防止因为如果XTXX^TX接近singular时,导致w会很大的情况,我们给原始函数增加一个惩罚函数

G^=R^(w)+λψ(w)\hat G=\hat R(w)+\lambda \psi(w)

其中ψ(w)\psi(w)常见取值为w1\|w\|_1或者w22\|w\|_2^2

ridge regression|ψ=ω22\psi=||\omega||_2^2

G^(w)=1mi=1m(yiwxi)2+λw22w^λ=(XX+λmI)1XY\hat G(w)=\frac{1}{m}\sum_{i=1}^m(y_i-w^\top x_i)^2+\lambda\|w\|_2^2\\ \hat w_\lambda=(X^\top X+\lambda m I)^{-1}X^\top Y

LASSO regression|ψ=ω1\psi=||\omega||_1|当我们需要sparse solutions的时候

G^(w)=1mi=1m(yiwxi)2+λw1\hat G(w)=\frac{1}{m}\sum_{i=1}^m(y_i-w^\top x_i)^2+\lambda\|w\|_1\\


声明:此blog内容为上课笔记,仅为分享使用。部分图片和内容取材于课本、老师课件、网络。如果有侵权,请联系aursus.blog@gmail.com删除。