线性模型总结 - ZhengYang's Blog

线性模型

线性模型的基本形式，
$$f(\mathbf x)=\mathbf w^T\mathbf x+b$$
$\mathbf x$，D维输入
$\mathbf w$，D维参数
$b$，1维偏置
将$\mathbf{w, x}$变成D+1维，且$\mathbf x$的D+1维恒为1，线性模型变为，
$$f(\mathbf x)=\mathbf w^T\mathbf x$$

更一般的写法为，
$$f(\mathbf x)=\mathbf w^T\boldsymbol{\phi}(\mathbf x)$$
$\mathbf x$，D维输入
$\boldsymbol \phi(\mathbf x)$由 d个基函数 $\phi_j(\mathbf x), j=1,2,…,d$构成，d维列向量
$\phi_j(\mathbf x)$，输入D维。输出1维标量
$\mathbf w$，d维参数

基函数

Gaussian basis $\phi_j(\mathbf x)=exp\{-\frac{1}{2}(\mathbf x-\boldsymbol \mu_j)^T\Sigma^{-1}(\mathbf x-\boldsymbol \mu_j)\}$
$\Sigma,\boldsymbol\mu_j$都是超参数
sigmoidal basis $\phi_j(\mathbf x)=\frac{1}{1+exp(-\mathbf s^T(\mathbf x-\boldsymbol\mu_j)}$
$s,\boldsymbol\mu_j$都是超参数

对于标准的线性模型，存在闭式解；但对于logistic回归之类的广义线性模型，不存在闭式解，只能用优化方法迭代求解。

广义线性模型 GML(Generalized Linear Models)

$y(\mathbf{x})=f(\mathbf{w}^T\mathbf{x}+w_0)$
$f(\cdot)$称为激活函数activation function
$f(\cdot)^{-1}$称为连接link function

对数线性回归

$$lny=\mathbf w^T\mathbf x+b$$

对数几率线性回归 (logistic 回归)

$$ln(\frac{y}{1-y})=\mathbf w^T\mathbf x+b$$
化简成$y$的函数，得
$$y=\frac{e^{\mathbf w^T\mathbf x+b}}{e^{\mathbf w^T\mathbf x+b}+1}=\frac{1}{1+e^{-(\mathbf w^T\mathbf x+b)}}$$

线性判别分析 LDA

样例$\mathbf x$ (D维)到$\mathbf w$上的投影表示为
$$y=\mathbf w^T\mathbf x$$

寻找每类样例的均值（中心点）
$\mathbf m_0=\frac{1}{N_0}\sum_{\mathbf x\in C_0}\mathbf x$
$\mathbf m_1=\frac{1}{N_1}\sum_{\mathbf x\in C_1}\mathbf x$
得到投影后，两类的中心
$\mu_0=w^T\mathbf m_0$
$\mu_1=w^T\mathbf m_1$
投影前的协方差
$S_0=\sum_{\mathbf x\in C_0}\mathbf{(x-m_0)(x-m_0)}^T$
$S_1=\sum_{\mathbf x\in C_1}\mathbf{(x-m_1)(x-m_1)}^T$
投影后的方差
$s_0^2=\sum_{y\in C_0}(y-\mu_0)^2$
$s_1^2=\sum_{y\in C_1}(y-\mu_1)^2$

使类间距尽可能大，类内部的距离尽可能小
$$max_w J(\mathbf{w})=\frac{(\mu_0-\mu_1)^2}{s_0^2+s_1^2}$$