# 线性模型

## 第3章 线性模型

* Page53: 线性回归(252)(linear regression)

  给定数据集$$D={(x\_i,y\_i)...}$$，线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记
* Page53: 线性模型(linear model)

  给定由d个属性描述的示例$$x=(x\_1;x\_2;...x\_d)$$，$$x\_i$$是x在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即

  $$f(x) = w\_1x\_1+w\_2x\_2+...+w\_dx\_d+b$$
* Page54: 参数学习

  线性回归试图学得$$f(x\_i) = wx\_i + b$$, 使得$$f(x\_i) \approx y\_i$$
* Page54: 平方损失

  欧氏距离算得的均方误差
* Page54: 最小二乘法(72)(least square method)

  基于均方误差最小化来进行模型求解的方法称为最小二乘法
* Page55: 多元线性回归(multivariate linear regression)

  样本由多个属性描述的线性回归
* Page56: 对数线性回归(log-linear regression)

  线性回归的一种变化，$$ln y=wx+b$$
* Page56: 正则化(105,133)（regularization）

  往往可以解出多个w都能使均方误差最小化，选择哪一个解将由学习算法的归纳偏好决定，常见的做法是引入正则化项。
* Page57: 对数几率回归（log-linear regression）

  对于分类问题，需要找一个单调可微函数将数据和线性模型关联起来，单位阶跃函数不连续，对数几率函数则连续且单调可微，并近似单位阶跃函数

  $$y = 1/(1+e^{-z})$$

  用线性回归模型的预测结果去逼近真实标记的对数几率，因此对应的模型称为“对数几率回归”。
* Page57: 广义线性模型（generalized linear model）

  考虑单调可微函数g(.)，令 y=g(wx+b)，这样得到的模型称为广义线性模型，其中函数g称为联系函数。
* Page57: 阶跃函数(98)（unit-step function）

  考虑二分类任务，我们需要将实值z转为0/1值，最理想的是单位阶跃函数： $$\begin{eqnarray}y= \begin{cases} 0, \&z<0\cr 0.5, \&z=0 \cr 1, &1\end{cases} \end{eqnarray}$$
* Page57: 联系函数(link function)

  见广义线性模型
* Page58: Sigmoid函数(98,102)

  Sigmoid函数即形似S的函数
* Page58: 对率函数

  同对数几率函数
* Page58: 对率回归(132,325)(logistic regression)

  用线性回归模型的预测结果去逼近真实标记的对数几率
* Page58: 对数几率函数(98)（logistic function）

  见对数几率回归
* Page58: 几率(odds)

  若将模型输出y视为样本x作为正例的可能性，则1-y是其反例可能性，两者的比值y/1-y称为几率
* Page58: 替代函数（surrogate function）

  功能相似的函数，例如用对数几率函数替代单位阶跃函数
* Page59: 对数似然(149)（log-likelihood）

  $$l(w,b) = \sum\_i^n ln p(y\_i|x\_i;w,b)$$

  对率回归模型最大化对数似然，即令每个样本属于其真实标记的概率越大越好
* Page59: 极大似然法(149,297)(maximum likelihood method)

  估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。
* Page60: Fisher判别分析(Fisher Discriminant Analysis)

  同线性判别分析
* Page60: 线性判别分析(139)（Linear Discriminant Analysis）

  给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影尽可能接近，异类样例的投影点尽可能远离，在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定样本的类别。
* Page61: 广义瑞利商（generalized Rayleigh quotient）

  LDA欲最大化的目标，即Sb(类间散度矩阵)，Sw(类内散度矩阵)的广义瑞利商
* Page61: 类间散度矩阵(138)(within-class scatter matrix)

  各类样本内部求差平方，再求和
* Page61: 类内散度矩阵(138)(between-class scatter matrix)

  各类样本之间的均值之差的平方和
* Page62: 全局散度矩阵（global scatter matrix）

  样本与全局均值之差的平方和
* Page63: MvM（Many vs. Many）

  多分类转二分类的一种解决方法：每次将若干个类作为正类，若干个其他类作为反类，通常用纠错输出码ECOC来拆分。
* Page63: OVO（one vs. one）

  一对一，对于多个分类，两两配对产生N(N-1)/2个二分类任务
* Page63: OvR(one vs. Rest)

  一对多，每次将一个类的样例作为正例，所有其他类的样例作为反例来训练N个分类器。
* Page63: 多分类器学习

  顾名思义。。
* Page64: ECOC

  同纠错输出码
* Page64: 纠错输出码（Error Correcting Output Codes）

  将编码思想引入类别拆分，分编码和解码两部：

  * 编码：对N个分类器做M次划分，每次划分将一部分类别划为正类，其余为反类，一共产生M个二分类训练集，训练出M个分类器
  * 解码：M个分类器分别对测试样本做预测，所有预测标记组成一个编码，将这个预测编码与每个类别各自的编码做比较，返回其中距离最小的类别作为最终预测结果。
* Page65: 编码矩阵(coding Matrix)

  ECOC中，类别划分通过编码矩阵（编码组成的矩阵。。）指定。
* Page66: 类别不平衡(209)（class-imbalance）

  分类任务中不同类别的训练样例数目差别很大的情况，往往通过再缩放处理。
* Page67: 过采样（oversampling）

  对训练集里的某类样例增加采样次数减小类别不平衡。
* Page67: 欠采样(undersampling)

  对训练集里的某类样例减少采样次数减小类别不平衡。
* Page67: 上采样(upsampling)

  同过采样
* Page67: 稀疏表示(255)（sparse representation）

  见11章。
* Page67: 稀疏性(sparsity)

  本质上对应L0范数的优化。
* Page67: 下采样(downsampling)

  同欠采样
* Page67: 阈值移动(threshold-moving)

  欠采样和过采样改变了观测几率，在执行在缩放时，根据采样比例调整阈值。
* Page67: 再平衡(rebalance)

  同再缩放
* Page67: 再缩放(rescaling)

  原本决策规则是$$y/(1-y)>1$$预测为正，即预测为正的可能性大于预测为负的可能性，但正例少的时候，我们可以修改为，预测为正的可能性高于观测到的几率，即$$y/(1-y) > m^+/m^-$$
* Page68: 多标记学习(multi-label learning)

  例如一幅画可同时标注蓝天，白云，羊群等，每个样本属于多个类别，这就是多标记学习。
