《机器学习》第三章线性模型

3.1基本形式

f(x)= w1x1+w2x2+…+wdxd+b

向量形式: f(x) = w T x + b

其中x表示由d个属性描述的示例x=(x1;x2;…;xd) ,许多非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。
线性模型形式简单、易于建模，有很好的可解释性。

3.2线性回归

“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。

① 若属性值间存在“序”(order)关系，可通过连续化将其转化为连续值，例如三值属性“高度”的取值“高”“中”“低”可转化为{1.0,0.5,0.0}。
② 若属性值间不存在序关系，假定有k个属性值，则通常转化为k维向量,例如属性“瓜类”的取值“西瓜” “南瓜” “黄瓜”可转化为(0,0,1), (0,1,0),(1,0,0)。若将无序属性连续化, 则会不恰当地引入序关系, 对后续处理如距离计算等造成误导。

当样本由单个属性描述时：

线性回归试图学得f(xi)= wxi+b使得f(xi)→yi 。

如何求w和b？

最小二乘法——基于均方误差最小化

试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。

当样本由多个属性描述时：

线性回归试图学得f(xi)= w^Txi+b使得f(xi)→yi ,称多元线性回归。

①当 X T X 为满秩矩阵或正定矩阵

②不满秩时

此时可解出多个w^，它们都能使均方误差最小化，如何选择解作为输出？

引入正则化项

③一般情况

3.3 对数几率回归

若进行分类任务时怎么办？→找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来.

二分类任务时，我们的输出标记为{0,1}，而线性回归模型产生的预测值是实值，需将实值z转换为 0 / 1 值，此时考虑“单位阶跃函数”。

新问题：单位阶跃函数不连续，不能直接用作式g^-1( • ) ,对数几率函数为替代函数。

“对数几率回归”：用线性回归模型的预测结果去逼近真实标记的对数几率。

3.4 线性判别分析（LDA）（Fisher判别分析）

LDA的思想非常朴素:给定训练样例集，设法将样例投影到一条直线上, 使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。