第一章绪论

本章主要是对机器学习相关内容做了概述，通过西瓜外观判断瓜的质量的例子，将基本术语和假设空间的概念讲述清楚。

—————
数据集（关于西瓜数据的集合，例如【(色泽=青绿;根蒂=蜷缩;敲声=浊响)，(色泽=乌黑;根蒂= 稍蜷;敲声=沉闷)，(色泽=浅白;根蒂=硬挺;敲声=清脆)，……）】
⬇️
示例/样本（特征向量）（关于一个事件或对象(这里是一个西瓜)的描述）
⬇️
属性/特征（反映事件或对象在某方面的表现或性质的事项，例如“色泽”
“根蒂” “敲声）
⬇️
属性值（属性上的取值，例如“青绿”“乌黑”）
⬇️
属性空间/样本空间/输入空间（属性张成的空间，例如我们把“色泽” “根蒂” “敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”.）
—————
从数据中学得模型的过程称为“学习”(learning)或 “训练”(training), 这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为“训练数据 “(training data), 其中每个样本称为一个“训练样本” (training sample), 训练样本组成的集合称为“训练集”(training set). 学得模型对应了关于数据的某种潜在的规律，因此亦称“假设”(hypothesis); 这种潜在规律自身,则称为 “ 真相 ” 或 “ 真实 ” , 学习过程就是为了找出或逼近真相 . 本书有时将模型称为 “ 学习器 ” , 可看作学习算法在给定数据和参数空间上的实例化 .
—————

标记

(色泽= 青绿;根蒂= 蜷缩; 敲声=浊响)，好瓜)，这里关于示例结果的信息，例如 “好瓜”，称为 “标记”(label);拥有了标记信息的示例，则称为“样例”(example). 一般地，用（xi,hi）表示第i个样例，其中班G，是示例Xi的标记，J 是所有标记的集合, 亦称“标记空间”(label space)或“输出空间”.

聚类

将训练集中的样本分为若干组（簇），这些自动形成的簇存在一些潜在的概念划分.
—————

欲预测的是离散值———分类

    ###连续值———回归

训练数据有标记信息——-监督学习——分类、回归

    ###无标记信息——无监督学习—聚类

—————

机器学习的目标是使学得的模型能很好地适用于“新样本 “ 而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力，称为 “泛化 “(generalization)能力.具有强泛化能力的模型能很好地适用于整个样本空间.
—————

假设空间

有多个假设与训练集一致时，即存在着一个与训练集一致的“假设集合”，我们称之为“版本空间”.
—————

第二章模型评估与选择

—————
把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降.这种现象在机器学习中称为“过拟合” (overfitting).
与 “过拟合”相对的是“欠拟合” (imderRtting),这是指对训练样本的一般性质尚未学好.
—————

评估方法

需使用一个“测试集”(testing set)来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”(testing error)作为泛化误差的近似.测试样本尽量不在训练集中出现、未在训练过程中使用过.
—————

数据集的处理方法（当数据集有限但需要划分训练集T和测试集S时）

1.留出法

直接将数据集划分为两个互斥的集合，其中一个集合作为训练集S,另一个作为测试集T,即0 =SUT,SnT=0.在S上训练出模型后，用 T 来评估其测试误差，作为对泛化误差的估计.
需要注意（1）训练/测试集的划分要尽可能保持数据分布的一致性，（2）使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
此方法受训练集和测试集的划分比例影响较大。

2.交叉验证法（k-fold）

将数据集分层采样划分为k个大小相似的互斥子集，将其中一个子集作为测试集，其余作为训练集，如此进行n次后取平均。

—————

交叉验证法评估结果的稳定性和保真性在很大程度上取决于k 的取值。

与留出法相似，将数据集。划分为k 个子集同样存在多种划分方式.为减小因样本划分不同而引入的差别，k 折交叉验证通常要随机使用不同的划分重复p 次，最终的评估结果是这p 次 k 折交叉验证结果的均值。
特例：留一法（k=数据集长度m，样本只有唯一的方式划分为m个子集,每个子集包含一个样本;留一法使用的训练集与初始数据集相比只少了一个样本，这就使得在绝大多数情况下，留一法中被实际评估的模型与期望评估的用D 训练出的模型很相似.因此，留一法的评估结果往往被认为比较准确.缺陷:在数据集比较大时，训练M 个模型的计算开销难以忍受，且准确度不一定高）

3.自助法

给定包含 m 个样本的数据集。，我们对它进行采样产生数据集每次随机从。中挑选一个样本,将其拷贝放入少 ,然后再将该样本放回初始数据集D 中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m 次后，我们就得到了包含m 个样本的数据集D,这就是自助采样的结果.
估计，样本在m次采样中始终不被采到的概率取极限约为0.368,实际评估的模型与期望评估的模型都使用馆个训练样本,而我们仍有数据总量约1 / 3 的、没在训练集中出现的样本用于测试.这样的测试结果，亦称 “包外估计”.
自助法在数据集较小、难以有效划分训练/测试集时很有用;此外，自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处. 然而，自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差.在初始数据量足够时，留出法和交叉验证法更常用一些.

4.调参

大多数学习算法都有些参数(parameter)需要设定，参数配置不同，学得模型的性能往往有显著差别.因此,在进行模型评估与选择时，除了要对适用学习算法进行选择，还需对算法参数进行设定，这就是通常所说的“参数调节”或简称 “调参 “
参数调得好不好往往对最终模型性能有关键性影响.
—————

性能度量

衡量模型泛化能力的评价标准，这就是性能度量
性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果;这意味着模型的“好坏”是相对的，什么样的模型是好的，不仅取决于算法和数据，还决定于任务需求.

1.错误率和精度：分类任务中最常用的两种性能度量, 既适用于二分类任务，也适用于多分类任务

2.查准率、查全率与F1

根据学习器的预测结果对样例进行排序，排在前面的是学习器认为“最可能”是正例的样本，排在最后的则是学习器认为“最不可能”是正例的样本.按此顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称“P-R曲线〃，显示该曲线的图称为“P-R图”.