第6章支持向量机

1.前言

如上图所示，我们希望找到一个边界使两类数据分开，显然可以找到许多符合条件的边界，但对于看不见的点或者验证数据集，就不一定能很好地分隔两类。支持向量机（SVM）就是为了寻找最佳的决策边界，既能将两类很好的分隔开来，而且还保持了两个类的最极端点之间的最宽距离。

挖坑：如果无法找到那个边界呢？

2.什么是支持向量机

支持向量机（SVM）本质上是尝试拟合两个类别之间最宽的间距，使得图1中的两条虚线之间的距离最大，那么分布在虚线上的点就叫支持向量。也可以说，支持向量决定了虚线的位置，非支持向量，即图中不在虚线上的点不会影响决策边界的位置。

原理

根据最大几何间隔选择最佳超平面

3.核函数

填坑

在本章前面的讨论中，我们假设训练样本是线性可分的，即存在一个划分超平面能将训练样本正确分类.然而在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面。对这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分.