07-支持向量机

7.1 SVM#

支持向量机（support vector machines，SVM）是一种二分类模型，它将实例的特征向量映射为空间中的一些点，SVM 的目的就是想要画出一条线，以 “最好地” 区分这两类点，以至如果以后有了新的点，这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。

7.1.1 SVM 基本概念#

将实例的特征向量（以二维为例）映射为空间中的一些点，如下图的实心点和空心点，它们属于不同的两类。SVM 的目的就是想要画出一条线，以“最好地”区分这两类点，以至如果以后有了新的点，这条线也能做出很好的分类。

Q1：能够画出多少条线对样本点进行区分？

答：线是有无数条可以画的，区别就在于效果好不好，每条线都可以叫做一个划分超平面。比如上面的绿线就不好，蓝线还凑合，红线看起来就比较好。

Q2：为什么要叫作“超平面”呢？

答：因为样本的特征很可能是高维的，此时样本空间的划分就不是一条线了。

Q3：画线的标准是什么？/ 什么才叫这条线的效果好？/ 哪里好？

答：SVM 将会寻找可以区分两个类别并且能使间隔（margin）最大的划分超平面。

Q4：间隔（margin）是什么？

答：对于任意一个超平面，其两侧数据点都距离它有一个最小距离（垂直距离），这两个最小距离的和就是间隔。比如下图中两条虚线构成的带状区域就是 margin，虚线是由距离中央实线最近的两个点所确定出来的（也就是由支持向量决定）。但此时 margin 比较小，如果用第二种方式画，margin 明显变大也更接近我们的目标。

Q5：为什么要让 margin 尽量大？

答：因为大 margin 犯错的几率比较小，也就是更鲁棒。

Q6：支持向量是什么？

答：从上图可以看出，虚线上的点到划分超平面的距离都是一样的，实际上只有这几个点共同确定了超平面的位置，因此被称作 “支持向量（support vectors）”，“支持向量机” 也是由此来的。

7.1.2 hard-margin SVM#

寻找最大间隔：

7.2 核方法#

使用核方法的动机

在线性 SVM 中转化为最优化问题时求解的公式计算都是以内积(dot product)形式出现的，其中 $\phi(X)$ 是把训练集中的向量点转化到高维的非线性映射函数，因为内积的算法复杂度非常大，所以我们利用核函数来取代计算非线性映射函数的内积。以下核函数和非线性映射函数的内积等同，但核函数 K 的运算量要远少于求内积。