SVM（支持向量机）的原始形式推导

type

status

date

slug

summary

常见的几何性质

证明是平面的法向量

在平面（，在高维空间中，为向量）上，任取不重合的两个点，则我们可以得到如下的等式方程：

将两个等式相减，我们得到，由向量正交的定义（），可知是平面的法向量。

理解原点到平面的“距离”——

从原点做一条垂线到平面，两者相交与点。根据向量的定义，可用向量表示垂直于平面且平面相交的“线段”。同时，我们在上面证明了是平面的法向量，即与为方向相同或相反的两个向量，（为标量）。

综上，我们有如下等式：

其中，表示向量方向的单位向量，为实数，表示了原点到平面的“距离”（这里的距离可以有政府，带有方向信息）。

又因为在平面上，所以将其带入到平面，得：

解得：，而，所以化简得。

理解点到平面的距离

　　从图中我们可得将点到直线的距离，拆分为两部分的距离相减的结果。

第一部分的距离公式推导

我们根据向量点乘公式，则向量在向量方向上的投影距离为，则类比可得，其所对应的向量为

第二部分的距离公式推导

根据上面求得的原点到平面的距离可得，对应的向量为

两个相减得

直接距离相减

两向量相减取模长

SVM 的原始公式导出(核心是最大化间隔)

由点到平面的距离公式，可得任意数据点到平面距离（这里需要假设可以将数据集分开）。但是，这里对距离的求解有绝对值，对后面的计算不友好。同时，我们是二分类问题，我们将标签的用来代替，表示正样本，表示负样本（正负样本为人为定义）。这样我们将式子进行改写

我们希望从所有点中，找到最接近平面的点，则有。但是我们分类器由较好的泛化性能，受新数据的扰动不能太大。因此，我们希望划分的平面越在“中间”越好。

在所有可能的距离中，最大的距离是间隔的一半（必要条件） 。因此，我们将问题转化为最大化间隔。

第一个最小化，是找到最接近平面的点；最二个最大化，是为了最化这个点到平面的间隔，也就是为了让超平面有较好的泛化性能。

接下来，问题转化为如何取求解。直接求解显然很麻烦，我们将其转化为求解有约束的优化问题，即

这种思路其实很巧妙，将最小化问题，找到一个最低限制，用约束条件来求解。

我们将上式的求解问题继续变换，同时引入新的定义：函数间隔，则

实际上，的取值并不影响最优化问题的解！当确定，是不会变的。所以在这种情况下，我们同时放缩，可以使始终为一个确定的值。

可以理解为。我们得到的是没有变的，但是，则。因此引周志华老师《西瓜书》中的句子：

若超平面能将训练样本正确分类，则总存在缩放变换和使式(6.3)成立。——引自周志华《西瓜书》

则式子变为

显然，为了最大化间隔，仅需最大化，这等价于最小化。于是，将上式可重写为

SVM 的性质

支持向量（support vector）一定在两个平面上

我们设分割超平面的满足式子，支持向量的平面满足式子。我们可以利用两个平面的距离等于间隔距离的一半来求解，即 .

利用原点到平面的“距离”公式分别可得

分割超平面到原点的距离为，其对应长度的向量为 .

支持向量到原点的距离为，其对应长度的向量为

两个向量相减并取模长得

对支持向量的表达式进行改写

所以求的的支持向量必在所表示的平面上

最大间隔超平面间隔存在唯一性

存在性易得，直观理解

唯一性证明——假设有两个最优解，

证明

根据假设，我们有。

解释：因为我们的优化目标是最小化，如果，则其中必有一个是最小值。那么只有一个最优解，与我们的假设矛盾。

我们设，。则有

其中，（两向量模的和大于等于两向量差的模）

根据上式，我们只能取得等号，则

因为，所以我们得，则有

因为，即。只能取，则

证明

设，且有

求出的表达式

我们将样本代入到其他表达式中

最后我们得到

📎 参考

day6-线性可分SVM