🗒️SVM(支持向量机)的原始形式推导
2024-5-10
| 2024-9-7
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password

常见的几何性质

证明 是平面的法向量

在平面(,在高维空间中, 为向量)上,任取不重合的两个点 ,则我们可以得到如下的等式方程:
将两个等式相减,我们得到 ,由向量正交的定义(),可知 是平面的法向量。

理解原点到平面的“距离”——

从原点做一条垂线到平面,两者相交与点 。根据向量的定义 ,可用向量 表示垂直于平面且平面相交的“线段”。同时,我们在上面证明了 是平面的法向量,即 为方向相同或相反的两个向量, 为标量)。
综上,我们有如下等式:
其中, 表示向量 方向的单位向量, 为实数,表示了原点到平面的“距离”(这里的距离可以有政府,带有方向信息)。
又因为 在平面上,所以将其带入到平面,得:
解得:,而 ,所以化简得

理解点到平面的距离

notion image
  从图中我们可得将点到直线的距离,拆分为两部分的距离相减的结果。
  • 第一部分的距离公式推导
    • 我们根据向量点乘公式 ,则向量 在向量 方向上的投影距离为 ,则类比可得 ,其所对应的向量为
  • 第二部分的距离公式推导
    • 根据上面求得的原点到平面的距离可得 ,对应的向量为
  • 两个相减得
    • 直接距离相减
      两向量相减取模长

SVM 的原始公式导出(核心是最大化间隔)

notion image
由点到平面的距离公式 ,可得任意数据点到平面距离(这里需要假设 可以将数据集分开)。但是,这里对距离的求解有绝对值,对后面的计算不友好。同时,我们是二分类问题,我们将标签的用 来代替, 表示正样本, 表示负样本(正负样本为人为定义)。这样我们将式子进行改写
我们希望从所有点中,找到最接近平面的点,则有 。但是我们分类器由较好的泛化性能,受新数据的扰动不能太大。因此,我们希望划分的平面越在“中间”越好。
 
notion image
在所有可能的距离中,最大的距离是间隔的一半(必要条件) 。因此,我们将问题转化为最大化间隔。
第一个最小化,是找到最接近平面的点;最二个最大化,是为了最化这个点到平面的间隔,也就是为了让超平面有较好的泛化性能。
接下来,问题转化为如何取求解 。直接求解显然很麻烦,我们将其转化为求解有约束的优化问题,即
这种思路其实很巧妙,将最小化问题,找到一个最低限制,用约束条件来求解。
我们将上式的求解问题继续变换,同时引入新的定义:函数间隔 ,则
实际上, 的取值并不影响最优化问题的解!当 确定, 是不会变的。所以在这种情况下,我们同时放缩 ,可以使 始终为一个确定的值。
可以理解为 。我们得到的 是没有变的,但是 ,则 。因此引周志华老师《西瓜书》中的句子:
若超平面 能将训练样本正确分类,则总存在缩放变换 使式(6.3)成立。——引自周志华《西瓜书》
则式子变为
显然,为了最大化间隔,仅需最大化 , 这等价于最小化 。于是, 将上式可重写为

SVM 的性质

支持向量(support vector)一定在 两个平面上

我们设分割超平面的满足式子 ,支持向量的平面满足式子 。我们可以利用两个平面的距离等于间隔距离的一半来求解,即 .
利用原点到平面的“距离”公式分别可得
  • 分割超平面到原点的距离为 ,其对应长度的向量为 .
  • 支持向量到原点的距离为 ,其对应长度的向量为
两个向量相减并取模长得
对支持向量的表达式进行改写
所以求的的支持向量必在 所表示的平面上

最大间隔超平面间隔存在唯一性

  • 存在性易得,直观理解
  • 唯一性证明——假设有两个最优解
    • 证明
      • 根据假设,我们有
        解释:因为我们的优化目标是最小化 ,如果 ,则其中必有一个是最小值。那么只有一个最优解,与我们的假设矛盾。
        我们设 。则有
        其中,(两向量模的和大于等于两向量差的模)
        根据上式,我们只能取得等号,则
        因为 ,所以我们得 ,则有
        因为 ,即 只能取 ,则
    • 证明
      • ,且有
        求出 的表达式
        我们将样本代入到其他表达式中
    • 最后我们得到

    📎 参考

    利用拉格朗日乘子法从最优化问题中推导出KKT条件决策树
    Loading...
    目录