利用拉格朗日乘子法从最优化问题中推导出KKT条件

type

status

date

slug

summary

优化问题的一般形式

在优化问题中，我们将其一般形式定义为有约束（不等式约束、等式约束）的最小化优化问题，其具体定义如下：

当然，在求解优化问题中，还有其他形式的优化问题，但一般可以通过简单的变形操作，将问题转换为我们所定义的一般形式，下面为其他形式:

这里可以将变形为，令，将问题转换。

这里可以将变形为，即将最大化原函数改为最小化其函数值的相反数。

拉格朗日函数与原始优化问题的联系——如何将利用拉格朗日乘子将有约束原始优化问题转换为等价的无约束优化问题（形式上）

拉格朗日乘子法其思想就是把有约束优化问题转变为等价的无约束优化问题(形式上)。具体怎么操作呢？

其实，用法很简单，针对一般优化的原始问题，定义如下：

我们可以利用拉格朗日乘子法

我们目标便是转换为最小化上述的公式，但是在上式中我们又引入了额外的参数，因此也需要对该参数做优化，因此我们有：

这样，我们将问题做了转换。

这里，我们证明一下原始优化问题（即）与我们转换问题（即）是等价的。

我们记

则有

验证上述性质：

若存在使得某个则我们可令，进而有

若存在使得某个则我们可令 , 进而有

若，则有

我们得出，当在条件满足时，其形式就等同于，即等同于在约束条件下，对求解，同等于原问题。

💡

思考：从这里出发，我觉得这个条件也是为了满足在约束条件，有，感觉是一种解决该问题必然需要满足的隐含条件。

拉格朗日函数与拉格朗日对偶函数——从最优解的下界出发，兜底最优解

定义拉格朗日对偶函数（Lagrange dual function）：为对取最小值：

其中，表示下确界(infimum)，这里可近似理解为 min，以下用表示。对偶函数为凹函数(concave function)，不管原问题是否为凸。——这里可以通过添加负号，将问题转换为凸优化问题。

通俗理解就是每确定一组，就要找到一个使得最小，不同的对应不同的函数值。

记问题的最优值为。假设为一可行解，则其满足约束条件：。所以对任意，由式有，进而

因为上式，表示原问题的最优值下界，所以该式对任意可行解都成立，则有：

这说明，对偶函数给出了问题最优值的下界。那么能给出的最好的下界是多少呢？(如果等于就太完美了)这就形成了如下的优化问题，即最大化原问题的最优值的下界，使其尽量等于原问题的最优解：

问题称为问题的拉格朗日对偶问题(Lagrange dual problem)，相应地，问题称为原问题(primal problem)。的变量为原问题的拉格朗日乘子，其最优解称为(对偶)最优拉格朗日乘子。不管原问题是否是凸优化问题，对偶问题都是凸优化问题(max 一个凹函数)。

💡

理解：所以对偶函数是原问题的最优值下界，虽然不等式成立，但是如果 ,并且让趋近于负无穷，这个时候，虽然也满足不等式，但是此时没有任何意义。所以只有当，这个时候时，对偶函数才能给出原目标函数一个非平凡有意义的下界，称此条件下的是对偶可行的。

弱对偶性 weak duality 与强对偶性 strong duality

记对偶问题的最优值为，原问题的最优值为，则是对偶函数能给出的的最好的下界.

若有称为弱对偶性。即使原问题非凸，弱对偶性也成立。

如果等式成立，则称强对偶性成立。

KKT 条件与对偶问题——支持向量机：Duality

假设和分别是 primal problem（原问题）和 dual problem（对偶问题）的极值点，相对应的极值为与。当 strong duality 成立时，我们有，则

因为强对偶性成立，对偶间隙为 0；

拉格朗日对偶函数在处的取值；拉格朗日对偶函数为拉格朗日函数对取最小值(严格来说是下确界 )；

因为函数的最小值不会超过其定义域内任意一点的函数值，所以也就不超过处的函数值；

因为在原问题中，我们有。所以第三步中，后面两个求和项都不会超过。

由于两头是相等的，所以这一系列的式子里的不等号全部都可以换成等号。根据第一个不等号

我们可以得到是 的一个极值点，由此可以知道 在处的梯度应该等于 0 ，亦即：

此外，由第二个不等式，我们可得

因为，所以有

又因为，所以，即(4)中求和的每一项都小于等于，所以每一项都应该等于，即有

这个条件叫做 complementary slackness （互补松弛性）。显然，如果，那么必定有；反过来，如果那么可以得到。这个条件正是在介绍支持向量的文章末尾时用来证明那些非支持向量（对应于）所对应的系数（在本文里对应）是为零的。

再将其他一些显而易见的条件写到一起，就是传说中的 KKT (Karush-Kuhn-Tucker) 条件：

任何满足 strong duality （不一定要求是通过 Slater 条件得到，也不一定要求是凸优化问题）的问题都满足 KKT 条件，换句话说，这是 strong duality 的一个必要条件。

当原始问题是凸优化问题的时候（当然还要求目标函数和约束函数可微是可微的，否则 KKT 条件的最后一个式子就没有意义了），KKT 就可以升级为充要条件。换句话说，如果 primal problem 是一个凸优化问题，且存在和满足 KKT 条件，那么它们分别是 primal problem 和 dual problem 的极值点并且 strong duality 成立。其证明也比较简单.

针对第一和第二个条件是原问题的不等式约束和等式约束，保证解可行；

第三个条件为对偶可行条件；因为目标函数和不等式约束为凸函数，而等式约束为仿射函数(既凸又凹)，所以拉格朗日函数可看作一组凸函数的非负加权和，因此也是凸函数；

第四个条件为互补松弛条件；

第五个条件为梯度为零：在处的梯度为，因为是可微凸函数，所以是其最小值点。

接着，primal problem 是凸优化问题的话，的求解对每一组固定的来说也是一个凸优化问题。所以有（这里是最重要的）：

最后，最后一步根据 KKT 条件的第二（等式约束）和第四个条件（互补松弛条件）得到。由于是的下界，这样一来，就证明了 duality gap（对偶间隔）为零，也就是说 strong duality 成立。

📎 参考

https://blog.pluskid.org/archives/702