阅读提示：1.文章中的斜体符号表示单个元素，加粗斜体表示向量。2.本篇文章公式大多较长，手机端需要左右滑动查看。3.文章中只给出了部分关键代码，如需全部代码可访问我的Github获取：https://github.com/luliu-fighting/Statistical-Learning-Method。代码为之前复现李航的《统计学习方法》的代码，注释没改。

1.前言

在前一篇文章中我们推导出了非线性可分支持向量机最优化问题的数学表达式：

其中变量的个数与样本点的个数是相等的，也就是求解的复杂度与训练集的样本个数是成正比的，当训练数据集容量很大时，求解过程会变得十分复杂。为了提高支持向量机的求解效率，Platt在1998年提出了「序列最小最优化」(sequential minimal optimization, SMO)算法。
SMO算法的基本思路是：将原来的最优化问题分解为若干个子最优化问题，每个子问题都是两个变量的最优化问题，其他变量是固定的可以看作是常量；子问题的求解是比较简单的，因为子问题可以通过解析方法求得具体的值。当所有的变量的解都满足此最优化问题的KKT条件时，那么此时的解就是要求的最优化问题的解。对于SMO算法为什么高效，我的理解是：SMO算法不是每次都对所有的变量进行优化，而是每次按照某种规则选择两个变量进行优化，当所有的解都满足KKT条件时，问题就求解完成了，无论训练样本个数即变量个数有多少，SMO算法每次都只优化更新两个变量。
SMO算法可以分为两个部分，一个是每次如何选取子问题的两个变量，另一个是选取的两个变量的子最优化问题的求解。下文将先讲子问题的求解，再讲变量的选取。

2.两个变量的子最优化问题的求解

2.1 的求解

假设此时已经根据变量的选择规则选出了变量和，注意这里的索引1并不是指的第一个分量，而是指被第一个选择出来要进行优化的分量，也就是说可以是中的任意分量。此时，其他变量可以视为常量，所以有：

其中为常数，于是我们可以写出子最优化问题的表达式：

在目标函数中，，代表一些不含的常数项，不影响最优化问题的求解。
由约束条件及可得：

将目标函数中的全部用代替可得：

设为对样本的预测标签值，即分离决策函数去掉了符号函数输出:

由此可以得出：

对求导数并令其等于0：

将

代入上式：

令：

则：

此时求得的仅仅是根据求导并令导数等于0得到的，还并未考虑到最优化问题的约束条件，其有可能不在约束条件的取值范围内，所以要得到最后的，还应该知道根据约束条件的取值范围。
根据约束条件和可知，的取值范围不仅与其本身有关，而且与有关。
（1）当时，因为有，所以有：

即

再结合自己的约束取交集可得：

其中：

（2）当时，有：

即

再结合自己的约束取交集可得：

其中：

将根据约束条件求得的的取值范围与前面求导得到的结合，就可以得到的更新公式：

根据公式：

可得的更新公式为：

至此，子最优化问题的解就得到了。
的更新过程代码如下：

            alpha2_new = self.alpha[i2] + self.trainlabel[i2]*(E1 - E2)/eta
            if alpha2_new < L:
                alpha2_new = L
            elif alpha2_new > H:
                alpha2_new = H
            #式（7.109）
            alpha1_new = self.alpha[i1] + self.trainlabel[i1]*self.trainlabel[i2]*(self.alpha[i2] - alpha2_new)

2.2 常数b的求解

当时，根据KKT条件可知：

所以：

由

可得：

于是可得：

同样，当时可以得到：

当并且时，和是相同的，所以，但是若是0或时，二者就不再相等，这时应取二者的平均值，其实在前一种情况中也是取二者的平均值，因为二者是相同的，所以的更新公式就是：

参数b的更新过程代码如下：

            b1_new = -E1 - self.trainlabel[i1] * self.k[1, 1] * (alpha1_new - self.alpha[i1]) - \
                     self.trainlabel[i2] * self.k[2, 1] * (alpha2_new - self.alpha[i2]) + self.b
            #式（7.116）
            b2_new = -E2 - self.trainlabel[i1] * self.k[1, 2] * (alpha1_new - self.alpha[i1]) - \
                     self.trainlabel[i2] * self.k[2, 2] * (alpha2_new - self.alpha[i2]) + self.b

            if 0 < alpha1_new < self.C:
                b_new = b1_new
            elif 0 < alpha2_new < self.C:
                b_new = b2_new
            else:
                # 选择中点，P148倒数第二段
                b_new = (b1_new + b2_new) / 2

3.变量的选择方法

SMO算法在每个子问题中选择两个变量进行优化，其中至少一个变量时违反KKT条件的(具体可参考李航《统计学习方法》P128，需要pdf版的可以私聊获取)。

3.1 第一个变量的选择

选择第一个变量的过程为外层循环，外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第一个变量。即检验样本是否满足KKT条件(由李航《统计学习方法》P128推出来的)：

其中。
在检验过程中，外层循环首先遍历在间隔边界上的样本点，即的样本点,因为这些点比较容易违反KKT条件；如果这些点都满足KKT条件，再遍历剩下的点。判断是否符合KKT条件的代码如下：

 #判断样本是否满足KKT条件，用于SMO中第一个变量的选择
    def isSatisfyKKT(self, i):
        y_g = self.calcGxi(i) * self.trainlabel[i]
        #式（7.111）-式（7.113）
        if (self.alpha[i] == 0) and (y_g >= 1):
            return True
        elif (0 < self.alpha[i] < self.C) and (y_g == 1):
            return True
        elif (self.alpha[i] == self.C) and (y_g <= 1):
            return True
        else:
            return False

3.2 第二个变量的选择

选择第二个变量的过程为内层循环，假设外层循环已经找到第1个变量，内层循环则是要找到第二个变量。第二个变量的选择标准时希望能使有足够大的变化。在前面的推导中，我们可以看到是依赖于的，当较大时，的更新速度也会较快，这样就加快了计算速度。所以在选择第二个样本点时，可以使的值最大的。因为已经确定了，这样的值就确定了。如果是正的，那么选择最小的作为，如果是负的，那么选择最大的作为，这样就能最大化了，因为在每次迭代中都需要判断的值，所以可以将所有值保存在一个列表中，当然，在每次迭代后，因为和都变了，因此也需要对列表进行更新。计算的代码如下：

    #计算g(xi)
    def calcGxi(self, i):
        #式（7.104）
        gxi = self.b
        for j in range(self.m):
            #在“7.2.3支持向量”开头第一句话有说到“对应于α > 0的样本点
            # (xi, yi)的实例xi称为支持向量”。也就是说只有支持向量的α是大于0的，在求和式内的
            # 对应的αi*yi*K(xi, xj)不为0，非支持向量的αi*yi*K(xi, xj)必为0，也就不需要参与
            # 到计算中。也就是说，在g(xi)内部求和式的运算中，只需要计算α>0的部分，其余部分可
            # 忽略。因为支持向量的数量是比较少的，这样可以再很大程度上节约时间
            # 从另一角度看，抛掉支持向量的概念，如果α为0，αi*yi*K(xi, xj)本身也必为0，从数学
            # 角度上将也可以扔掉不算
            if self.alpha[j] == 0:
                continue
            else:
                gxi += self.alpha[j] * self.trainlabel[j] * self.k[j, i]

        return gxi

    #计算序列最小最优化算法的（SMO）中的E(i)
    def calcEi(self, i):
        #式（7.105）
        return self.calcGxi(i) - self.trainlabel[i]

两个变量的选择过程代码如下：

#SMO中两个变量的选择
    def getAlpha(self):
        #根据P147的中间那段话
        #先找出满足条件0<alpha[i]<C的样本点，检验是否满足KKT条件
        index_list = np.array([i for i in range(self.m) if 0 < self.alpha[i] < self.C])
        #如果index_list中的样本均满足KKT条件，则遍历剩下的样本点，检验是否满足KKT条件
        index_other = np.array([i for i in range(self.m) if i not in index_list])
        index = np.hstack([index_list, index_other])
        for i in index:
            #在Debug过程中发现hstack指令会将int型变为float型，所以要进行调整
            i = int(i)
            if self.isSatisfyKKT(i):
                continue
            #选择样本中违反KKT条件最严重的样本点作为第一个变量
            E1 = self.E[i]
            #根据P147倒数第二段选择第二个变量
            if E1 >= 0:
                j = self.E.index(min(self.E))
            else:
                j = self.E.index(max(self.E))
            return i, j

4.参考资料

1.李航《统计学习方法》
2.https://www.jianshu.com/p/eef51f939ace 3.https://zhuanlan.zhihu.com/p/248862271
4.https://github.com/Dod-o/Statistical-Learning-Method_Code 5.https://github.com/fengdu78/lihang-code