第二章统计学习理论与支持向量机算法

1 引言引言

研究生特色精品课程 - 机器学习

统计学习理论讨论的是基于数据的机器学习问题• 研究如何从一些观测数据 ( 样本 ) 出发得出目前尚不能通过

原理分析得到的规律，即基于观测设计优化过程，然后利用这些规律去分析客观对象，对未来数据或无法观测的数据进行预测。

• 主要任务：对于一种未知的依赖关系，以观测为基础对它进行估计。

2.1 2.1 引言引言


现有机器学习方法共同的重要理论基础之一是统计学

• 传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有学习方法也多是基于此假设。

• 但在实际问题中，样本数往往是有限的，因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。


统计学习理论 (Statistical Learning Theory 或SLT )

• 是一种专门研究小样本情况下机器学习规律的理论

• Vladimir N. Vapnik 等人从六、七十年代开始致力于此方面研究，到九十年代中期，随着其理论的不断发展和成熟，也由于神经网络等学习方法在理论上缺乏实质性进展 , 统计学习理论开始受到越来越广泛的重视。


• 统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。

• 在这一理论基础上发展了一种新的通用学习方法——支持向量机 (Support Vector Machine或 SVM ) ，它已初步表现出很多优于已有方法的性能。


2 统计学习理论统计学习理论


经典的统计基础存在两个理论缺陷• 没有对经验风险最小化原则下统计学习的一致性进行分析，

不能保证经验风险的最小值 ( 或下确界 ) 收敛到 ( 或依概率收敛到 ) 期望风险的最小值 ( 或下确界 ) 。

• 大数定律描述的是一个极限过程，不对收敛速度进行分析，那么在样本数目有限的情况下，以频率代替概率 ( 均值代替期望 ) 并不一定能得到好的近似。

2.2 2.2 统计学习理论的形成与发展统计学习理论的形成与发展


• 针对这两个问题，统计学习理论从理论上系统地分析经验最小化原则成立的条件，建立了学习过程收敛速度的界，进而提出了小样本归纳推理原则，并给出控制学习过程的推广能力的方法。

• 到 20 世纪 90 年代，统计学习理论已基本成熟。 1995 年，Vapnik 完成专著《 The Nature of Statistical Learning Theory 》，这是统计学习理论走向成熟和得到正式承认的标志。


围绕学习问题的一般过程统计学习理论分成从理论围绕学习问题的一般过程统计学习理论分成从理论向实践渐进的向实践渐进的 44 个部分个部分• 学习过程一致性的理论

– 一个基于经验风险最小化原则的学习过程，满足怎样的条件时，它的经验风险与实际风险趋向一致。在分类问题中存在对应的充分必要条件，而对拟合问题目前仅存在充分条件。

• 学习过程收敛速度的理论 – 如果学习过程的经验风险与实际风险趋向一致，那么它

们间的接近速度随着训练样本数的增加，是如何变化的，哪些因素控制着它们接近的速度。


• 控制学习过程泛化能力的理论– 采用前两部分的结论改进学习过程，认为结构风险最小

化原则，而不是最小化原则，可以使学习过程的经验风险与实际风险经验风险最终并且尽可能快地趋向一致。

• 构造学习算法的理论采用前三部分的结论 – 在分类和拟合问题中构造现实的学习算法。它遵循结构

风险最小化原则从而较传统算法有更好的泛化能力。支持向量机 SVM 是基于该理论最早实现的，也是目前最有影响的分类回归算法之一。


学习过程的一致性及收敛速度• 学习过程可以一般地表示如下

设有定义在空间 Z 上的概率测度 F(Z) ，考虑函数的集合 Q(z,a), a（为任意集合，它可以为一个标量集、向量集或抽象元素集）学习的目的是最小化风险泛函

R(a) Q(z, a)dF(z)， a （ 2.1）其中概率测度 F(Z) 未知，但给定了一定的独立同

分布样本 z1,… , zt （ 2.2）这种一般问题就是在经验数据（ 2.2）基础上最

小化风险泛函（ 2.1）式其中 z 代表了数据对 (x, y)， Q(z, a) 就是特定的损失函数


• 为了在未知的分布函数 F(Z) 下最小化（ 2-1）式的风险泛函，可以把风险泛函 R(a) 替换为经验风险泛函

（ 2.3） 1

1( , )

n

emp ii

R Q z an

• 令风险泛函的最小函数为 Q(z, a0) ，经验风险泛函的最小函数为 Q(z, al ) 。使用经验风险（ 2.3）式最小的函数 Q(z, al )逼近使风险（ 2.1）式最小的函数 Q(z, a0) ，这一原则称作经验风险最小化（ Empirical Risk Minimization, ERM ）归纳原则。


• 定义 2.1 一致性：如果下面两个序列依概率收敛于同一个极限，即

（ 2.4）（ 2.5）

则 ERM 原则对函数集 Q(z,a), a 和概率分布函数 F(z)是一致的。

( ) inf ( )Pn n a

R a R a

( ) inf ( )Pemp n n a

R a R a


• 定理 2.1 设函数集 Q(z,a), a 满足条件 AQ(z,a)dF(z) (AR(a)B)

那么 ERM 原则一致性的充分必要条件是经验风险 Remp(a) 在函数集 Q(z,a),a 上在如下意义下一致收敛于

实际风险 R(a) ：（ 2.6）

其中 P 为概率，则把这种一致收敛称作一致单边收敛。

lim sup 0empn a

P R a R a

0.


• 定义 2.2 随机变量序列

， n=1,2,…, （ 2.7）

这一随机变量序列既依赖于概率测度 F(z), 也依赖于函数集 Q(z,a), a ，称之为一个双边收敛过程。

1

1sup ( , ) ( ) ( , )

n

ia i

Q z a dF z Q Z an


学习理论的关键定理（定理学习理论的关键定理（定理 2.12.1 ）） • 从概念的角度看，这个定理是十分重要的，因为它指出了

ERM 原则一致性的条件是必要地（和充分地）取决于函数集中“最坏”的函数的。

• 在传统的统计学中，并没有考虑是否存在一致单边收敛的问题。

• 一致单边收敛是在一个新概念的基础上得到的，这个新概念叫做在 n 个样本上函数集 Q(z,a), a 的熵。


• 定义 N^( z1,…, zn ) 代表用指示函数集 Q(z,a), a 中的函数能够把给定的样本分成多少种不同的分类。则称 H^(z1,…, zn ) = ln N^(z1,…, zn ) 为随机熵 , 它描述了函数集在给定数据上的多样性。

• 考虑随机熵在联合分布函数 F(z1,…, zn ) 上的期望； H^(n) =E ln N^(z1,…, zn )（其中 E 为数学期望），把这个量称作只是函数集 Q(z,a), a 在数量为 n 的样本上的熵，它依赖于函数集 Q(z,a), a 、概率测度以及观测数目 n ，反映了给定指示函数集在数目为 n 的样本上期望的多样性。


在在 N^( z1,…, zn ) 值基础上构造两个新概念值基础上构造两个新概念 • 退火的 VC 熵

• 生长函数 1( ) ln ( , , )ann nH n EN z z

1( ) ln sup ( , , )nG n N z z


• 在指示函数集 Q(z,a), a 可测性的一定条件下，一致双边收敛的充分条件是

（ 2.8）

它描述了 ERM 原则一致性的一个充分条件这一等式是学习理论中的第一个里程碑，所有最小化经验风险的机器都要满足这一条件。

0

( )lim 0n

H n

n


• 等式（ 2.9）

是风险收敛速度快的一个充分条件。这一等式是学习理论的第二个里程碑，它保证了收敛有快的渐近速度。

0

( )lim 0ann

n

H n

n


• 等式（ 2.10）

给出了对任何概率测度 ERM 具有一致性的充分必要条件；而且，如果这个条件成立，则收敛的速度是快的。

0

( )lim 0n

G n

n

• 等式（ 2.10）就是学习理论中的第三个里程碑，它描述了在什么充分必要条件下，一个履行 ERM 原则的学习机器有一个快的收敛的渐近速度，而不管所用的概率测度如何（即不管所要解决的问题如何）


函数集的函数集的 VCVC 维维 • VC 维描述了组成学习模型的函数集合的容量，也就是说刻画了此函数集合的学习能力。

• VC 维越大，函数集合越大，其相应的学习能力就越强。


• 定义 2.3 指示函数集的 VC维：一个指示函数集 Q(z,a), a的 VC维是能够被集合中的函数以所有可能的 2h 种方式分成两类的向量 z1,…, zh 的最大数目 h 。

• VC维是统计学习理论中的一个核心概念，它是目前为止对函数集学习性能的最好描述指标。


• 它的另一个等价直观的定义是：– 假如存在一个有 h个样本的样本集能够被一个函数集中

的函数按照所有可能的 2h 种形式分为两类，则称函数集能够把样本数为 h的样本集打散。

– 指示函数集的 VC维就是用这个函数集中的函数所能够打散的最大样本集的样本数目。也就是说，如果存在 h个样本的样本集能够被函数集打散，而不存在有 h +1个样本集能够被函数集打散，则函数集的 VC维就是 h。

– 如果对任意的样本数，总能找到一个样本集能够被这个函数集打散，则函数集的 VC维就是无穷大。


• 如在二维实数空间 R2 ，函数集为有向直线集。则对一给定有向直线，空间中的数据点被直线分为两类。直线方向如图 2.1 中箭头所示，位于直线正方向一侧的数据点为一类，位于直线负方向一侧的数据点为另一类。在二维实数空间R2 中，找不到有向直线集不能够打散的由三个数据点构成的点集

图 2.1 在二维空间 R2 中被有向直线打散的三个点


• 但能找到有向直线集不能够打散的由四个数据点构成的点集

图 2.2 在二维空间 R2 中不能被有向直线打散的四个点

• 因此，此二维实数空间 R2 中的有向直线集的 VC维是 3 。


• 定理 2.2 任何生长函数它或者满足等式G(n)=nln 2

或者受下面的不等式约束：

其中 h 是一个整数，使得当 n＝ h 时有 G (h)=hln 2

G (h+1)<(h+1)ln2.

即生长函数或者是线性的，或者以一个对数为上界。

1 1 ln 2G h h


• 定义 2.4 如果指示函数集 Q(z,a), a 的生长函数是线性的则这个函数集的 VC维是无穷大。如果指示函数集 Q(z,a), a 的生长函数以参数为 h 的对数函数为界，则这个指示函数集的 VC维是有限的且等于 h 。


• 定理 2.3 对具有有限 VC维 h 的指示函数集 Q(z,a), a 如下两不等式成立：– 1. 一致双边收敛速度不等式

（ 2.11）式中 ε*=(ε-1/ n)

– 2. 一致相关收敛速度不等式

（ 2.12）不等式 (2.11)， (2.12) 给出了遵循 ERM准则的学习机器的泛化能力的与分布无关的界。

*2

1

1 (1 ln(2 / ))sup ( , ) ( ) ( , ) 4exp

n

ia i

h n hP Q z a dF z Q z a n

n n

*21

1( , ) ( ) ( , )

(1 ln(2 / ))sup 4exp

( , ) ( )

n

ii

a

Q z a dF z Q z ah n hn

P nnQ z a dF z


• 则遵循 ERM准则的有界函数集 0Q(z,a)B,a 的风险以1-η 的概率满足不等式：

（ 2.13）式中：

式 (2.13) 表明，经验风险最小化原则下学习机器的实际风险是由两部分组成的，可以写作：

（ 2.14）

4 ( )( )( ) ( ) 1 1

2 ( )emp

emp

R aB nR a R a

B n

(ln 2 / 1) ln / 4( ) 4

h n hn

n

( ) ( )emp

nR a R a

h


结构风险最小化结构风险最小化• 传统机器学习方法中普遍采用的经验风险最小化原则在样

本数目有限时是不合理的 , 因此，需要同时最小化经验风险和置信范围。

• 统计学习理论提出了一种新的策略 , 即把函数集构造为一个函数子集序列 , 使各个子集按照 VC维的大小排列 ; 在每个子集中寻找最小经验风险 , 在子集间折衷考虑经验风险和置信范围 , 取得实际风险的最小。这种思想称作结构风险最小化 (Structural Risk Minimization) ，即 SRM准则。


• 把函数集 S= {Q(z,a), a} 分解为一个函数子集序列 S1 S2…Sk ……S （ 2.15）式中 Sk= {Q(z,a), ak} ，且

• 考虑容许结构（ Admissible Structures）满足如下特性：– 函数集 S 中任何一个子集 Sk的 VC维是有限的； – 任何一个子集 Sk包含 ①有界函数集 0Q(z,a) Bk , a 或者 ②存在一对值，使得一个非负函数集 Q(z,a), a 满足如下不等式

（ 2.16）

– 函数集 S 中集合在 L1(F) 度量空间中是处处紧致的。

F=F(z) 是关于 z 的概率分布函数。

kk

S S

( , )p

( , )sup

( , )k

pp

ka

EQ z a

EQ z a


由式（由式（ 2.152.15 ），有如下结论成立：），有如下结论成立： • 各子集 Sk的 VC维 hk 随着 k 的增加按非递减规律排列

h1h2…hk …

• 各子集 Sk 的界 Bk 随着 k 的增加按非递减规律排列B1B2…Bk …

• 各子集 Sk 的界 τk 随着 k 的增加按非递减规律排列 τ

τ1τ2…τk …


则函数集 Sk 中函数 Q(z, ) 的实际风险至少以概率 1-η 满足（ 2.17）

或（ 2.1

8）

式中（ 2.1

9）

kna

4 ( )( ) ( ) ( ) 1 1

( )

kemp nk k

n emp n k kk

R aR a R a B n

B n

( )( )

1 ( ) ( )

kemp nk

n

k k

R aR a

a p n

(ln(2 / ) 1) ln( / 4)( ) 4 k k

k

h n hn

n


• 这样，在同一个子集中置信范围就相同：在每一个子集中寻找最小经验风险，通常它随着子集复杂度的增加而减小。选择最小经验风险与置信范围之和最小的子集，就可以达到期望风险的最小。这个子集中使经验风险最小的函数就是要求的最优函数，这种思想称作有序风险最小化或者结构风险最小化，如图 2.3所示。

图 2.3 结构风险最小化示意图

S1

S2

S3

真实风险的界

置信范围

经验风险

h


• 在 SRM 原则下，一个分类器的设计过程包括以下两方面任务：– 选择一个适当的函数子集（使之对问题来说有最优的分

类能力）；– 从这个子集中选择一个判别函数（使经验风险最小）。

• 第一步相当于模型选择，而第二步则相当于在确定了函数形式后的参数估计。

• 与传统方法不同的是，在这里模型的选择是通过对它的推广性的界的估计进行的。


3 支持向量机支持向量机


在统计学习理论基础上发展起来的一种新的机器学习方法 • 1992 年， Boser， Guyon和 Vapnik 等人在《 A Training Algorithm for

Optimal Margin classifiers 》一书中，提出了最优边界分类器算法，这也是支持向量机算法的最初模型

• 1993 年， Cortes和 Vapnik在《 The Soft-Margin Classifier 》一书中，进一步探讨了非线性情况下的最优边界分类问题

• 1995 年， Vapnik 在发表的《 The Nature of Statistical Learning Theory 》一书中，完整地提出了基于统计学习理论的支持向量机学习算法

• 1997 年， Vapnik， Gokowich和 Smola 发表的《 Support Vector Method for Function Approximation， Regression Estimation． and Signal Processing 》一文中，详细介绍了基于支持向量机方法的回归估计方法(Support Vector Regression， SVR) 和信号处理方法

2.3 2.3 支持向量机支持向量机


与其它传统的机器学习方法相比，与其它传统的机器学习方法相比， SVMSVM 主要有以下几个方主要有以下几个方面的特点：面的特点：• 以严格的数学理论 ( 统计学习理论 ) 为基础，克服了传统神经网络学习中靠经

验和启发的先验成分等缺点。 • 采用了结构风险最小化原则，克服了传统神经网络中只靠经验风险最小化来估

计函数的缺点，提高了置信水平，克服了过学习等问题，使学习机器有良好的泛化能力。

• 通过求解凸二次规划问题，可以得到全局的最优解，而不是传统神经网络学习中的局部最优解，保证了解的有效性。

• 用内积的回旋巧妙地构造核函数，克服了特征空间中的维数灾难问题，通过非线性映射，只需在原空间中计算样本数据与支持向量的内积，而不需要知道非线性映射的显性表达形式。

• 成功地解决了小样本学习问题，克服了传统上需要以样本数目无穷多为假设条件来推导各种算法的缺点，得到了小样本条件下的全局最优解。

• 通过引入 VC维的概念，使网络的收敛速度、样本被错分的界和风险泛函得到了控制。


支持向量机的发展支持向量机的发展

• 理论基础不断拓展 – 统计学习理论作为支持向量机的理论平台，逐渐获得完善和丰富

– 正则化理论成为指导支持向量机参数选择和支持向量核函数的重要思想

– 贝叶斯理论成为构造支持向量机模型的一个理论基础– 在对支持向量机所呈现的解具有稀疏性的研究上，稀逼

近理论渐渐成为支持向量机分析的一个直观工具



• 实现算法不断改进 – 在训练算法优化方面，分块训练思想将大的二次规划问

题分解为一系列小的二次规划问题，从而简化了算法的运行成本

– 序列最小优化训练思想是分块训练思想的一种极端情形，每次只针对含两个样本的二次规划问题进行求解。这样求出的解具有解析形式，同时避免了大规模二次优化问题中的不稳定性和复杂性问题

– 在对 SVM 算法改进方面，出现了一大批较好的变体算法，有 C-SVM 系列算法、 v-SVM 系列算法、

One-class SVM 算法、 RSVM 算法、 WSVM 算法和 LS—SVM 算法等



• 领域不断扩大 – 模式识别方面， SVM 和先验语义结合应用于文本分类，取得了较高的识别精度，在图像分类、图像分割、自动图形定位检测、遥感图像分析、蛋白质分类等方面也有很好的表现

– 回归估计方面， SVM 在时间序列预测和混沌系统的动态重构中表现出强大的优势

– 数据融合方面， SVM 已经应用于个人身份证的多模型数据融合、多信息源的融合、分布式数据融合以及遥感数据融合

– 除此之外， SVM 还在过程建模、系统辨识、非线性控制等方面显示了很好的工作能力


支持向量机的实现支持向量机的实现

• 台湾大学林智仁 (Chih-Jen Lin) 博士等开发设计了一个操作简单、易于使用、快速有效的通用 SVM 软件包（ LibSVM），可以解决分类问题（包括 C-SVC 、 n-SVC）、回归问题（包括 e-SVR、 n-SVR）以及分布估计（ one-class-SVM）等问题，提供了线性、多项式、径向基和 S 形函数四种常用的核函数供选择，可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。


• SVM 从线性可分情况下的最优分类面发展而来。• 最优分类面就是要求分类线不但能将两类正确分开 (训练错误率为 0),且使分类间隔最大。

• SVM考虑寻找一个满足分类要求的超平面 ,并且使训练集中的点距离分类面尽可能的远 ,也就是寻找一个分类面使它两侧的空白区域 (margin) 最大。

• 过两类样本中离分类面最近的点且平行于最优分类面的超平面上 H1,H2的训练样本就叫做支持向量。

支持向量机基本原理支持向量机基本原理


设线性可分样本集为

d 维向量， 2 类样本， y 为类别标签。则线性判别函数为

分类面方程为

)1,1(,,,,2,1),,( yRnny dii xx

bg xwx)(

0 bxw


作判别函数归一化，即满足 |g(x)|1 ，即距离分类面最近的样本距离为 |g(x)|=1 ，则两类的分类间隔为2/||w|| 。如图所示

2/||w||

H1

H

H2


• 令分类间隔 2/||w|| 最大，等价于 ||w|| 或者 ||w||2 最小，使得分类面对于所有的样本能正确分类，即满足

（ 2.20）则该分类面为最优分类面。

• 过两类样本中离分类面最近的点，且平行于最优分类面的超平面 H1,H2 上的训练样本则称为支持向量，显见，最优分类面是由支持向量来“支撑”的。

nibyi ,,2,1,01)( xw


最优分类面的求取最优分类面的求取由最优分类面的条件建立目标函数，为二次型

由满足条件作为约束条件（样本条件）

则有约束优化问题

wwww T 2

1

2

1)(

2

nibyi ,,2,1,01)( xw

niby

ww

i ,,2,1,1)(sub.2

1)(.min

2

xw


前面的最优分类面式在线性可分条件下推导出来的。不能应用于线性不可分情况。

约束条件 1 ：对于线性不可分情况，许多样本不能满足正确分类条件式

因此，增加松弛项，分类条件式为

（ 2.21）

nibyi ,,2,1,01)( xw

01)( ii by xw

0i

广义最优分类面广义最优分类面


约束条件 2 ：线性可分条件下的分类间隔最大，线性不可分时引入约束

在两个约束条件下对错分样本最小函数求极小值

kc2w


支持向量机的数学表达支持向量机的数学表达最优分类的优化函数

与最优分类函数

表达式中都含有内积运算

)(2

1)(

11jijij

n

ii

n

ii yyQ xx

*])(*sgn[*)*sgn()(1

bybf iii

n

i

xxxwx

)( xx i


如果将表达式中的内积运算由内积函数来代替，将原来的特征空间作非线性变换，则优化函数成为

最优分类函数成为

（ 2.23）则称为支持向量机

)(2

1)(

11jijij

n

ii

n

ii KyyQ xx

*])(*sgn[*)*sgn()(1

bKybf iii

n

i

xxxwx


• 类似一个 RBF 神经网络。输入层：

中间层：

基于 s 个支持向量的内积变换

dxxx 21x

)( xx iKsxxx ,,, 21

支持向量机的拓扑结构支持向量机的拓扑结构


输出层：（决策规则）

加权系数：

])(sgn[1

bKyy iii

n

i

xx

iii yw


• 核函数一般有多项式核、高斯径向基核、指数径向基核、多隐层感知核、傅立叶级数核、样条核、 B样条核等

核函数及参数选择核函数及参数选择


• 多项式形式核函数

（ 2.24）

• 径向基形式核函数

（ 2.25）

• S 形核函数（ 2.26）

常用的核函数常用的核函数

( , ) [( ) 1]d

i iK x x x x

2

2( , ) exp i

i

x xK x x

( , ) tanh( ( ) )i iK x x v x x c


• 目前，核函数种类以及核参数的选择依据尚没有定论，一般情况下都是凭经验选取。值得一提的是，由于径向基核函数对应的特征空间是无穷维的，有限的样本在该特征空间中肯定是线性可分的，因此径向基核是最普遍使用的核函数



• 理论分析与试验结果都表明， SVM 的性能与核函数的类型、核函数的参数以及正则化参数都有很大的关系，其中尤与核函数及其参数关系最大。在支持向量机训练算法中，参数值总是事先给定的，其值的好坏直接影响着预测精度的高低。因此，研究支持向量机参数值的选择，对支持向量机的应用与发展有很重要的实际意义。



• 然而，目前在理论上还没有足够的理论来指导如何选取有效的参数值。通常，人们通过大量的试验来获得较优的参数，这种方法比较费时，而且获得的参数也不一定是最优的。



确定特征空间（选择核函数）

确定经验风险（选择参数 C）

解凸优化问题

最优分类超平面

当前特征空间中风险上界是否最小

所有特征空间中风险上界是否最小

终止训练

否

否

是

是

图 2.5 支持向量机的训练过程


第 1 类

第 2 类

• 许多决策边界可以分割这些数据点出为两类

• 我们选取哪一个 ?

用于分类的用于分类的 SVMSVM 算法算法


第 1 类

第 2 类

第 1 类

第 2 类

坏的决策边界的例子坏的决策边界的例子


好的决策边界好的决策边界 : : 间隔大间隔大

• 决策边界离两类数据应尽可能远 – 最大化间隔 m

第 1 类

第 2 类

m

所谓最优分类线就是要求分类线不但能将两类正确分开，而且要使两类间的分类间隔 2/||w|| 最大。


将上述最优化问题转换成其对偶问题 :取 Lagrange函数 (2.27)

在鞍点上，解必须满足对w和 b的偏导数为 0 ，得

(2.28)

(2.29)

又由 Kuhn-Tucker 条件可知，最优超平面的充分必要条件是使分类超平面满足条件：

(2.30)

1

1( , , ) ( ) {[( ) ] 1}

2

n

i ii

L w b a w w x w b y

1

0n

i i ii

Lw y x

w

1

0n

i ii

Ly

b

{[( ) ] 1} 0i ix w b y


利用对偶原理，拉格朗日函数可转化为求解如下泛函的优化问题：

(2.31)

设为上面二次优化问题的解，则最优超平面中向量的模为：

(2.32)

最后得到的分类函数为：

(2.33)

1 , 1

1( ) ( )

2

n n

i i j i j i ji i j

Max W y y x x

1

0, 1, ,

. .0

i

n

i ii

i n

s ty

* * *1( , )n *w

2* * * *

1

2 ( ) ( )n

i j i j i ji

w w x x y y

* *

1

( ) sgn ( )n

i i ii

f x y x x b


具体算法步骤具体算法步骤 • Step1 ：设已知训练集

，其中，，；

• Step2 ：构造并求解最优化问题式（ 2-35 ），得到最优解；

• Step3 ：选择的一个分类，并据此计算

；

• Step4 ：由此计算求得决策函数

1 1( , ), , ( , ) ( )nn nT x y x y X Y

nix X R { 1, 1}iy Y 1, ,i n

* * *1( , )T

n

* *0 j C * *

1

( )n

j i i i ji

b y y x xa=

= - ×å

* *

1

( ) sgn ( )i

n

i ii

f x y x x b


虽然 SVM首先提出是针对于分类问题的，但是通过引入损失函数的概念 ,SVM 可以延伸推广到函数回归问题中来。

(2.36)

其中， ε 称为不敏感系数，用于控制拟合精度。

若为线性模型，即。假设所有训练样本都可以在精度 ε 下无误差地用线性函数拟合，考虑到允许拟合误差存在的情况，

类似于分类问题，引入松弛因子和，

(2.37)

用于回归的用于回归的 SVMSVM 算法算法

0, ( , )

, ( , ) ( , )

( , ) ,

i i

i i

y f x w

L y f x w y f x w

y f x w

其它

f

( , )f x w w x b

0i * 0i

*

,1, 2,

,i i i

i i i

y w x bi n

w x b y


SVM 的优化目标式 (2.34)变成最小化： (2.38)

其中，常数 C>0 ，用以控制松弛系数在目标函数中的作用。标准不敏感支持向量回归机可以表示为

(2.39)

建立 Lagrange 方程： (2.40)

2 *

1

1( )

2

n

i ii

J w C

2 *

1

1min ( )

2

n

i ii

w C

*

*

,

. . ,

, 0

i i i

i i i

i i

y w x b

s t w x b y

2* * *

1 1

* * * *

1 1

1( , , ) ( ) ( )

2

( ) ( )i

n n

i i i i i i i ii i

n n

i i i i i i ii i

L w w C y w x b

y w x b


参数，，和的偏导都应等于零，即

(2.41)

代入式 (2.38) ，得到对偶优化问题 (2.42)

求解： (2.49)

w b i *i

*

1

*

1

* **

( ) 0

( ) 0

0

n

i i ii

n

i ii

i ii

i ii

Lw x

w

L

b

LC

LC

* * *

, 1 1 1

*

1

*

1min ( )( ) ( , ) ( ) ( )

2

( ) 0. .

, [0, ]

n n n

i i j j i j i i i ii j i i

m

i ii

i i

K x x y y

s t

C

*( ) ( )( )i i iSV

f x x x b



，其中，，；

• Step2 ：选择适当的正数和；• Step3 ：构造并求解最优化问题 (2-41) ，得到最优解

； • Step4 ：构造决策函数

，其中 b由式 (2-47) 计算。

1 1( , ), , ( , ) ( )nn nT x y x y X Y

nix X R 1, ,i niy Y R

C

* * *1( , )T

n

*

1

( ) ( )( )n

i i ii

f x x x b


假设非线性模型为 (2.50)

则目标函数式 (2-42)变为 (2.51)

从而得到 (2.52)

非线性非线性 SVMSVM 算法算法 ( , ) ( )f x w w x b

* * *

, 1 1 1

*

1

*

1min ( )( )( ( ), ( )) ( ) ( )

2

( ) 0. .

, [0, ]

n n n

i i j j i j i i i ii j i i

m

i ii

i i

x x y y

s t

C

*

1

( ) ( )n

i i ii

w x


设核函数 K (x ,x') 满足 (2.53)

用 K (x ,x') 代替运算，则都可以统一转化成如下的二次优化问题：

(2.54)

则式 (2.33) 的分类判别函数和 (2-49) 的函数回归方程可以分别表示如下：

(2.55)

(2.56) 为与每个数据点对应的拉格朗日乘子，式（ 2.55）存在唯一解，其解中只有一少部分的不为 0 ，其对应的数据就是支持向量

, ,( , ) [ ( ) ( )]K x x x x

1 , 1

1( ) ( , )

2

n n

i i j i j i ji i j

max W y y K x x

1

0 , 1,

. .0

i

n

i ii

C i n

s ty

* *( ) sgn ( , )ii i

SV

f x y K x x b

*( ) ( ) ( )i i iSV

f x K x x b

*i i



，其中，，；

• Step2 ：选择适当的正数和，选择适当的核函数 K (x ,x') ；

• Step3 ：构造并求解最优化问题 (2-54) ，得到最优解；

• Step4 ：若是分类问题则构造决策函数（ 2.55 ），其中 ; 若是回归问题则构造决策函数（ 2.56 ），

其中 b 由式 (2-47) 计算。

1 1( , ), , ( , ) ( )nn nT x y x y X Y

nix X R 1, ,i niy Y R

C

* * *1( , )T

n

jiii

n

ij xxayayb

*

1

*


• 目前 SVM 的变形算法主要有 C-SVM 系列、 v-SVM 系列、One-class SVM、 RSVM、 WSVM和 LS-SVM 等。这些变形算法主要是通过增加函数项、变量或系数等方法使公式变形，产生出有某一方面优势或一定应用范围的算法。

变形的支持向量机算法变形的支持向量机算法


• 采用 SVM 方法求解最优分类问题，本质上是一个二次规划问题。对于海量数据 ( 样本数在 105～ 106 以上 ) ，常规的数值优化算法及软件已无法实现二次规划问题的求解。运行时间和计算内存是海量样本求解 SVM 的主要瓶颈。针对海量样本数据如何减少二次规划求解过程的计算时间和内存一直是 SVM 的研究热点，目前主要有以下 3 种方法。

优化的支持向量机算法优化的支持向量机算法


• Vapnik 提出了求解支持向量机二次规划问题的 “ Chunking” 算法，其依据是支持向量机最终的判决函数只与支持向量 (Lagrange乘子不等于零的训练样本 ) 有关，而与非支持向量 (Lagrange乘子等于零的训练样本 ) 无关。而大多情况下，特别是训练样本很多时，样本中绝大多数是非支持向量，这些非支持向量在计算和内存上占用了大量的资源，在优化的过程中，若每次迭代后只保留当前的支持向量，这将会节省大量的计算时间和内存空间。基于这一思想，“ Chunking” 的目标就是通过某种迭代方式逐步排除非支持向量。

ChunkingChunking 算法算法


• 具体的实现方法是，随机选择一小部分样本作为初始样本集进行 QP 问题（ Quadratic Programming Problem）求解，从结果中剔除非支持向量，并用训练结果对剩余样本进行检验，将不符合优化条件的样本( 或其中的一部分 ) 与当前的的支持向量合并成为一个新的 QP训练样本集，然后重新训练。如此重复下去直到获得最优结果。增量学习方法 (Incremental Learning) 本质上就是分块法。分块法求解规模随着SV 数量的增加而增加，尽管如此，在训练集的 SV 数目非常大时，块算法仍然无法将矩阵放入内存中，优化计算仍难以实现。

ChunkingChunking 算法算法


• 当支持向量的数目远远小于训练样本数目时，分块法显然能够大大提高运算速度。然而，如果支持向量的数目本身就比较多，随着算法迭代次数的增多，工作样本集也会越来越大，算法依旧会变得十分复杂。

• 因此，可把问题分解成为固定样本数的子问题 :工作样本集的大小固定在算法速度可以容忍的限度内，迭代过程中只是将剩余样本中部分“情况最糟的样本”与工作样本集中的样本进行等量交换，即使支持向量的个数超过工作样本集，也不改变工作样本集的规模，而只对支持向量中的一部分进行优化。

固定样本工作集方法固定样本工作集方法


• 固定工作样本集的方法和分块算法的主要区别在于 :分块算法的目标函数中仅包含当前工作样本集中的样本。而固定工作样本集方法中虽然优化变量仅包含工作样本，其目标函数却包含整个训练样本集，即工作样本集之外的样本的 Lagrange乘子固定为前一次迭代的结果，而不是像块算法中那样设为 0 。而且固定工作样本集方法还涉及到一个换出样本确定的问题 ( 因为换出的样本可能是支持矢量 ) 。这样，这一类算法的关键就在于找到一种合适的迭代策略使得算法最终能收敛并且较快地收敛到最优结果。

固定样本工作集方法固定样本工作集方法


• 在固定样本工作集算法的基础上，微软研究院的 John C ． Platt 提出的序列最小优化算法 (SMO) 。

• 将工作样本集的规模减到最小——两个样本。之所以需要两个样本是因为等式线性约束的存在使得同时至少要调整两个 Lagrange乘子。根据等式约束条件，两个样本对应的乘子变量可相互表示出来，所以迭代过程中每一步的子问题的最优解可以直接用解析的方法求出来。这样，算法避开了复杂的数值求解优化问题的过程。

SMO(Sequential Minimal Optimizition)SMO(Sequential Minimal Optimizition) 算法算法


• 修改支持向量机的二次规划形式，并在在所有样本的基础上求解一个大的二次规划问题，一次完成多类问题的分类。这种方法计算量很大，预测效果也并不理想，整体来说并不占优。

• 构造若干个的二分类器，并按照某种方式将它们组合起来实现多类问题的分类。

多分类的支持向量机算法多分类的支持向量机算法 --主要有两种


• 一对一的方法是在每两类不同的训练样本之间都构造一个最优决策面的二分类SVM ，将一个多类问题转化为多个二分类问题来求解

• 从样本集中取出所有满足与的样本点（其中 1 ≤ s,t ≤ k, s ≠ t ），通过二分类的 SVM 算法构造最优决策函数：

(2.62)

• 同样，对 k类样本中的每一对构造一个决策函数，所以一个类问题需要 k( k-1)/2个分类平面。

一对一支持向量机（一对一支持向量机（ 1-against-1 SVM1-against-1 SVM ））

iy s=iy t=

SV

stiististstst bxxKyabxwxf ),()()(


一对一支持向量机（一对一支持向量机（ 1-against-1 SVM1-against-1 SVM ））

• 1-against-1 SVM 方法每次投入训练的样本相对较少，所以单个决策面的训练速度较快，并且精度也较高。

• 该方法的确定是由于 k 类问题需要训练 k( k-1)/2 个决策面，当 k 较大的时候决策面的总数将会变的很多，直接影响到预测速度，这是一个有待改进的地方。


• 一对余类支持向量机（ 1-against-the rest SVM）是在一类样本与剩余的多类样本之间构造决策平面，从而达到多类识别的目的。

• 这种方法只需要在每一类样本和剩余样本之间产生一个最优决策面，而不用在两两之间都进行分类。因此如果仍然是一个 k 类问题的话，那么该方法仅需要构造 k 个分类平面 (k > 2) 。该方法其实也可以认为是两类 SVM 方法的推广。实际上它是将剩余的多类看成一个整体，然后进行 k次两类识别

一对余类支持向量机（一对余类支持向量机（ 1-against-the rest SVM1-against-the rest SVM ））


假设第 j 类样本看作正类 ( j = 1,2,…, k) ，而将其它 k −1 类样本看作负类，通过两类 SVM 方法求出一个决策函数：

(2.63)

具体方法具体方法

SV

jiij

ijj bxxKyabxwxf ),()()(

n

iii

bwsCw

1

2

,, 2

1minmin

stiii fibxwyts ,2,1,01))((..

n

i

n

i

n

jjijijiiD xxKyyaaaL

1 1 1

),(2

1max

ii Csats 0..

n

iii ya

1

0


一对余类支持向量机（一对余类支持向量机（ 1-against-the rest SVM1-against-the rest SVM ））

• 相比较 1-against-1 SVM， 1-against-the rest SVM 方法构造的决策平面数大大减少，因此在类别数目 k较大时，其预测速度将比 1-against-1 SVM方法快许多，但同时预测的准确率也会有所下降。

• 不过，由于它每次构造决策平面都会用上全部的样本集，所以其训练的时间并不比 1-against-1SVM 短。


决策树算法（决策树算法（ DAGSVMDAGSVM ））

• 与 1-against-the rest SVM 和 1-against-1SVM 两种方法不太一样， DAGSVM 是通过排除在每层节点处对不符合要求的类别，进而最后得到样本所属的类别。



• DAGSVM 的训练阶段和 1-against-1 SVM 的步骤一样，首先从 k(k −1) / 2 个分类决策面中任意选取一个，不妨设为，然后将未知样本 x 代入该决策函数进行判定：若在此决策函数中 x 被判定为第 s 类，那么将所有与第 t 类样本相关的决策函数全部删除，然后从剩下的与第 s 类样本相关的分类决策面中任取一个重复以上步骤；若是被判定为第 t 类，方法也是完全类似。依此类推，直到决出样本 x 的最终类别。

stf



• 和 1-against-1 SVM 方法不同的是，由于在每个节点预测的时候同时排除了许多类别的可能性，因此预测的时候用到的总分类平面只有 k -1 个，比 1-against-1 SVM 要少很多，预测速度自然提高不少。

• 但 DAGSVM 算法也有其不足之处。正由于它采取的是排除策略，那么最开始的判定显得尤为重要，如果在开始阶段就决策错误的话，那么后面的步骤都没有意义了。

stf


支持向量机聚类算法支持向量机聚类算法 • 聚类就是将数据库中的数据进行分组 , 使得每一组内

的数据尽可能相似而不同组内的数据尽可能不同。• 支持向量机聚类（ Support Vector Clustering， SV

C）是一个使用支持向量机技术的算法，也是近年来受关注度很高的一种聚类技术，通过其算法的不断改进和参数的优化选择，聚类的精确度以及速度都得到了很大提高。


支持向量机聚类支持向量机聚类 • 支持向量聚类就是在无监督的环境下，使用支持向量技术进行类别学习的算法

• SVC 的基本思想是：将样本点经过一个非线性映射 Φ映射到一个高维特征空间，并在此空间中寻找一个包围所有样本点且具有最小半径的超球，将该球体逆映射回原输入空间，位于球表面的点即为支持向量


支持向量机优化过程支持向量机优化过程• Step1 ：给定数据集，其中。设 a 是特征空间

中包含了所有数据的最小超球体球心， R 是超球体半径， ξi 是松弛因子， Φ 是从原空间到特征空间的非线性映射， SVC软间隔目标优化函数为：

（ 2.64）

• Step2 ：将其转化为 Lagrange函数：

（ 2.65）其中，它们作为 Lagrange乘子，将两个约束条件引入了目标函数。 C衡量半径和松弛因子之间比重。

1 2, , , nx x x nix R

n

iiCR

1

2min

0,)(.. 2 iii Raxts

n

i

n

i

n

iiiiiii axRCRL

1 1 1

222 ))((

0,0 ii


支持向量机优化过程支持向量机优化过程 • Step3 ：对 R， a和 ξi 分别求偏导，并根据 KTT 条件，消去 R， a及 γ ，再转换成 Wolfe 对偶形式，得到关于 βi的目标为：

（ 2.66）

• Step4 ：设 K为 Gaussian核函数， K(x, y)=exp(-q·||x-y||2)， q 为尺度参数。那么 K(x, x) = 1 ，同时由约束中的第一个条件，可将优化目标的进一步简化为：

（ 2.67）

n

ijii

n

i

n

jjiji xxKxxK

11 1

),(),(min

n

iii Cts

1

0,1..

n

i

n

jjiji xxK

1 1

),(min

n

iii Cts

1

0,1..


• 满足 ξi= 0， βi= 0 的点位于超球体内，是位于簇的内部的点。

• 满足 ξi= 0， 0<βi< C 的点位于超球体球面上，称为非限定的支持向量 (non-bounded Support Vectors, nbSVs), 它们描述了数据簇的轮廓。

• 满足 ξi>0， βi=C 的点位于超球体外，称为限定的支持向量 (bounded Support Vectors,bSVs) ，即孤立点。

支持向量机优化过程支持向量机优化过程


nbSVs

描述数据簇轮廓

bSVs

孤立点

-4 -3 -2 -1 0 1 2 3 4

-1.5

-1

-0.5

0

0.5

1

1.5

图 2.9 支持向量聚类



• Step5 ：设 β*是 (2-65) 的解，则代入 β* 可求出点 x 到球心的距离：

（ 2.68）

在 R(x) 中代入某一 nbSV ，可求出超球体半径 R 。

• 以上为 SVC 的优化阶段，其结果是得到了描述数据簇轮廓支持向量。若要完成聚类任务，还需进行下面的聚类标识过程。

n

i

n

jjiji

n

iji xxKxxKxR

1 1

**

1

*2 ),(),(21)(



聚类标识过程 • 聚类标识就是如何将数据划分成几个簇。如果两

个输入点属于同一个簇，那么在高维空间中，这两个点连线上的所有点都不会位于球外。


• Step6 ：簇划分阶段从本步骤开始。此时首先需构造邻接矩阵 A ：

（ 2.69）

其中表示和之间的连线，当此连线全部位于超球体内，则判定和属于同一个簇。为此需判断连线上的所有点是否位于超球体内，用随机取样方法近似

这一判断过程，即在到的连线段上任取若干点，只要有一个点位于超球体外，则令。 ix

otherwise

RyRxxpathyA ji

ij 0

)(),,(1

( , )i jpath x x ix jx

jx

0ijA =

聚类标识过程


• Step7： A 对应了数据集的连通状态图，计算此图上的连通分量，每一连通分量表示了一个簇。

聚类标识过程


• SVC 的重要参数有两个： C和 q 。– 参数 C 为惩罚系数，它影响着 SVC 算法对噪声的容忍程度。 C 值越大越不允许噪声的出现，当 C>1 时，边界曲线会包含所有的样本点，而不会有落在球外之点出现。

– 参数 q 为高斯核函数的宽度因子，它影响了聚类的紧密度以及聚类数目。 q 越大，聚类越模糊， q 越小，聚类越精细。

参数选择


4 本章小结本章小结


• 机器学习长久以来是一门经验科学，研究人员往往更关心实用算法，而忽视了对理论的研究。

• Vapnik《统计学习理论》的建立，使得机器学习逐渐成为一门真正的科学。

本章小结本章小结


• 支持向量机方法是建立在统计学习理论的 VC维理论和结构风险最小原则基础之上的，根据有限的样本信息在模型的复杂性 ( 即对特定训练样本的学习精度， Accuracy) 和学习能力 ( 即无错误地识别任意样本的能力 ) 之间寻求最佳折衷，以期获得最好的推广能力。

• 它基本上不涉及概率测度及大数定律等，因此不同于以往的统计方法。

• 从本质上看，它避开了从归纳到演绎的传统过程，实现了高效的从训练样本到预测样本的“转导推理” (transductive inference) ，大大简化了通常的分类和回归等问题。

本章小结本章小结


支持向量机主要优点：支持向量机主要优点： • 它是专门针对有限样本情况的，其目标是得到现有信息下

的最优解，而不仅仅是样本数趋于无穷大时的最优值，能有效地避免过学习现象的产生；

• 算法最终转化成为一个二次型寻优问题，从理论上说，得到的将是全局最优点，从而有效地解决了在神经网络方法中无法避免的局部极值问题；

• 通过引入核技术，将实际问题通过非线性变换转换到高维的特征空间 (feature space) ，在高维特征空间中构造线性判别函数来实现输入空间中的非线性判别函数，同时它巧妙地解决了维数问题，其算法复杂度与样本维数无关。


• 支持向量机算法某些理论解释并非完美无缺；

• 当样本规模较大时，训练算法的收敛速度还是仍然较慢，难以保证较高的实时性要求；

• 核函数的选择，以及核参数的确定，尚无理论上的依据；

• 对模式分类来说，支持向量机本质上属于两类分类算法，在多类分类问题上，支持向量机还存在构造学习机器及分类效率低的缺点。

支持向量机主要不足：支持向量机主要不足：


本章完

第二章 统计学习理论与 支持向量机算法

Documents

第二章统计学习理论与支持向量机算法