位置: IT常识 - 正文

【机器学习】支持向量回归

编辑:rootadmin
【机器学习】支持向量回归

推荐整理分享【机器学习】支持向量回归,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

有任何的书写错误、排版错误、概念错误等,希望大家包含指正。

在阅读本篇之前建议先学习: 【机器学习】支持向量机【上】硬间隔 【机器学习】支持向量机【下】软间隔与核函数

支持向量回归

支持向量回归(support vector regression,SVR)是指,将支持向量机的思想推广到回归问题中。与传统回归模型类似,支持向量回归以 www 和 bbb 为待确定的模型参数,希望模型输出 f(x)f(x)f(x) 与真实输出 yyy 之间的差值对应的损失尽可能小;不过,在传统回归模型中,当且仅当 f(x)f(x)f(x) 与 yyy 完全相同时,损失才为零,与此不同,支持向量回归假设我们容忍 f(x)f(x)f(x) 与 yyy 之间最多有 ϵ\epsilonϵ 的偏差,即仅当 f(x)f(x)f(x) 与 yyy 之间的差别绝对值大于 ϵ\epsilonϵ 时才计算损失。如图 111 所示,这相当于以 f(x)f(x)f(x) 为中心,构建了一个上边界和下边界分别为 f(x)+ϵf(x) +\epsilonf(x)+ϵ 和 f(x)−ϵf(x)-\epsilonf(x)−ϵ 的“管道”,ϵ\epsilonϵ 为人为固定值且 ϵ>\epsilon>0ϵ>0,若训练样本落入此管道内,则认为被预测正确。

图 1    支持向量回归示意图

注意观察和理解图 111 与参考 [3] 中图 111 的区别。

本图中样本用同样的圆形表示,而它图中分别用 +++ 和 −-− 表示正、负两种样本,这体现了回归问题与分类问题的本质区别;本图中横轴表示样本特征,纵轴表示样本对应的预测值,描述的样本是一维的,而它图中横、纵坐标分别表示不同的特征,描述的样本是二维的。

支持向量回归也大致可以分为,硬间隔 SVR、软间隔 SVR 和核函数 SVR。

硬间隔 SVR 适合样本全部落在管道内;软间隔 SVR 适合少量样本落在管道外;核函数 SVR 适合非线性分布的样本。

重点讲解软间隔 SVR,另外两个相对简单。

软间隔支持向量回归

对于软间隔支持向量回归而言,我们不要求样本分布得非常贴近一条线,允许少量样本出现偏差,即噪声,而大部分点可以落在管道内。与软间隔支持向量机类似,软间隔支持向量回归也引入松弛变量。每个样本 (xi,yi)(x_i,y_i)(xi​,yi​) 对应两个松弛变量 ξ^i\hat\xi_iξ​i​ 和 ξi\xi_iξi​,分别表示向上松弛量和向下松弛量。当样本 (xi,yi)(x_i,y_i)(xi​,yi​) 位于上边界上方(above),那么该样本将贡献损失,即 yi−(f(xi)+ϵ)y_i - \big(f(x_i)+\epsilon\big)yi​−(f(xi​)+ϵ),超出上边界的(纵轴方向)距离也就是 ξ^i\hat \xi_iξ​i​,故对于落在上边界上方的样本有 yi−(f(xi)+ϵ)=ξ^iy_i - \big( f(x_i) + \epsilon \big)=\hat \xi_iyi​−(f(xi​)+ϵ)=ξ​i​,而且直观上,此时不可能存在向下的松弛,所以 ξi=\xi_i=0ξi​=0;类似地,对于落在下边界下方的样本有 (f(xi)+ϵ)−yi=ξi\big( f(x_i) + \epsilon \big) - y_i=\xi_i(f(xi​)+ϵ)−yi​=ξi​ 且 ξ^i=\hat \xi_i = 0ξ​i​=0;对于落在管道内的样本,显然不存在向上或向下的松弛,所以 ξ^i=ξi=\hat \xi_i = \xi_i = 0ξ​i​=ξi​=0,同时这些样本不贡献损失。不难总结,每个样本带来的损失可以统一表示为 ξ^i+ξi\hat \xi_i + \xi_iξ​i​+ξi​,因此全部样本贡献的损失为 ∑i=1nξ^i+ξi\sum_{i=1}^n \hat \xi_i + \xi_i∑i=1n​ξ​i​+ξi​。

观察图 111 发现,上、下边界的欧式距离可以表示为 2ϵ/∥w∥2+12\epsilon/\sqrt{\Vert w \Vert^2 + 1}2ϵ/∥w∥2+1​,当 ∥w∥\Vert w\Vert∥w∥ 越小时,划分超平面倾斜程度越小,上下边界的欧式距离越大,当 ∣∣w∣∣=||w||=0∣∣w∣∣=0 时距离取到最大值 2ϵ2\epsilon2ϵ。直观上,距离越大,划分超平面越倾斜程度越小,管道覆盖面越大,所能容纳的样本越多,管道外的样本越少,带来的损失也可能减少。这与支持向量机中“最大间隔”的思想一致。

当然,严谨来说,“划分超平面越倾斜程度越小容纳的样本越多”的说法是不准确的,比如图 222 所示情况。对于同样的六个样本点,倾斜程度大的管道(左)反而损失值为零。

图 2    大倾斜程度管道(左)和小倾斜程度管道(右)

基于上面的松弛思想和最大间隔思想,目标函数为 12∥w∥2+C∑i=1n(ξ^i+ξi)\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i)21​∥w∥2+Ci=1∑n​(ξ​i​+ξi​) 其中,C>C>0C>0 称为惩罚(超)参数,一般根据应用问题人为决定,CCC 值越大对管道外样本的惩罚越大。

定义原始问题 min⁡w,b,ξ^i,ξi12∥w∥2+C∑i=1n(ξ^i+ξi)\min_{w,b,\hat \xi_i,\xi_i}\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) \\w,b,ξ​i​,ξi​min​21​∥w∥2+Ci=1∑n​(ξ​i​+ξi​)

s.t.yi−f(xi)≤ϵ+ξ^if(xi)−yi≤ϵ+ξiξ^i≥,    ξi≥,    i=1,2,…,n\begin{matrix} s.t. & y_i - f(x_i)\le \epsilon + \hat \xi_i\\ & f(x_i) - y_i \le \epsilon + \xi_i \\ & \hat \xi_i\ge 0,\space\space\space\space\xi_i\ge 0,\space\space\space\space i = 1,2,\dots,n \end{matrix}s.t.​yi​−f(xi​)≤ϵ+ξ​i​f(xi​)−yi​≤ϵ+ξi​ξ​i​≥0,    ξi​≥0,    i=1,2,…,n​

构建广义拉格朗日函数 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=12∣∣w∣∣2+C∑i=1n(ξ^i+ξi)−∑i=1nμ^iξ^i−∑i=1nμiξi+∑i=1nα^i(yi−f(xi)−ϵ−ξ^i)+∑i=1nαi(f(xi)−yi−ϵ−ξi)\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \frac{1}{2} ||w||^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon-\hat \xi_i) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon - \xi_i) \end{aligned}​L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​)=21​∣∣w∣∣2+Ci=1∑n​(ξ​i​+ξi​)−i=1∑n​μ​i​ξ​i​−i=1∑n​μi​ξi​+i=1∑n​αi​(yi​−f(xi​)−ϵ−ξ​i​)+i=1∑n​αi​(f(xi​)−yi​−ϵ−ξi​)​ 将 f(xi)=wTxi+bf(x_i) = w^Tx_i+bf(xi​)=wTxi​+b 代入,再令 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​) 对 www,bbb,ξ^i\hat \xi_iξ​i​ 和 ξi\xi_iξi​ 的偏导为零可得 w=∑i=1n(α^i−αi)xi(1-1)w = \sum_{i=1}^n(\hat \alpha_i - \alpha_i)x_i \tag{1-1}w=i=1∑n​(αi​−αi​)xi​(1-1)

=∑i=1n(α^i−αi)(1-2)0 = \sum_{i=1}^n (\hat \alpha_i - \alpha_i) \tag{1-2}0=i=1∑n​(αi​−αi​)(1-2)

C=α^i+μ^i(1-3)C = \hat \alpha_i + \hat \mu_i\tag{1-3}C=αi​+μ​i​(1-3)

【机器学习】支持向量回归

C=αi+μi(1-4)C = \alpha_i + \mu_i\tag{1-4}C=αi​+μi​(1-4)

将式 (1~1)∼(1~4)(1\text{\textasciitilde}1)\sim (1\text{\textasciitilde}4)(1~1)∼(1~4) 代入拉格朗日函数 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=(12∣∣w∣∣2+∑i=1nα^i(yi−f(xi)−ϵ)+∑i=1nαi(f(xi)−yi−ϵ))+(C∑i=1n(ξ^i+ξi)−∑i=1nμ^iξ^i−∑i=1nμiξi−∑i=1α^iξ^i−∑i=1αiξi)=(12∣∣w∣∣2+∑i=1nα^i(yi−f(xi))+∑i=1nαi(f(xi)−yi)−ϵ∑i=1n(α^i+αi))+(C∑i=1n(ξ^i+ξi)−(∑i=1nμ^iξ^i+∑i=1α^iξ^i)−(∑i=1nμiξi+∑i=1αiξi))=(12∣∣w∣∣2+∑i=1nyi(α^i−αi)−∑i=1n(α^i−αi)(wTxi+b)−ϵ∑i=1n(α^i+αi))+(C∑i=1n(ξ^i+ξi)−C∑i=1ξ^i−C∑i=1nξi)=(12∣∣w∣∣2+∑i=1nyi(α^i−αi)−(wT∑i=1n(α^i−αi)xi+b∑i=1m(α^i−αi))−ϵ∑i=1n(α^i+αi))+=12wTw+∑i=1nyi(α^i−αi)−(wTw+)−ϵ∑i=1n(α^i+αi)=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12wTw=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i -\sum_{i=1}\hat \alpha_i\hat\xi_i-\sum_{i=1} \alpha_i\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \big(\sum_{i=1}^n\hat \mu_i\hat \xi_i +\sum_{i=1}\hat \alpha_i\hat\xi_i\big) - \big(\sum_{i=1}^n\mu_i\xi_i +\sum_{i=1} \alpha_i\xi_i\big) \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \sum_{i=1}^n (\hat \alpha_i-\alpha_i)(w^Tx_i+b) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - C\sum_{i=1}\hat\xi_i - C\sum_{i=1}^n\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) -\big(w^T\sum_{i=1}^n (\hat \alpha_i-\alpha_i)x_i +b\sum_{i=1}^m (\hat \alpha_i - \alpha_i)\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + 0 \\ %%%% &=\frac{1}{2} w^Tw +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \big(w^Tw +0\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} w^Tw \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\ \end{aligned}​L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​)=(21​∣∣w∣∣2+i=1∑n​αi​(yi​−f(xi​)−ϵ)+i=1∑n​αi​(f(xi​)−yi​−ϵ))+(Ci=1∑n​(ξ​i​+ξi​)−i=1∑n​μ​i​ξ​i​−i=1∑n​μi​ξi​−i=1∑​αi​ξ​i​−i=1∑​αi​ξi​)=(21​∣∣w∣∣2+i=1∑n​αi​(yi​−f(xi​))+i=1∑n​αi​(f(xi​)−yi​)−ϵi=1∑n​(αi​+αi​))+(Ci=1∑n​(ξ​i​+ξi​)−(i=1∑n​μ​i​ξ​i​+i=1∑​αi​ξ​i​)−(i=1∑n​μi​ξi​+i=1∑​αi​ξi​))=(21​∣∣w∣∣2+i=1∑n​yi​(αi​−αi​)−i=1∑n​(αi​−αi​)(wTxi​+b)−ϵi=1∑n​(αi​+αi​))+(Ci=1∑n​(ξ​i​+ξi​)−Ci=1∑​ξ​i​−Ci=1∑n​ξi​)=(21​∣∣w∣∣2+i=1∑n​yi​(αi​−αi​)−(wTi=1∑n​(αi​−αi​)xi​+bi=1∑m​(αi​−αi​))−ϵi=1∑n​(αi​+αi​))+0=21​wTw+i=1∑n​yi​(αi​−αi​)−(wTw+0)−ϵi=1∑n​(αi​+αi​)=i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​wTw=i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​i=1∑n​i=1∑n​(αi​−αi​)(αj​−αj​)(xiT​xj​)​ 拉格朗日函数为 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​)=i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​i=1∑n​i=1∑n​(αi​−αi​)(αj​−αj​)(xiT​xj​) 可得到 SVR 的对偶问题 max⁡α^,α∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)\max_{\hat \alpha,\alpha} \sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j)α,αmax​i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​i=1∑n​i=1∑n​(αi​−αi​)(αj​−αj​)(xiT​xj​)

s.t.∑i=1n(α^i−αi)=≤α^i,αi≤C\begin{matrix} s.t. &\sum_{i=1}^n (\hat \alpha_i - \alpha_i) = 0\\ & 0\le \hat \alpha_i,\alpha_i \le C \end{matrix}s.t.​∑i=1n​(αi​−αi​)=00≤αi​,αi​≤C​

满足的部分 KKT 条件为 α^i(yi−f(xi)−ϵ−ξ^i)=(2-1)\hat \alpha_i (y_i - f(x_i) - \epsilon - \hat \xi_i)=0\tag{2-1}αi​(yi​−f(xi​)−ϵ−ξ​i​)=0(2-1)

αi(f(xi)−yi−ϵ−ξi)=(2-2)\alpha_i (f(x_i) - y_i - \epsilon - \xi_i)=0\tag{2-2}αi​(f(xi​)−yi​−ϵ−ξi​)=0(2-2)

(C−α^i)ξ^i=(2-3)(C-\hat\alpha_i)\hat\xi_i = 0 \tag{2-3}(C−αi​)ξ​i​=0(2-3)

(C−αi)ξi=(2-4)(C-\alpha_i)\xi_i = 0\tag{2-4}(C−αi​)ξi​=0(2-4)

式 (2~1)∼(2~4)(2\text{\textasciitilde}1)\sim(2\text{\textasciitilde}4)(2~1)∼(2~4) 为互补松弛条件。其中,(2~3)(2\text{\textasciitilde}3)(2~3) 和 (2~4)(2\text{\textasciitilde}4)(2~4) 分别运用了式 (1~3)(1\text{\textasciitilde}3)(1~3) 和 (1~4)(1\text{\textasciitilde}4)(1~4)。

这里四个等式带来的信息量非常大。根据式 (2~1)(2\text{\textasciitilde}1)(2~1) 可知,当 α^i≠\hat \alpha_i\ne0αi​​=0 时,yi−f(xi)−ϵ−ξ^i=y_i - f(x_i) - \epsilon - \hat \xi_i=0yi​−f(xi​)−ϵ−ξ​i​=0,样本 (xi,yi)(x_i,y_i)(xi​,yi​) 要么在管道的上边界上(lie on),对应 ξ^i=\hat \xi_i=0ξ​i​=0,要么在管道的上边界上方(above),对应 ξ^i>\hat \xi_i>0ξ​i​>0;当 αi≠\alpha_i\ne 0αi​​=0 时,根据式 (2~2)(2\text{\textasciitilde}2)(2~2) 可以推出类似的结果。但是 α^i\hat\alpha_iαi​ 和 αi\alpha_iαi​ 不能同时非零,即满足 α^iαi=\hat \alpha_i\alpha_i =0αi​αi​=0,这是因为两个限制 yi−f(xi)−ϵ−ξ^i=y_i - f(x_i) - \epsilon - \hat \xi_i = 0yi​−f(xi​)−ϵ−ξ​i​=0 和 f(xi)−yi−ϵ−ξi=f(x_i) - y_i - \epsilon - \xi_i=0f(xi​)−yi​−ϵ−ξi​=0 是不兼容的。可以这样证明:将两个式子相加得到等式 2ϵ+ξi+ξ^i=2\epsilon+\xi_i+\hat\xi_i=02ϵ+ξi​+ξ​i​=0,由于 ϵ>\epsilon>0ϵ>0,ξi≥\xi_i\ge 0ξi​≥0,ξ^i≥\hat \xi_i\ge0ξ​i​≥0,所以等式不成立,究其原因为两个限制不兼容。

⽀持向量是对于目标函数有贡献的样本,换句话说,就是那些使得 α^i≠\hat\alpha_i\ne0αi​​=0 或 αi≠\alpha_i\ne0αi​​=0 成立的样本,也就是 (α^i−αi)≠(\hat \alpha_i - \alpha_i) \ne 0(αi​−αi​)​=0 的样本。根据上面的讨论,我们可以知道 SVR 中的支持向量是位于管道上或者管道外的样本。

另外,可以根据式 (2~3)(2\text{\textasciitilde}3)(2~3) 和 (2~4)(2\text{\textasciitilde}4)(2~4) 可以讨论三种情况:① 当 αi=\alpha_i=0αi​=0 且 α^i≠\hat \alpha_i\ne 0αi​​=0 时,由 αi=\alpha_i=0αi​=0 可得 ξi=\xi_i=0ξi​=0,由 α^i≠\hat \alpha_i\ne0αi​​=0 可得 ξ^i≥\hat \xi_i\ge0ξ​i​≥0;② 当 αi≠\alpha_i\ne0αi​​=0 且 α^i=\hat \alpha_i= 0αi​=0 时,由 αi≠\alpha_i\ne0αi​​=0 可得 ξi≥\xi_i\ge0ξi​≥0,由 α^i=\hat \alpha_i=0αi​=0 可得 ξ^i=\hat \xi_i=0ξ​i​=0;③ 当 αi=α^i=\alpha_i = \hat \alpha_i = 0αi​=αi​=0 时,ξi=ξ^i=\xi_i = \hat \xi_i = 0ξi​=ξ​i​=0。这三种情况可以统一表示为 ξ^iξi=\hat \xi_i\xi_i = 0ξ​i​ξi​=0。巧妙的是,这四个等式带来的信息与我们本小节对松弛变量的直观理解不谋而合。

参数 bbb 可以这样得到:考虑一个满足 <αj<C0 < \alpha_j < C0<αj​<C 的样本。根据式 (2~4)(2\text{\textasciitilde}4)(2~4) 可知 ξj=\xi_j = 0ξj​=0,再根据式 (2~2)(2\text{\textasciitilde}2)(2~2) 可知一定有 f(xj)−yj−ϵ=f(x_j)-y_j-\epsilon=0f(xj​)−yj​−ϵ=0。将 f(xj)=wTxj+bf(x_j) = w^Tx_j+bf(xj​)=wTxj​+b 代入求解 bbb,同时将式 (1~1)(1\text{\textasciitilde}1)(1~1) 代入,得 b=yj+ϵ−wTxj=yj+ϵ−∑i=1n(α^i−αi)(xiTxj)(3)\begin{aligned} b &= y_j + \epsilon - w^Tx_j \\ &=y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)(x_i^Tx_j) \\ \end{aligned}\tag{3}b​=yj​+ϵ−wTxj​=yj​+ϵ−i=1∑n​(αi​−αi​)(xiT​xj​)​(3) 当然,也可以通过考虑一个满足 <α^j<C0 < \hat\alpha_j < C0<αj​<C 的样本,得到类似的结果。在实际应用中,更好的做法是对所有的这些 bbb 的估计进⾏平均。

使用训练好的模型进行预测也非常简单,根据式 (1~1)(1\text{\textasciitilde}1)(1~1) 计算出最优解 w∗w^*w∗,根据式 (3)(3)(3) 计算出最优解 b∗b^*b∗。预测函数为 f(x)=w∗Tx+b∗=∑i=1n(α^i−αi)(xiTx)+b∗(4)\begin{aligned} f(x) &= {w^*}^Tx + b^* \\ &= \sum_{i=1}^n (\hat \alpha_i - \alpha_i) (x_i^T x) + b^* \end{aligned} \tag{4}f(x)​=w∗Tx+b∗=i=1∑n​(αi​−αi​)(xiT​x)+b∗​(4)

另外,我们也可以从正则化的角度理解原始问题的目标函数,将 ∣∣w∣∣2||w||^2∣∣w∣∣2 视为正则化项,另一部分视为未引入正则化项的损失函数,这与软间隔支持向量机类似。

硬间隔与核函数支持向量回归

硬间隔认为全部的样本点都可以被容纳在 ϵ~\epsilon\text{\textasciitilde}ϵ~管道中,也就不存在松弛变量及其对应约束。求解过程与软间隔类似,甚至可以认为硬间隔是软间隔的一种特殊情况。

使用核函数的方法与支持向量机中使用核函数的方法一致,目的都是实现划分超平面非线性化,如图 333 所示。

图 3    核函数支持向量回归

若考虑特征映射式 (1~1)(1\text{\textasciitilde}1)(1~1) 对应 w∗=∑i=1n(α^i−αi)ϕ(xi)w^* = \sum_{i=1}^n (\hat \alpha_i - \alpha_i)\phi(x_i)w∗=i=1∑n​(αi​−αi​)ϕ(xi​) 式 (3)(3)(3) 对应 b∗=yj+ϵ−∑i=1n(α^i−αi)K(xi,xj)b^* =y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)K(x_i,x_j)b∗=yj​+ϵ−i=1∑n​(αi​−αi​)K(xi​,xj​) 式 (4)(4)(4) 对应 f(x)=∑i=1n(α^i−αi)K(xi,x)+b∗f(x) = \sum_{i=1}^n (\hat \alpha_i - \alpha_i) K(x_i, x) + b^*f(x)=i=1∑n​(αi​−αi​)K(xi​,x)+b∗

REF

[1]《Pattern Recognition and Machine Learning》

[2]《机器学习》周志华著

[3] 【机器学习】支持向量机【上】硬间隔_不牌不改的博客 - CSDN

[4] 【机器学习】支持向量机【下】软间隔与核函数 - CSDN

[5] 支持向量回归(Support Vector Regression) - CSDN

[6] 如何通俗易懂地解释支持向量回归(support vector regression)? - 知乎

本文链接地址:https://www.jiuchutong.com/zhishi/299584.html 转载请保留说明!

上一篇:计算机视觉OpenCV-图像直方图(计算机视觉opencv项目简单代码)

下一篇:大模型时代的“Linux”生态,开启人工智能新十年(大模型时代的自然语言处理)

  • b站直播入口在哪(b站直播入口在哪小说)

    b站直播入口在哪(b站直播入口在哪小说)

  • word纸型设置在哪(word中的纸型怎么设置)

    word纸型设置在哪(word中的纸型怎么设置)

  • i78550u是低端处理器吗(i78550u属于什么水平)

    i78550u是低端处理器吗(i78550u属于什么水平)

  • 监控用户名和密码忘了怎么办(监控用户名和密码在哪里看到)

    监控用户名和密码忘了怎么办(监控用户名和密码在哪里看到)

  • 中国第一台计算机(中国第一台计算机银河一号)

    中国第一台计算机(中国第一台计算机银河一号)

  • 怎么取消qq语音气泡(怎么取消qq语音后的滴)

    怎么取消qq语音气泡(怎么取消qq语音后的滴)

  • p40的相机多少倍(p40相机多少倍变焦)

    p40的相机多少倍(p40相机多少倍变焦)

  • 苹果电脑耳机孔在哪(苹果电脑耳机孔图片)

    苹果电脑耳机孔在哪(苹果电脑耳机孔图片)

  • 拼多多关闭拼小圈买东西别人能看到吗(拼多多关闭拼小圈后之前在拼小圈出现的还有吗)

    拼多多关闭拼小圈买东西别人能看到吗(拼多多关闭拼小圈后之前在拼小圈出现的还有吗)

  • 华为荣耀30pro返回键怎么设置(华为荣耀30pro返回键在哪里)

    华为荣耀30pro返回键怎么设置(华为荣耀30pro返回键在哪里)

  • 快手买的东西查不到订单是怎么回事(快手买的东西查询在哪里)

    快手买的东西查不到订单是怎么回事(快手买的东西查询在哪里)

  • qq群匿名投票发起者能看到吗(qq群匿名投票发起人能看到谁投的什么票么)

    qq群匿名投票发起者能看到吗(qq群匿名投票发起人能看到谁投的什么票么)

  • 电脑键盘失灵,打不出字,都是快捷键(电脑键盘失灵按什么键恢复)

    电脑键盘失灵,打不出字,都是快捷键(电脑键盘失灵按什么键恢复)

  • 双十一不发货怎么办(双十一买东西不发货)

    双十一不发货怎么办(双十一买东西不发货)

  • vivo x30参数(vivox30参数配置)

    vivo x30参数(vivox30参数配置)

  • 苹果11是玻璃背面吗(苹果11是玻璃背景吗)

    苹果11是玻璃背面吗(苹果11是玻璃背景吗)

  • 无线连接不可上网是什么意思(无线连接不可上网是什么原因)

    无线连接不可上网是什么意思(无线连接不可上网是什么原因)

  • 视频怎么下载到u盘里mp4格式(视频怎么下载到手机)

    视频怎么下载到u盘里mp4格式(视频怎么下载到手机)

  • 小米9陀螺仪怎么校准(小米陀螺仪怎么自动开启)

    小米9陀螺仪怎么校准(小米陀螺仪怎么自动开启)

  • ipad卸载软件怎么卸载(ipad卸载软件怎么样避免孩子安装)

    ipad卸载软件怎么卸载(ipad卸载软件怎么样避免孩子安装)

  • 拼多多频繁退款会封号吗(拼多多频繁退款会掉信誉值吗)

    拼多多频繁退款会封号吗(拼多多频繁退款会掉信誉值吗)

  • iphone11如何预定(iphone11怎么定时关机)

    iphone11如何预定(iphone11怎么定时关机)

  • 荣耀20s有nfc功能吗(华为荣耀20s手机nfc功能在哪里?)

    荣耀20s有nfc功能吗(华为荣耀20s手机nfc功能在哪里?)

  • qq签名怎么恢复默认(qq签名如何恢复)

    qq签名怎么恢复默认(qq签名如何恢复)

  • 手机收藏的视频在哪里找(手机收藏的视频在哪)

    手机收藏的视频在哪里找(手机收藏的视频在哪)

  • 抖音用户资料暂时被锁定什么意思(抖音用户资料暂时被锁定是被人投诉了吗)

    抖音用户资料暂时被锁定什么意思(抖音用户资料暂时被锁定是被人投诉了吗)

  • 用户体验改进计划可以关闭吗(用户体验改进计划在哪里关闭)

    用户体验改进计划可以关闭吗(用户体验改进计划在哪里关闭)

  • 小度可以连接几个手机(小度可以连接几个设备)

    小度可以连接几个手机(小度可以连接几个设备)

  • 捡到oppor17怎么解锁(捡到oppor17怎么解锁,刷机还要账户密码)

    捡到oppor17怎么解锁(捡到oppor17怎么解锁,刷机还要账户密码)

  • word隶书字体怎么设置(word2010隶书字体怎么设置)

    word隶书字体怎么设置(word2010隶书字体怎么设置)

  • 库乐队删除了如何找回(库乐队可不可以删除以前用过的音乐)

    库乐队删除了如何找回(库乐队可不可以删除以前用过的音乐)

  • free命令  显示系统内存使用量情况(free命令看到的内存)

    free命令 显示系统内存使用量情况(free命令看到的内存)

  • 个体工商户工商年报资金数额填啥
  • 申报未抄税
  • 赠与税是什么税种
  • 初中毕业可以考警察学校吗
  • 盘盈盘亏处理意见和建议
  • 买二手设备还需要备案吗
  • 增值税申报时有0.1元差额,怎么申报
  • 利润表中第3栏营业税金及附加等于什么
  • 火车票丢失可以抵扣进项税额
  • 非营利组织可以开发票吗
  • 购入商品入库
  • 财务报表层次重大错报风险增大了认定层次
  • 应付账款扣款怎么做账
  • 劳务报酬代扣代缴个人所得税怎么做账
  • 增值税附加税计入什么会计科目
  • 离职补偿金excel公式
  • 滞留发票一般怎么开具
  • 备用金 退款
  • 申报表b表去哪里申报
  • 对公账户转钱出来
  • linux查杀webshell
  • 股东不发工资只给员工钱
  • 苹果6手机蓝牙
  • 收支两条线是指
  • 汇算清缴后的会计分录
  • 设置系统自动更新一般通过什么窗口
  • PHP:mb_substitute_character()的用法_mbstring函数
  • 跳线和短接
  • git pull远程
  • php字符串定义
  • 个人之间股权转让印花税怎么交
  • 融资租赁与经营租赁的区别主要是
  • 其他应付款转营业外收入合法吗
  • 金融企业贷款损失准备金计提比例
  • 收汇金额和出口金额差额大怎么办
  • 多角度分析数据
  • array php
  • 投资性房地产如何计提折旧
  • php遍历结果集
  • anaconda3.5.2安装教程
  • spring获取bean的完全限定类名
  • 税控盘全额抵扣发票怎么勾选
  • 待报解预算收入待结算财政款项
  • dedecms怎么改图片
  • 办税人员可绑定银行卡吗
  • 劳务发票去哪里开
  • 事故赔偿给谁
  • 房地产企业土地增值税清算
  • 应收账款借方余额
  • 服务行业人工费一般控制在多少合适
  • 现金流量明细分类
  • 公司班车运费如何入账的
  • 收到的货款比实际货款多
  • 装修费一定要摊销吗
  • 企业外购的无形资产的成本包括
  • 建筑业建议
  • 坐车时的保险费怎么算
  • 固定资产折旧的影响因素
  • mysql免安装版怎么使用
  • dxva2.dll是什么意思
  • win10怎么转移文件到其他盘
  • Linux系统开源VPN Openvpn进程异常退出解决方法
  • cocos输入框
  • javascript RegExp 使用说明
  • 问题的英语怎么读
  • cocos2dx-3.1.1 labelttf与label
  • ContentProvider之通过ContentResolver获取图像、视频、音频举例
  • 删除rpm安装包
  • JavaScript事件处理的方式(三种)
  • js array api
  • 深入理解javascript pdf
  • css怎么控制图片位置
  • vue.js 开发工具
  • python3遍历
  • jquery获取table的tr
  • js proto prototype
  • javascript面向对象 第三方类库
  • 税控盘登录密码和口令
  • 回家税务总局全国增值税发票查询
  • 支付宝申领失业金申请审核多久
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设