游戏攻略网
当前位置: 首页 游戏攻略

支持向量机svm的优势和缺点(机器学习Support)

时间:2023-07-08 作者: 小编 阅读量: 1 栏目名: 游戏攻略

机器学习SupportSupportVectorMachines支持向量机Created:Apr14,20205:28PM什么是支持向量机?支持向量机是一个分类算法,它的目标不仅是分类数据,而且寻找最大界线提高模型的鲁棒性。

Support Vector Machines 支持向量机

Created: Apr 14, 2020 5:28 PM

什么是支持向量机?

支持向量机是一个分类算法,它的目标不仅是分类数据,而且寻找最大界线。提高模型的鲁棒性。

大家可以思考以下,下面两条黄色和绿色的线,哪一条线更好? 虽然两条线都可以把红色的点和蓝色的点分开,但是对比之后,我们发现黄色的线离点的距离更远,所以左边的线更好。

分类问题就是我们要找到一条线把红色和蓝色的点分开,我们还想更近一步,让这条线尽可能离这些点远,所以我们可以再增加两条线,然后尝试使这两条线之间的距离间隔最大化。

目标函数

支持向量机算法不仅要求正确的分类,而且要求它的间隔最大,所以我们就有两个衡量指标,一个是分类错误的指标,一个是间隔的指标

ERROR = CLASSIFICATION ERRORMARGIN ERROR

分类误差

下面图的分类问题,线的方程是wx b=0,然后再在线的两侧在加两条线形成间隔,即

wx b=1和wx b=-1,我们不希望两条中间有任何点,我们把这些点看成是误分类的点,

我们可以通过下图计算除误差Error=1.5 3.5 0.5 2 3 0.3=10.8

间隔误差

我们可以使用梯度下降法将误差最小化,我们需要编写一个函数,使得在间隔最大的情况下误差最小,以及在间隔小的情况下误差最大。为什么这样做的原因是我们想获得尽可能大的间隔模型。

公式为:

下面我们举例来说明,我们可以根据公式计算除第一个模型的Margin更大是2/5,Error更小是25,另外一个的Margin更小是1/5,Error更大是100

如何计算间距?

这里我们可以定义W=(w1, w2)和x= (x1, x2),所以Wx=w1x1 w2x2

三条线的方程是:

为了找到第一条线和第三条线之间的距离,我们只要找到第一条和第二条之间的距离,然后乘以2。

我们可以平移这两条线,使一条线经过原点。方程就变成

第一条线的方程Wx = 0,这意味着它与红色的向量W=(w1,w2)正交(垂直)

我们假设(p, q)是该向量与Wx=1相交的点,即蓝色的点,因为(p,q) 在该向量上,所以可以得到如下的公式,(p,q)是(w1,w2)的倍数,我们假设是k倍。

将(p,q)= k(w_1,w_2)带入第一个方程就有:

所以蓝色点的向量是w/|w|2,两条之间的距离是蓝色向量的范数。

因此总距离为2/|W|

SVM C参数 松弛变量

我们看一种特殊情况,下图中那一条线更好?这个要看具体情况而定,比如在医学模型中,我们希望它尽量准确无误,所以我们选择右边的模型,其他情况下我们选择左边,即使有一个被错误分类了,但是它的间隔更大。根据不同的需求,我们的选择也不同。所以我们加入了参数C

Error = C*Calssification Error Margin Error

完全可分的情况我们称为硬间隔,当存在不完全可分的情况,我们称为软间隔。

拉格朗日乘子法

目标函数:

拉格朗日Lagrange乘子法

Lagrange函数

引入拉格朗日的目标函数为:

求L对于w,b的偏导数,并等于0

核方法

线性不可分的情况下,用核函数将样本投射到高维空间,使其变成可分的情况,

多项式核方法

对与下图的样本,我们无法找到一条直线来把蓝色和红色点分开。我们可以把它转化为关于平面的二维问题,增加一个y轴。我们可以创建一个抛物线, 然后把点移到抛物线上。我们可以找到y=4这条线把蓝色和红色的点分开

核函数就像一个工具箱,对于线性核,我们的工具就只有x,y,我们寻找任何关于这两个变量的线性组合方程式。如果我们把它扩展为一个多项式核函数,我们的工具箱就由x,y,xy,x2,y2,我们可以创建很多核函数,例如⚪x2 y2=1,双曲线xy=1,抛物线y=x2。我们在数据上增加一些维度,寻找一个更高维度的表面,然后投射到平面上形成曲线。

RBF核或径向基核函数

我们要想分离这些点,同样没有一条直线可以做到这点,我们在这画一个小山脉,把这些点移到山脉上,

我们就可以找到这几条线可以把他们区分开,然后再回到原来的线上,就得到的分界线。

我们假设这里有三座山,每个点上有一个,我们可以使用向量记录这座山的高度,第一个点的第一座上高是1,第二座和第三座的高度是0.8和0.2,注意,每个点上构建的山的高度值中都有一个1,。我们把这三个向量绘制在三维空间。

他们就像三个基向量,我们在三维空间就可以把他们分开。

我们可以选择一种径向基函数,是选择陡峭的还是平缓的。我们可以在他们的映射中看到,陡峭可能导致过拟合,平缓有可能欠拟合。

如何选择呢,我们用到高斯分布。sigma和曲线的宽度有关,sigma越大,曲线越宽, sigam越小,曲线越窄。

高维空间

优缺点

优点

- SVM的主要优势是训练相对容易。 与神经网络不同,没有局部最优

- 非线性SVM使用非线性内核。 非线性SVM意味着算法计算的边界不必是直线。 好处是捕获数据点之间复杂的情况,不必执行困难的转换。 缺点是训练时间长得多,因为它需要大量的计算。

- SVM具有正则化参数,可以帮助避免过度拟合。

- 在高维空间有效。

- 在维数大于样本数的情况下仍然有效。

- 在决策函数中使用训练点的子集(称为支持向量),因此它还可以提高内存效率

缺点

- 与Logistic回归分类器不同,SVM不直接提供概率估计。

- 在许多分类问题中,你实际上希望获得类成员身份的概率

- 求解模型的参数难以解释。

- 对大型数据集的培训时间长

- 选择一个“好的”内核可能很棘手。

LR与SVM区别

相同点:

1、都是分类算法,都是监督学习

2、如果不考虑核函数,LR和SVM都是线性分类算法

3、LR和SVM都是判别模型

不同点:

1、本质上是loss函数不同,或者说分类的原理不同。

2、支持向量机只考虑局部的边界线附近的点,而逻辑回归考虑全局(远离的点对边界线的确定也起作用,虽然作用会相对小一些)。

3、在解决非线性问题时,支持向量机采用核函数的机制,而LR通常不采用核函数的方法。

4、SVM计算复杂,但效果比LR好,适合小数据集;LR计算简单,适合大数据集,可以在线训练。

5、线性SVM依赖数据表达的距离测度,所以需要对数据先做normalization,LR不受其影响

    推荐阅读
  • steam棋牌游戏推荐(幸运之夜新版本亮相TGC)

    steam棋牌游戏推荐12月1日,2017腾讯游戏嘉年华正式在成都开幕,腾讯的VR社交游戏《幸运之夜》在现场发布了最新版本。VR《幸运之夜》在TGC2017上惊艳亮相《幸运之夜》新版本发布邀请好友一起游戏今年7月底,《幸运之夜》正式在Steam发布,并推出了首款游戏作品“德州扑克”。今年的TGC2017现场,《幸运之夜》全新版本便带来了对互动性方面的提升。

  • 儿童睡前故事卖火柴的小女孩大全(卖火柴的小女孩)

    在长发公主的故事里,兔子小姐变成了手持宝剑的骑士,穿过了山川和河流,战胜了地狱恶犬,最终救出了长着一头金黄色长发的熊猫先生。随着一阵空间的波动,熊猫先生和兔子小姐来到了冰天雪地的圣诞节。小女孩被这突如其来的变化惊呆了。熊猫先生没有回答,轻轻摸了摸小女孩的头。小女孩点燃了第二根火柴。熊猫先生和兔子小姐则来到壁炉前,商量起小女孩最后一个愿望。熊猫先生蹲下来,握起小女孩的手。

  • 怎样做ppr管快一点(PPR管安装方法及技巧)

    怎样做ppr管快一点PPR管安装方法及技巧首先准备好需要的材料:热熔机,小剪刀,ppr管,管件,手巾。一定要根据自己热熔ppr管的口径,准备相应的热熔头。清洁:清洁管材与管件的焊接段部位,建议用95%浓度酒精擦净。在熔接时间内迅速的将管材无旋转的垂直插入管件中,并维持5秒以上,然后按相应冷却时间冷却。热熔后做到横平竖直,美观大方。

  • 大托特包搭配技巧(大托特包搭配技巧简述)

    西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄搭配撞色托特包,优雅而不失俏皮,让气场变得灵动起来内搭白色连帽卫衣,减龄又可爱,接下来我们就来聊聊关于大托特包搭配技巧?大托特包搭配技巧西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄。衬衫+托特包白色的衬衫休闲慵懒,给人一种空灵的感觉以及干净纯粹的气质。

  • 刘涛电视剧口碑(电视剧景气指数第一)

    还记得3月份刘涛在和周渝民主演的《大宋宫词》中扮嫩出演少妇被很多观众吐槽。万万没想到时隔数月,刘涛带着她的新剧《星辰大海》杀回来了。目前主要的剧情线在刘涛饰演的女主简爱身上。因为小时候意外发现母亲出轨的事,得知真相的父亲激愤之下杀死母亲并自杀,简爱因此成为了一个孤女。逃出傻子家的简爱在与姑姑的争执中误伤姑姑,从此开启逃命生涯。简爱从面馆辞职走投无路,误打误撞进入大公司之后面临着同事的故意刁难。

  • 外墙装修材料有哪些 外墙装修材料有哪些类型

    外墙涂料具有装饰性良好、耐污染耐老化以及施工维修容易和价格合理的特点。一般来说釉面外墙砖有亚光面与无光面两大类。它的装饰的效果也不错,有柚木色、深灰色等等可供选择。由于它的表面的肌理很清晰,所以色泽漂亮且装饰性极强。本站,中国知名大型装修平台,装修领导品牌。

  • 世界上有哪些花(世界上有哪些花 名字)

    瓜叶菊、香豌豆、夏兰、石竹、石蒜、荷花、翠菊、睡莲、福禄考、晚香玉、万寿菊、千日红、建兰、铃兰、报岁兰、香堇、大岩桐、水仙、小草兰、瓜叶菊、蒲包花、免子花、入腊红、三色堇、百日草、鸡冠花、一串红。孔雀草、大波斯菊、金盏菊、非洲凤仙花、菊花、非洲菊、观赏凤梨类、射干、非洲紫罗兰、天堂鸟、炮竹红、菊花、康乃馨、红掌、满天星、星辰花、三角梅、虞美人。

  • 长歌行李长歌母亲是谁杀的(长歌行李长歌的简介)

    下面更多详细答案一起来看看吧!长歌行李长歌母亲是谁杀的《长歌行》李长歌母亲是自杀的。李长歌,太子李建成之女,生母则是回纥王族。父母手足均死于玄武门之变,满怀愤恨的长歌凭高超武艺逃出皇宫,并在追捕过程中制造“坠崖假死”而逃生,其后女扮男装隐瞒身份流落民间,一心只想为父母复仇,在家和国的利害冲突中,最后放弃复仇,和阿诗勒隼一起成为了民族和解的使者。

  • 什么时候喝蛋白粉增肌效果最好(什么时候喝蛋白粉增肌效果最好)

    从长远来看,这种方法被证明可以促使肌肉明显增长。如果摄入量超过一定的阈值,蛋白质的合成就会受限。如果是以乳清饮料的形式摄入乳清蛋白,运动者可以在运动结束后立即饮用。按每公斤体重1克的标准,在健身前后立即摄入以及在运动后1小时内摄入可快速吸收的碳水化合物,可以明显抑制肌肉分解,并大大促进肌肉快速和明显的增长。在这种情况下,大量分泌的胰岛素促进了氨基酸向工作中的肌肉运输,为蛋白质合成奠定基础。

  • 窦骁周冬雨山楂树之恋结局(周冬雨18岁第一次出演)

    周冬雨18岁第一次出演要说最近最火的电影,非《少年的你》莫属,上映14天,已经收获了12.45亿的票房成绩,成为现阶段最强的票房黑马而作为该片主演的周冬雨和易烊千玺,也凭借在该片中的精彩演出,演技得到大众的进一步认可作为“。