支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM的目的就是想要画出一条线,以“最好地”区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM适合中小型数据样本、非线性、高维的分类问题。
SVM最早是由Vladimir N. vapnik和Alexey ‘Ya.Chervonenkis在1963年提出,目前的版本(soft margin)是由Corinna Cortes和Vapnik在1993年提出,并在1995年发表。深度学习(2012)出现之前,SVM被认为机器学习中近十几年来最成功,表现最好的算法。
1.1 SVM基本概念
将实例的特征向量(以二维为例)映射为空间中的一些点,如下图的实心点和空心点,它们属于不同的两类。SVM的目的就是想要画出一条线,以“最好地”区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。
1.2 hard-margin SVM
2.实例演示
2.1基于sklearn包实现通过svm算法绘图的功能
- from sklearn import svm
- import numpy as np
- import matplotlib.pyplot as plt
-
- #准备训练样本
- x=[[1,8],[3,20],[1,15],[3,35],[5,35],[4,40],[7,80],[6,49]]
- y=[1,1,-1,-1,1,-1,-1,1]
-
- ##开始训练
- clf=svm.SVC() ##默认参数:kernel='rbf'
- clf.fit(x,y)
-
- #print("预测...")
- #res=clf.predict([[2,2]]) ##两个方括号表面传入的参数是矩阵而不是list
-
- ##根据训练出的模型绘制样本点
- for i in x:
- res=clf.predict(np.array(i).reshape(1, -1))
- if res > 0:
- plt.scatter(i[0],i[1],c='r',marker='*')
- else :
- plt.scatter(i[0],i[1],c='g',marker='*')
-
- ##生成随机实验数据(15行2列)
- rdm_arr=np.random.randint(1, 15, size=(15,2))
- ##回执实验数据点
- for i in rdm_arr:
- res=clf.predict(np.array(i).reshape(1, -1))
- if res > 0:
- plt.scatter(i[0],i[1],c='r',marker='.')
- else :
- plt.scatter(i[0],i[1],c='g',marker='.')
- ##显示绘图结果
- plt.show()
2.2 核函数的实现
- from sklearn import svm
- import numpy as np
- import matplotlib.pyplot as plt
-
- ##设置子图数量
- fig, axes = plt.subplots(nrows=2, ncols=2,figsize=(7,7))
- ax0, ax1, ax2, ax3 = axes.flatten()
-
- #准备训练样本
- x=[[1,8],[3,20],[1,15],[3,35],[5,35],[4,40],[7,80],[6,49]]
- y=[1,1,-1,-1,1,-1,-1,1]
- '''
- 说明1:
- 核函数(这里简单介绍了sklearn中svm的四个核函数,还有precomputed及自定义的)
-
- LinearSVC:主要用于线性可分的情形。参数少,速度快,对于一般数据,分类效果已经很理想
- RBF:主要用于线性不可分的情形。参数多,分类结果非常依赖于参数
- polynomial:多项式函数,degree 表示多项式的程度-----支持非线性分类
- Sigmoid:在生物学中常见的S型的函数,也称为S型生长曲线
- 说明2:根据设置的参数不同,得出的分类结果及显示结果也会不同
-
- '''
- ##设置子图的标题
- titles = ['LinearSVC (linear kernel)',
- 'SVC with polynomial (degree 3) kernel',
- 'SVC with RBF kernel', ##这个是默认的
- 'SVC with Sigmoid kernel']
- ##生成随机试验数据(15行2列)
- rdm_arr=np.random.randint(1, 15, size=(15,2))
-
- def drawPoint(ax,clf,tn):
- ##绘制样本点
- for i in x:
- ax.set_title(titles[tn])
- res=clf.predict(np.array(i).reshape(1, -1))
- if res > 0:
- ax.scatter(i[0],i[1],c='r',marker='*')
- else :
- ax.scatter(i[0],i[1],c='g',marker='*')
- ##绘制实验点
- for i in rdm_arr:
- res=clf.predict(np.array(i).reshape(1, -1))
- if res > 0:
- ax.scatter(i[0],i[1],c='r',marker='.')
- else :
- ax.scatter(i[0],i[1],c='g',marker='.')
-
- if __name__=="__main__":
- ##选择核函数
- for n in range(0,4):
- if n==0:
- clf = svm.SVC(kernel='linear').fit(x, y)
- drawPoint(ax0,clf,0)
- elif n==1:
- clf = svm.SVC(kernel='poly', degree=3).fit(x, y)
- drawPoint(ax1,clf,1)
- elif n==2:
- clf= svm.SVC(kernel='rbf').fit(x, y)
- drawPoint(ax2,clf,2)
- else :
- clf= svm.SVC(kernel='sigmoid').fit(x, y)
- drawPoint(ax3,clf,3)
- plt.show()
2.3 线性分类函数:LinearSVC()
- from sklearn import svm
- import numpy as np
- import matplotlib.pyplot as plt
-
- ##设置子图数量
- fig, axes = plt.subplots(nrows=1, ncols=2,figsize=(7,7))
- ax0, ax1 = axes.flatten()
-
- #准备训练样本
- x=[[1,8],[3,20],[1,15],[3,35],[5,35],[4,40],[7,80],[6,49]]
- y=[1,1,-1,-1,1,-1,-1,1]
-
- ##设置子图的标题
- titles = ['SVC (linear kernel)',
- 'LinearSVC']
-
- ##生成随机试验数据(15行2列)
- rdm_arr=np.random.randint(1, 15, size=(15,2))
-
- ##画图函数
- def drawPoint(ax,clf,tn):
- ##绘制样本点
- for i in x:
- ax.set_title(titles[tn])
- res=clf.predict(np.array(i).reshape(1, -1))
- if res > 0:
- ax.scatter(i[0],i[1],c='r',marker='*')
- else :
- ax.scatter(i[0],i[1],c='g',marker='*')
- ##绘制实验点
- for i in rdm_arr:
- res=clf.predict(np.array(i).reshape(1, -1))
- if res > 0:
- ax.scatter(i[0],i[1],c='r',marker='.')
- else :
- ax.scatter(i[0],i[1],c='g',marker='.')
-
- if __name__=="__main__":
- ##选择核函数
- for n in range(0,2):
- if n==0:
- clf = svm.SVC(kernel='linear').fit(x, y)
- drawPoint(ax0,clf,0)
- else :
- clf= svm.LinearSVC().fit(x, y)
- drawPoint(ax1,clf,1)
- plt.show()
借鉴https://www.cnblogs.com/lc1217/p/6639448.html