支持向量机(SVM)是一种通过寻找最大化间隔的最优超平面来分类数据的监督学习算法,1. 使用核技巧处理非线性问题,2. 常见核函数包括线性、RBF、多项式和sigmoid,3. 在Python中可通过scikit-learn实现,适用于中小规模高维数据,需标准化输入并调优参数以提升性能。

支持向量机(SVM,Support Vector Machine)是一种常用于分类和回归任务的监督学习算法,在Python中被广泛应用。它通过寻找一个最优超平面来将不同类别的数据点分开,尤其擅长处理小样本、非线性及高维数据。
基本原理
SVM的核心思想是找到一个决策边界(超平面),使得不同类别之间的间隔(margin)最大。这个边界由距离最近的几个点决定,这些点被称为支持向量。SVM追求的是“最大化间隔”,而不是简单地分开数据,这使得模型具有更强的泛化能力。
- 对于线性可分问题,使用线性核直接划分。
- 对于非线性问题,SVM借助核技巧(kernel trick)将数据映射到高维空间,使其变得线性可分。
常见核函数
在Python的scikit-learn库中,SVM支持多种核函数,适应不同类型的数据:
- linear:线性核,适合特征多但样本少的情况。
- rbf(径向基函数):最常用,适用于大多数非线性场景。
- poly:多项式核,适合复杂结构,但计算成本较高。
- sigmoid:类似神经网络激活函数,使用较少。
Python中的实现方式
使用scikit-learn可以快速构建SVM模型。以下是一个简单的分类示例:
立即学习“Python免费学习笔记(深入)”;
from sklearn import svm from sklearn.model_selection import train_test_split from sklearn.datasets import make_classification from sklearn.metrics import accuracy_score生成模拟数据
X, y = make_classification(n_samples=100, n_features=2, n_redundant=0, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
创建SVM分类器(使用RBF核)
clf = svm.SVC(kernel='rbf') clf.fit(X_train, y_train)
预测并评估
y_pred = clf.predict(X_test) print("准确率:", accuracy_score(y_test, y_pred))
适用场景与注意事项
SVM适合中小规模数据集,对异常值较敏感,且训练时间随样本量增长较快。使用前建议:
- 对数据进行标准化(如StandardScaler),因为SVM基于距离计算。
- 合理选择核函数和参数(如C和gamma),可通过网格搜索优化。
- 避免在大规模样本(如超过10万条)上直接使用,效率较低。
基本上就这些,SVM虽不是最新方法,但在特定场景下依然表现优异,理解它有助于掌握机器学习的基础逻辑。











