sklearn机器学习核心是理清“数据→预处理→模型→评估”主线:先用pandas加载查看数据,再显式处理缺失值和类别特征、缩放数值特征,接着选模型训练预测,最后用分类报告、混淆矩阵或回归指标全面评估。

用 sklearn 做机器学习,核心不是背代码,而是理清“数据→预处理→模型→评估”这条主线。下面用最常用的任务切入,带你跑通一个完整流程。
加载并快速查看数据
别急着建模,先用 pandas 读数据、看形状、检查缺失值和前几行:
- from sklearn.datasets import make_classification, make_regression —— 快速生成模拟数据练手
- df.info() 和 df.describe() 看分布和空值
- 分类任务常用 make_classification(n_samples=1000, n_features=4, n_classes=2);回归用 make_regression
数据预处理不能跳过
sklearn 不自动处理缺失值或类别型变量,必须显式处理:
- 数值型缺失:用 SimpleImputer(strategy='mean') 填均值(分类可用 'most_frequent')
- 类别型特征:用 OneHotEncoder 或 OrdinalEncoder 编码,注意要先 fit 再 transform
- 特征缩放:SVM、KNN、逻辑回归对量纲敏感,用 StandardScaler 或 MinMaxScaler
选模型、训练、预测三步到位
从最基础的几个算法开始,语法高度统一:
PHP网络编程技术详解由浅入深,全面、系统地介绍了PHP开发技术,并提供了大量实例,供读者实战演练。另外,笔者专门为本书录制了相应的配套教学视频,以帮助读者更好地学习本书内容。这些视频和书中的实例源代码一起收录于配书光盘中。本书共分4篇。第1篇是PHP准备篇,介绍了PHP的优势、开发环境及安装;第2篇是PHP基础篇,介绍了PHP中的常量与变量、运算符与表达式、流程控制以及函数;第3篇是进阶篇,介绍
立即学习“Python免费学习笔记(深入)”;
- 逻辑回归:LogisticRegression() → 分类任务基线
- K近邻:KNeighborsClassifier(n_neighbors=5) → 无需训练,但预测慢
- 决策树:DecisionTreeClassifier(max_depth=3) → 可视化强,易理解
- 线性回归:LinearRegression() → 回归任务起点
- 统一写法:model.fit(X_train, y_train) → model.predict(X_test)
评估结果要看指标,不只看准确率
分类任务别只 print(model.score()),要用更全面的视角:
- 二分类:用 classification_report(y_true, y_pred) 看 precision/recall/f1
- 混淆矩阵:confusion_matrix 直观看出错在哪一类
- 回归任务:mean_absolute_error、r2_score 比单纯看 score() 更有信息量
- 交叉验证:cross_val_score(model, X, y, cv=5, scoring='f1') 防止偶然性
不复杂但容易忽略:每次 fit 前确保 X 是二维数组(比如 X.reshape(-1, 1) 处理单特征),y 是一维。跑通一个完整 pipeline,比记十个参数更重要。









