Python因语法简洁、生态成熟(如scikit-learn、pandas、matplotlib)成为机器学习入门首选;推荐Anaconda一键配置环境;用iris数据集完成加载、划分、训练(如DecisionTreeClassifier)、评估全流程;后续可换模型、读CSV数据、可视化与标准化。

为什么选Python做机器学习入门
Python语法简洁、生态成熟,scikit-learn、pandas、matplotlib等库让数据加载、预处理、建模和评估一气呵成。初学者不用纠结底层实现,能快速看到模型效果,建立信心。
准备环境:三步装好核心工具
推荐用Anaconda一键安装——它自带Python、Jupyter Notebook和常用科学计算库。
- 下载并安装Anaconda(选Python 3.9+版本)
- 打开Anaconda Navigator,启动Jupyter Notebook
- 新建Notebook,在第一个代码格中运行:
import sklearn, pandas, numpy, matplotlib —— 不报错就说明环境就绪
用鸢尾花数据集跑通第一个分类模型
scikit-learn内置的iris数据集小而经典:150条样本、4个特征(花萼/花瓣长宽)、3类鸢尾花。适合练手全流程。
-
加载数据:用
from sklearn.datasets import load_iris获取特征矩阵X和标签y -
划分训练/测试集:用
from sklearn.model_selection import train_test_split,按7:3或8:2切分,避免用全部数据训练后“自我表扬” -
选模型并训练:从简单开始,比如决策树
from sklearn.tree import DecisionTreeClassifier,调用fit(X_train, y_train) -
评估效果:用
model.score(X_test, y_test)看准确率,再用classification_report查看每类的精确率、召回率
下一步可以做什么
跑通之后别停——换数据、换模型、加特征,才是理解的关键:
立即学习“Python免费学习笔记(深入)”;
- 把DecisionTreeClassifier换成LogisticRegression或SVC,对比结果
- 用
pandas.read_csv()读自己的CSV数据(比如房价、客户流失表),注意处理缺失值和类别型变量 - 画散点图(
plt.scatter)观察特征分布,用df.corr()看数值特征间相关性 - 尝试标准化(
StandardScaler)再训练,看看对KNN或SVM有没有提升










