第一阶段核心是理解数据来源与模型运作机制。重点用pandas探索数据、matplotlib/seaborn识别异常、手动清洗真实数据集;用scikit-learn跑通完整建模流程,观察预测概率与特征重要性;注重多维评估与人话注释。

想从Python开发转向AI领域,第一阶段的核心不是直接学深度学习框架,而是真正理解“数据怎么来、模型怎么动”。这一步踩不稳,后面调参、优化、部署都会卡壳。
用Python把数据“摸透”
AI不是凭空建模,数据是起点。这个阶段重点不是写复杂算法,而是用Python把真实数据的形状、问题、噪声看清楚。
- 熟练用pandas做探索性分析:比如df.info()看缺失值和类型,df.describe()抓数值分布,df.groupby().size()查类别均衡性
- 用matplotlib/seaborn画图时不追求美观,先做到“一眼看出异常”:比如时间序列里突然断崖、分类标签里95%都是同一类、特征之间高度线性相关
- 动手清洗一次真实小数据集(比如Kaggle上的Titanic或House Prices):手动处理缺失值、编码类别、标准化数值——别急着用SimpleImputer或StandardScaler,先理解每一步在改变什么
亲手搭一个“能跑通”的模型
不用追求SOTA,目标是让模型从读数据到输出预测,全程可追踪、可打断、可检查中间结果。
- 从scikit-learn开始:用LogisticRegression或RandomForestClassifier跑通完整流程——划分训练/测试集、fit、predict、score,再用classification_report看每个类别的精确率和召回率
- 关键动作:把model.predict_proba(X_test)结果打印出来,观察概率分布;用model.feature_importances_或coef_看模型到底“看重”哪些特征
- 故意加点噪声或删掉关键特征,看模型表现怎么变——这不是为了提升指标,而是建立对“模型依赖什么”的直觉
理解评估不是看准确率就行
准确率在不平衡数据里会骗人。这个阶段要养成看多维评估的习惯,每一项指标都要能说出它对应的实际业务含义。
立即学习“Python免费学习笔记(深入)”;
- 混淆矩阵是必过关口:能手动画出2×2矩阵,并解释TP/FP/FN/TN分别代表什么场景(比如医疗诊断中FN意味着漏诊)
- 根据任务选指标:分类任务看F1或AUC,回归任务看MAE和R²,推荐系统初期可用准确率+召回率组合
- 用cross_val_score做交叉验证,至少跑5折——不是为了提分,而是确认模型表现是否稳定,避免偶然拟合
代码即文档:给自己的AI脚本写“人话注释”
这一阶段写的每一段AI相关代码,都要能向非技术人员说清“这段在做什么、为什么这么做、如果改了会怎样”。
- 注释不写“调用模型”,而写“这里用随机森林因为特征有非线性关系,且能自动处理少量缺失值”
- 变量命名拒绝df1, x, y_pred,改用raw_data, train_features, predicted_risk_score
- 每次修改参数(比如n_estimators=100 → 200),在代码旁加一行注释:“试增大树数量,观察验证集AUC是否收敛,防止欠拟合”










