Pandas核心是Series与DataFrame,依赖索引对齐自动匹配运算;数据清洗需分三步判断分布、定策略、验结果;groupby通过agg灵活聚合多指标;merge用于主键关联,需明确on参数和how逻辑,concat则适合同类表纵向拼接。

理解Pandas的核心数据结构:Series与DataFrame
Series是带标签的一维数组,DataFrame则是二维表格型结构,二者共享底层索引机制和数据对齐逻辑。关键不是记住定义,而是明白“索引对齐”如何自动生效——比如两个不同长度的Series相加,Pandas会按索引匹配值,缺失位置补NaN,而不是按位置硬算。操作前先用df.index和df.columns确认维度标签,避免隐式广播出错。
掌握数据清洗的关键动作:缺失值、重复值与类型转换
清洗不是堆函数,而是分三步判断:先看分布(df.isna().sum()),再定策略(删除、填充、插值),最后验结果(df.dtypes是否合理)。例如时间列读入后是object,要立刻用pd.to_datetime()转为datetime64;数值列含“-”或“N/A”,需先replace()再astype(float),否则报错中断流程。
用groupby实现真实业务聚合:不只是求均值
groupby本质是“拆—算—合”,重点在agg的灵活组合。比如分析销售数据时,既要各区域销售额总和,又要最高单笔订单额,还要订单数——可写成:df.groupby('region').agg({'amount': ['sum', 'max'], 'order_id': 'count'})。注意多级列名会生成元组,后续取列要用df[('amount', 'sum')],别直接写df['amount_sum']。
合并与连接:merge比concat更常用,但条件必须明确
merge处理主键关联(如订单表+用户表),核心是on或left_on/right_on配对,how决定保留逻辑(inner最安全,left最常用)。常见错误是忽略重复键导致笛卡尔积——合并前先检查df1[key].nunique()和df2[key].nunique()是否一致。concat适合纵向拼接同类结构表,记得设ignore_index=True重置行号。
立即学习“Python免费学习笔记(深入)”;
不复杂但容易忽略。










