Python如何从Excel处理数据_表格数据读取与清洗方法【教程】-Python教程-PHP中文网

Python如何从Excel处理数据_表格数据读取与清洗方法【教程】

冷漠man

发布： 2025-12-17 21:01:14

原创

375人浏览过

Python处理Excel数据核心是用pandas.read_excel安全读取，再清洗分析；需注意日期解析、空值处理、合并单元格填充、多层表头识别及导出限制。

python如何从excel处理数据_表格数据读取与清洗方法【教程】

Python处理Excel数据，核心是用pandas读取、清洗和分析，关键在于选对工具、避开常见坑（比如日期错乱、空值误判、合并单元格崩溃）。

别直接用xlrd或openpyxl手动解析——除非你要改样式。95%场景下，pandas.read_excel()够用且稳定。

指定sheet_name：支持字符串（表名）、整数（第几个表，从0开始）或列表（多表一起读）
跳过无效行：skiprows=2跳过前两行；skipfooter=1（旧版pandas）或用usecols限定列范围更可靠
处理日期：加parse_dates=['订单日期']，避免读成字符串；若自动识别失败，用date_parser自定义格式，如pd.to_datetime(df['日期'], format='%Y/%m/%d')
合并单元格？pandas会自动填充为NaN或重复值，读完立刻用df.fillna(method='ffill')向下填充（按列）

读进来先看df.info()和df.head()，重点盯三类问题：

空值：用df.isnull().sum()查每列空值数；删除整行用df.dropna(how='all')（全空才删），填充用df['销量'].fillna(df['销量'].median(), inplace=True)
异常值：数值列用df.describe()看min/max是否离谱；结合箱线图或df[(df['价格'] > df['价格'].quantile(0.99))]定位极值，再判断是删还是修正
格式混乱：如“¥1,234.50”这种带符号和逗号的文本型数字，用df['金额'] = df['金额'].str.replace(r'[¥,]', '').astype(float)

真实Excel常有标题不齐、多级表头、备注行混入——不能靠肉眼调。

Veo

Google 最新发布的 AI 视频生成模型

567

多层表头：用header=[0,1]读取前两行为列索引，之后用df.columns.get_level_values(0)或df.xs('销售额', axis=1, level=0)取某一层
标题在中间？先用df = pd.read_excel(file, header=None)全当纯数据读，再用df.iloc[5]找标题行，然后df.columns = df.iloc[5]; df = df.iloc[6:].reset_index(drop=True)
一列含多信息（如“张三-北京-男”）：用df[['姓名','城市','性别']] = df['原始列'].str.split('-', expand=True)

清洗完要保存回Excel，df.to_excel()默认不带索引，但注意：

加index=False避免多出一列序号
若需保留公式或图表——pandas做不到，改用openpyxl加载后写入数值：wb = load_workbook('原表.xlsx'); ws = wb['Sheet1']; ws['B2'] = df.iloc[0,1]; wb.save('新表.xlsx')
导出多个表到一个文件：with pd.ExcelWriter('汇总.xlsx') as writer: df1.to_excel(writer, sheet_name='清洗后'); df2.to_excel(writer, sheet_name='统计')

基本上就这些。不用追求一步到位，先读稳、再查清、后动刀——大部分Excel清洗，三步循环搞定。

以上就是Python如何从Excel处理数据_表格数据读取与清洗方法【教程】的详细内容，更多请关注php中文网其它相关文章！