read_excel 中 sheet_name 与 skiprows 组合使用最常用可靠:先定位目标 sheet,再从其第 0 行起跳过指定行数;sheet_name 支持字符串、整数或列表,单表推荐字符串;skiprows 支持整数或可调用对象。

read_excel 指定 sheet_name 和 skiprows 参数组合使用
直接用 sheet_name 选表、skiprows 跳行是最常用也最可靠的方式。pandas 会先定位到目标 sheet,再从该 sheet 的第 0 行开始计数跳过指定行数。
-
sheet_name可以是字符串(sheet 名)、整数(索引,如0表示第一个 sheet)或列表(读多个);单 sheet 场景推荐用字符串,避免因 Excel 重排 sheet 顺序导致出错 -
skiprows接受整数(跳过前 N 行)或可调用对象(例如lambda x: x ),但整数最直观;注意它跳的是“数据区的前 N 行”,不是 Excel 界面里带合并单元格的标题行——如果前几行有空行或格式混乱,skiprows可能失效 - 若需跳过含标题的前 3 行,且第 4 行才是列名,应设
skiprows=3,再配合header=0(默认值),否则列名会被当成数据
当跳过的行里有合并单元格或空行时怎么办
Excel 常见的“多层标题”或“单位说明行”会导致 skiprows 数不准。这时不能只靠硬跳,得结合 header 定位真实列名行。
- 先用
pd.read_excel("file.xlsx", sheet_name="Sheet1", nrows=5)快速预览前几行,人工确认列名实际在哪一行(比如在第 5 行,索引为 4) - 设
skiprows=4+header=0,或更稳妥地直接用header=4(表示把第 5 行作为列名),此时skiprows可省略 - 如果合并单元格导致某列名跨两行(如 A1:A2 合并写“销售额”),pandas 默认会读成
NaN或空字符串,需后续用df.columns = [...]手动修复
读取后发现列名错位或数据偏移
典型现象是第一列全是 NaN,或数据整体右移一列——大概率是 Excel 中存在隐藏的空首列(比如 A 列全空),pandas 把它当成了索引列。
- 加参数
index_col=None显式禁用自动索引推断,强制所有列为普通列 - 用
usecols限定读取范围,例如usecols="B:E"或usecols=[1,2,3,4](从 0 开始计数),跳过可疑的空列 - 检查原始 Excel:打开文件 → 选中列标(如 A 列)→ 右键“取消隐藏”,确认是否有不可见列干扰
性能与兼容性提醒
如果文件极大或 sheet 很多,sheet_name 设为具体名称比 None(读全部)快得多;但引擎选择会影响 skiprows 行为。
- 默认引擎
openpyxl支持 .xlsx,skiprows稳定;老式 .xls 文件必须用xlrd(v2.0.1+ 仅支持 xls),且不支持skiprows,只能改用header - 若用
engine="calamine"(新锐高性能引擎),skiprows仍可用,但某些复杂格式(如条件格式、图表)会被忽略——仅读数据时推荐 - 不要在
skiprows里传负数或超出行数的值,会静默失败或报ValueError: skiprows must be an integer
真正麻烦的是那些手动合并、手写注释、动态插入空行的业务 Excel——它们让自动化读取变成模式识别问题,这时候与其调参,不如先让人清理源文件。











