Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误

碧海醫心
发布: 2025-09-29 14:39:22
原创
343人浏览过

Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误

本教程详细介绍了如何使用 Python 的 Pandas 库高效地合并指定目录下的多个 Excel 文件中的特定工作表数据。文章通过迭代文件和工作表,将符合条件的数据导入到 Pandas DataFrame 字典中,并重点解析了 AttributeError: 'str' object has no attribute 'sheet_names' 这一常见错误及其解决方案,确保数据处理流程的顺畅与准确。

在数据分析和处理的日常工作中,我们经常需要处理分布在多个 excel 文件中的数据,并且每个文件可能包含多个工作表。将这些数据高效地整合到一起是提高工作效率的关键。本教程将指导您如何使用 pandas 实现这一目标,并特别关注如何避免和解决在处理过程中可能遇到的 attributeerror。

理解问题:AttributeError: 'str' object has no attribute 'sheet_names'

在尝试遍历 Excel 文件中的工作表时,一个常见的错误是 AttributeError: 'str' object has no attribute 'sheet_names'。这个错误通常发生在您尝试在一个字符串对象上调用或访问属于 pandas.ExcelFile 对象的方法或属性时。

例如,如果 path 是一个文件路径字符串,直接执行 path.sheet_names 会导致此错误,因为字符串对象并没有 sheet_names 这个属性。正确的做法是,首先使用 pd.ExcelFile() 将文件路径加载为一个 ExcelFile 对象,然后通过这个对象来访问其工作表名称。

解决方案:使用 Pandas 高效合并多工作表 Excel 数据

以下是使用 Pandas 合并指定目录下多个 Excel 文件中特定工作表数据的详细步骤和代码示例。

步骤一:环境准备与文件路径定义

首先,确保您已安装 Pandas 库。如果尚未安装,可以通过 pip install pandas openpyxl 进行安装(openpyxl 是 Pandas 读取 .xlsx 文件的后端引擎)。然后,定义您的 Excel 文件所在的目录路径。

import os
import pandas as pd

# 定义您的 Excel 文件所在的目录路径
# 请将 'your/excel/files/path' 替换为实际路径
excel_files_directory = 'your/excel/files/path' 

# 初始化一个字典,用于存储每个符合条件的工作表数据为一个 DataFrame
# 字典的键将是工作表名称,值是对应的 DataFrame
df_dict_flex = {}
登录后复制

步骤二:遍历目录并加载 Excel 文件

使用 os.walk() 函数可以递归地遍历指定目录及其子目录中的所有文件。对于每个找到的文件,我们需要检查它是否是 Excel 文件,然后使用 pd.ExcelFile() 将其加载。

先见AI
先见AI

数据为基,先见未见

先见AI95
查看详情 先见AI
# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        # 构建文件的完整路径
        file_path = os.path.join(root, fname)

        # 确保只处理 Excel 文件(.xlsx 或 .xls 格式)
        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                # 使用 pd.ExcelFile() 加载 Excel 文件,这将创建一个 ExcelFile 对象
                xls_file = pd.ExcelFile(file_path)

                # ... (后续步骤将在这里处理工作表)

            except Exception as e:
                print(f"无法加载文件 {file_path}:{e}")
登录后复制

关键点: xls_file = pd.ExcelFile(file_path) 是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象,该对象拥有 sheet_names 属性和 parse() 方法。

步骤三:迭代工作表并按条件解析数据

加载 ExcelFile 对象后,我们可以通过其 sheet_names 属性获取所有工作表的名称。然后,您可以根据业务需求定义条件来筛选并解析特定的工作表。

import os
import pandas as pd

excel_files_directory = 'your/excel/files/path' 
df_dict_flex = {}

for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        file_path = os.path.join(root, fname)

        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                xls_file = pd.ExcelFile(file_path)

                # 遍历当前 Excel 文件中的所有工作表名称
                for sheet_name in xls_file.sheet_names:
                    print(f"  发现工作表: {sheet_name}")

                    # 定义工作表筛选条件。这里以 'Portfolios' 和 'SP Search Term Req' 为例
                    # 您可以根据实际需求修改或扩展此条件
                    if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req':
                        print(f"    正在解析工作表 '{sheet_name}'...")
                        # 使用 xls_file.parse() 方法解析指定工作表为 DataFrame
                        # 注意:这里是 xls_file.parse(),而不是 file.parse()
                        df = xls_file.parse(sheet_name)

                        # 将解析出的 DataFrame 存储到字典中
                        # 如果有多个文件包含相同名称的工作表,后解析的会覆盖前面解析的
                        # 如果需要合并相同名称的工作表数据,需要额外的逻辑(如 pd.concat)
                        df_dict_flex[sheet_name] = df
                        print(f"    工作表 '{sheet_name}' 数据已存储。")

            except Exception as e:
                print(f"无法加载或处理文件 {file_path}:{e}")

# 最终,df_dict_flex 字典将包含所有符合条件的工作表的 DataFrame
print("\n所有符合条件的工作表数据已成功加载到 df_dict_flex 字典中。")
print("字典键 (工作表名称):", df_dict_flex.keys())

# 示例:查看 'Portfolios' 工作表的数据(如果存在)
# if 'Portfolios' in df_dict_flex:
#     print("\n'Portfolios' 工作表数据示例:")
#     print(df_dict_flex['Portfolios'].head())
登录后复制

代码解析与注意事项

  1. os.walk(excel_files_directory): 这是遍历指定目录下所有文件和子目录的强大工具。它返回一个三元组 (root, dirs, files),其中 root 是当前目录路径,dirs 是当前目录下的子目录列表,files 是当前目录下的文件列表。
  2. os.path.join(root, fname): 安全地拼接路径,无论操作系统如何,都能生成正确的路径字符串。
  3. 文件类型过滤: if file_path.endswith('.xlsx') or file_path.endswith('.xls'): 确保我们只尝试处理 Excel 文件,避免对其他类型文件(如 .txt, .csv 等)进行不必要的或错误的解析。
  4. pd.ExcelFile(file_path): 这是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象。这个对象代表了整个 Excel 文件,并提供了访问其工作表名称和内容的方法。
  5. xls_file.sheet_names: 这是一个属性(不是方法),它返回一个列表,包含当前 ExcelFile 对象中所有工作表的名称。
  6. xls_file.parse(sheet_name): 这是 ExcelFile 对象的一个方法,用于将指定名称的工作表解析为一个 Pandas DataFrame。
  7. 工作表名称匹配逻辑: 示例代码使用了 if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req': 来筛选特定的工作表。您可以根据需要调整此逻辑,例如使用正则表达式进行模糊匹配,或维护一个需要导入的工作表名称列表。
  8. 错误处理: try...except 块用于捕获文件加载或解析过程中可能发生的错误,例如文件损坏、权限问题或格式不正确,从而增强程序的健壮性。
  9. 数据覆盖问题: 如果多个 Excel 文件中存在同名工作表,并且您的目标是合并这些同名工作表的数据,当前的 df_dict_flex[sheet_name] = df 会导致后解析的数据覆盖前解析的数据。若要合并,您需要引入额外的逻辑,例如使用 pd.concat():
    if sheet_name in df_dict_flex:
        df_dict_flex[sheet_name] = pd.concat([df_dict_flex[sheet_name], df], ignore_index=True)
    else:
        df_dict_flex[sheet_name] = df
    登录后复制
  10. 内存管理: 对于包含大量工作表或非常大的 Excel 文件,一次性将所有数据加载到内存中可能会消耗大量资源。如果遇到内存问题,可以考虑分批处理、只加载必要列,或者使用 Dask 等工具进行大规模数据处理。

总结

通过本教程,您应该已经掌握了如何使用 Pandas 高效地遍历目录、加载多个 Excel 文件、筛选并解析其中的特定工作表,并将其存储到 Python 字典中。同时,我们详细解释了 AttributeError: 'str' object has no attribute 'sheet_names' 产生的原因及其解决方案,强调了正确使用 pd.ExcelFile 对象的重要性。掌握这些技巧将极大地提升您在处理复杂 Excel 数据集时的效率和代码的健壮性。请务必将代码中的 'your/excel/files/path' 替换为您的实际文件路径。

以上就是Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号