0

0

Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误

碧海醫心

碧海醫心

发布时间:2025-09-29 14:39:22

|

367人浏览过

|

来源于php中文网

原创

Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误

本教程详细介绍了如何使用 Python 的 Pandas 库高效地合并指定目录下的多个 Excel 文件中的特定工作表数据。文章通过迭代文件和工作表,将符合条件的数据导入到 Pandas DataFrame 字典中,并重点解析了 AttributeError: 'str' object has no attribute 'sheet_names' 这一常见错误及其解决方案,确保数据处理流程的顺畅与准确。

在数据分析和处理的日常工作中,我们经常需要处理分布在多个 excel 文件中的数据,并且每个文件可能包含多个工作表。将这些数据高效地整合到一起是提高工作效率的关键。本教程将指导您如何使用 pandas 实现这一目标,并特别关注如何避免和解决在处理过程中可能遇到的 attributeerror。

理解问题:AttributeError: 'str' object has no attribute 'sheet_names'

在尝试遍历 Excel 文件中的工作表时,一个常见的错误是 AttributeError: 'str' object has no attribute 'sheet_names'。这个错误通常发生在您尝试在一个字符串对象上调用或访问属于 pandas.ExcelFile 对象的方法或属性时。

例如,如果 path 是一个文件路径字符串,直接执行 path.sheet_names 会导致此错误,因为字符串对象并没有 sheet_names 这个属性。正确的做法是,首先使用 pd.ExcelFile() 将文件路径加载为一个 ExcelFile 对象,然后通过这个对象来访问其工作表名称。

解决方案:使用 Pandas 高效合并多工作表 Excel 数据

以下是使用 Pandas 合并指定目录下多个 Excel 文件中特定工作表数据的详细步骤和代码示例。

步骤一:环境准备与文件路径定义

首先,确保您已安装 Pandas 库。如果尚未安装,可以通过 pip install pandas openpyxl 进行安装(openpyxl 是 Pandas 读取 .xlsx 文件的后端引擎)。然后,定义您的 Excel 文件所在的目录路径。

import os
import pandas as pd

# 定义您的 Excel 文件所在的目录路径
# 请将 'your/excel/files/path' 替换为实际路径
excel_files_directory = 'your/excel/files/path' 

# 初始化一个字典,用于存储每个符合条件的工作表数据为一个 DataFrame
# 字典的键将是工作表名称,值是对应的 DataFrame
df_dict_flex = {}

步骤二:遍历目录并加载 Excel 文件

使用 os.walk() 函数可以递归地遍历指定目录及其子目录中的所有文件。对于每个找到的文件,我们需要检查它是否是 Excel 文件,然后使用 pd.ExcelFile() 将其加载。

慧中标AI标书
慧中标AI标书

慧中标AI标书是一款AI智能辅助写标书工具。

下载
# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        # 构建文件的完整路径
        file_path = os.path.join(root, fname)

        # 确保只处理 Excel 文件(.xlsx 或 .xls 格式)
        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                # 使用 pd.ExcelFile() 加载 Excel 文件,这将创建一个 ExcelFile 对象
                xls_file = pd.ExcelFile(file_path)

                # ... (后续步骤将在这里处理工作表)

            except Exception as e:
                print(f"无法加载文件 {file_path}:{e}")

关键点: xls_file = pd.ExcelFile(file_path) 是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象,该对象拥有 sheet_names 属性和 parse() 方法。

步骤三:迭代工作表并按条件解析数据

加载 ExcelFile 对象后,我们可以通过其 sheet_names 属性获取所有工作表的名称。然后,您可以根据业务需求定义条件来筛选并解析特定的工作表。

import os
import pandas as pd

excel_files_directory = 'your/excel/files/path' 
df_dict_flex = {}

for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        file_path = os.path.join(root, fname)

        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                xls_file = pd.ExcelFile(file_path)

                # 遍历当前 Excel 文件中的所有工作表名称
                for sheet_name in xls_file.sheet_names:
                    print(f"  发现工作表: {sheet_name}")

                    # 定义工作表筛选条件。这里以 'Portfolios' 和 'SP Search Term Req' 为例
                    # 您可以根据实际需求修改或扩展此条件
                    if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req':
                        print(f"    正在解析工作表 '{sheet_name}'...")
                        # 使用 xls_file.parse() 方法解析指定工作表为 DataFrame
                        # 注意:这里是 xls_file.parse(),而不是 file.parse()
                        df = xls_file.parse(sheet_name)

                        # 将解析出的 DataFrame 存储到字典中
                        # 如果有多个文件包含相同名称的工作表,后解析的会覆盖前面解析的
                        # 如果需要合并相同名称的工作表数据,需要额外的逻辑(如 pd.concat)
                        df_dict_flex[sheet_name] = df
                        print(f"    工作表 '{sheet_name}' 数据已存储。")

            except Exception as e:
                print(f"无法加载或处理文件 {file_path}:{e}")

# 最终,df_dict_flex 字典将包含所有符合条件的工作表的 DataFrame
print("\n所有符合条件的工作表数据已成功加载到 df_dict_flex 字典中。")
print("字典键 (工作表名称):", df_dict_flex.keys())

# 示例:查看 'Portfolios' 工作表的数据(如果存在)
# if 'Portfolios' in df_dict_flex:
#     print("\n'Portfolios' 工作表数据示例:")
#     print(df_dict_flex['Portfolios'].head())

代码解析与注意事项

  1. os.walk(excel_files_directory): 这是遍历指定目录下所有文件和子目录的强大工具。它返回一个三元组 (root, dirs, files),其中 root 是当前目录路径,dirs 是当前目录下的子目录列表,files 是当前目录下的文件列表。
  2. os.path.join(root, fname): 安全地拼接路径,无论操作系统如何,都能生成正确的路径字符串。
  3. 文件类型过滤: if file_path.endswith('.xlsx') or file_path.endswith('.xls'): 确保我们只尝试处理 Excel 文件,避免对其他类型文件(如 .txt, .csv 等)进行不必要的或错误的解析。
  4. pd.ExcelFile(file_path): 这是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象。这个对象代表了整个 Excel 文件,并提供了访问其工作表名称和内容的方法。
  5. xls_file.sheet_names: 这是一个属性(不是方法),它返回一个列表,包含当前 ExcelFile 对象中所有工作表的名称。
  6. xls_file.parse(sheet_name): 这是 ExcelFile 对象的一个方法,用于将指定名称的工作表解析为一个 Pandas DataFrame。
  7. 工作表名称匹配逻辑: 示例代码使用了 if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req': 来筛选特定的工作表。您可以根据需要调整此逻辑,例如使用正则表达式进行模糊匹配,或维护一个需要导入的工作表名称列表。
  8. 错误处理: try...except 块用于捕获文件加载或解析过程中可能发生的错误,例如文件损坏、权限问题或格式不正确,从而增强程序的健壮性。
  9. 数据覆盖问题: 如果多个 Excel 文件中存在同名工作表,并且您的目标是合并这些同名工作表的数据,当前的 df_dict_flex[sheet_name] = df 会导致后解析的数据覆盖前解析的数据。若要合并,您需要引入额外的逻辑,例如使用 pd.concat():
    if sheet_name in df_dict_flex:
        df_dict_flex[sheet_name] = pd.concat([df_dict_flex[sheet_name], df], ignore_index=True)
    else:
        df_dict_flex[sheet_name] = df
  10. 内存管理: 对于包含大量工作表或非常大的 Excel 文件,一次性将所有数据加载到内存中可能会消耗大量资源。如果遇到内存问题,可以考虑分批处理、只加载必要列,或者使用 Dask 等工具进行大规模数据处理。

总结

通过本教程,您应该已经掌握了如何使用 Pandas 高效地遍历目录、加载多个 Excel 文件、筛选并解析其中的特定工作表,并将其存储到 Python 字典中。同时,我们详细解释了 AttributeError: 'str' object has no attribute 'sheet_names' 产生的原因及其解决方案,强调了正确使用 pd.ExcelFile 对象的重要性。掌握这些技巧将极大地提升您在处理复杂 Excel 数据集时的效率和代码的健壮性。请务必将代码中的 'your/excel/files/path' 替换为您的实际文件路径。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

639

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

9

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 12.7万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号