
在数据分析和处理的日常工作中,我们经常需要处理分布在多个 excel 文件中的数据,并且每个文件可能包含多个工作表。将这些数据高效地整合到一起是提高工作效率的关键。本教程将指导您如何使用 pandas 实现这一目标,并特别关注如何避免和解决在处理过程中可能遇到的 attributeerror。
在尝试遍历 Excel 文件中的工作表时,一个常见的错误是 AttributeError: 'str' object has no attribute 'sheet_names'。这个错误通常发生在您尝试在一个字符串对象上调用或访问属于 pandas.ExcelFile 对象的方法或属性时。
例如,如果 path 是一个文件路径字符串,直接执行 path.sheet_names 会导致此错误,因为字符串对象并没有 sheet_names 这个属性。正确的做法是,首先使用 pd.ExcelFile() 将文件路径加载为一个 ExcelFile 对象,然后通过这个对象来访问其工作表名称。
以下是使用 Pandas 合并指定目录下多个 Excel 文件中特定工作表数据的详细步骤和代码示例。
首先,确保您已安装 Pandas 库。如果尚未安装,可以通过 pip install pandas openpyxl 进行安装(openpyxl 是 Pandas 读取 .xlsx 文件的后端引擎)。然后,定义您的 Excel 文件所在的目录路径。
import os
import pandas as pd
# 定义您的 Excel 文件所在的目录路径
# 请将 'your/excel/files/path' 替换为实际路径
excel_files_directory = 'your/excel/files/path'
# 初始化一个字典,用于存储每个符合条件的工作表数据为一个 DataFrame
# 字典的键将是工作表名称,值是对应的 DataFrame
df_dict_flex = {}使用 os.walk() 函数可以递归地遍历指定目录及其子目录中的所有文件。对于每个找到的文件,我们需要检查它是否是 Excel 文件,然后使用 pd.ExcelFile() 将其加载。
# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(excel_files_directory):
for fname in files:
# 构建文件的完整路径
file_path = os.path.join(root, fname)
# 确保只处理 Excel 文件(.xlsx 或 .xls 格式)
if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
print(f"正在处理文件: {file_path}")
try:
# 使用 pd.ExcelFile() 加载 Excel 文件,这将创建一个 ExcelFile 对象
xls_file = pd.ExcelFile(file_path)
# ... (后续步骤将在这里处理工作表)
except Exception as e:
print(f"无法加载文件 {file_path}:{e}")关键点: xls_file = pd.ExcelFile(file_path) 是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象,该对象拥有 sheet_names 属性和 parse() 方法。
加载 ExcelFile 对象后,我们可以通过其 sheet_names 属性获取所有工作表的名称。然后,您可以根据业务需求定义条件来筛选并解析特定的工作表。
import os
import pandas as pd
excel_files_directory = 'your/excel/files/path'
df_dict_flex = {}
for root, dirs, files in os.walk(excel_files_directory):
for fname in files:
file_path = os.path.join(root, fname)
if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
print(f"正在处理文件: {file_path}")
try:
xls_file = pd.ExcelFile(file_path)
# 遍历当前 Excel 文件中的所有工作表名称
for sheet_name in xls_file.sheet_names:
print(f" 发现工作表: {sheet_name}")
# 定义工作表筛选条件。这里以 'Portfolios' 和 'SP Search Term Req' 为例
# 您可以根据实际需求修改或扩展此条件
if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req':
print(f" 正在解析工作表 '{sheet_name}'...")
# 使用 xls_file.parse() 方法解析指定工作表为 DataFrame
# 注意:这里是 xls_file.parse(),而不是 file.parse()
df = xls_file.parse(sheet_name)
# 将解析出的 DataFrame 存储到字典中
# 如果有多个文件包含相同名称的工作表,后解析的会覆盖前面解析的
# 如果需要合并相同名称的工作表数据,需要额外的逻辑(如 pd.concat)
df_dict_flex[sheet_name] = df
print(f" 工作表 '{sheet_name}' 数据已存储。")
except Exception as e:
print(f"无法加载或处理文件 {file_path}:{e}")
# 最终,df_dict_flex 字典将包含所有符合条件的工作表的 DataFrame
print("\n所有符合条件的工作表数据已成功加载到 df_dict_flex 字典中。")
print("字典键 (工作表名称):", df_dict_flex.keys())
# 示例:查看 'Portfolios' 工作表的数据(如果存在)
# if 'Portfolios' in df_dict_flex:
# print("\n'Portfolios' 工作表数据示例:")
# print(df_dict_flex['Portfolios'].head())if sheet_name in df_dict_flex:
df_dict_flex[sheet_name] = pd.concat([df_dict_flex[sheet_name], df], ignore_index=True)
else:
df_dict_flex[sheet_name] = df通过本教程,您应该已经掌握了如何使用 Pandas 高效地遍历目录、加载多个 Excel 文件、筛选并解析其中的特定工作表,并将其存储到 Python 字典中。同时,我们详细解释了 AttributeError: 'str' object has no attribute 'sheet_names' 产生的原因及其解决方案,强调了正确使用 pd.ExcelFile 对象的重要性。掌握这些技巧将极大地提升您在处理复杂 Excel 数据集时的效率和代码的健壮性。请务必将代码中的 'your/excel/files/path' 替换为您的实际文件路径。
以上就是Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号