在日常数据处理中,我们经常会遇到需要将多个结构相似的excel文件合并成一个统一数据集的场景。更进一步的需求是,在合并后的数据中,能够清晰地识别每条记录来源于哪个原始文件。本文将详细阐述如何利用pandas库实现这一目标,为合并后的数据添加一个“文件名”列,从而增强数据溯源能力。
在开始之前,请确保你的Python环境中已经安装了pandas库。如果尚未安装,可以通过以下命令进行安装:
pip install pandas openpyxl
openpyxl是Pandas读取和写入.xlsx格式Excel文件所需的引擎。
我们还需要glob库来查找指定目录下的所有Excel文件,以及os库来处理文件路径。
import glob import pandas as pd import os
假设所有待合并的Excel文件都位于一个特定目录下,例如../content/。
实现此功能的关键在于遍历每个文件,在读取数据后,立即为其添加一个表示来源文件名的列,然后将处理后的数据追加到总的DataFrame中。
以下是实现此功能的详细步骤和代码:
import glob import pandas as pd import os # 定义待处理Excel文件的目录和文件模式 # 假设所有Excel文件都以.xlsx结尾,并位于 '../content/' 目录下 file_pattern = '../content/*.xlsx' files = glob.glob(file_pattern) # 初始化一个空的DataFrame,用于存储所有合并后的数据 combined_df = pd.DataFrame() # 定义我们感兴趣的列名,这些列将从每个Excel文件中读取 # 请根据实际Excel文件的列名进行调整 target_columns = ['Уровень', 'Код WBS', 'Код', 'Тип', 'Название'] print(f"发现 {len(files)} 个Excel文件待处理。") # 遍历每个文件 for file_path in files: try: # 1. 读取Excel文件 # skiprows=1 表示跳过第一行(通常是标题或不必要的信息) # usecols 指定只读取我们需要的列,提高效率并确保数据一致性 df = pd.read_excel(file_path, skiprows=1, usecols=target_columns) # 2. 确保DataFrame只包含目标列,并按照指定顺序排列 # 这一步在usecols已经指定的情况下,主要是为了明确列的顺序 df = df[target_columns] # 3. 添加文件名列 # os.path.basename(file_path) 用于提取文件名,不包含路径 df['filename'] = os.path.basename(file_path) # 4. 将当前文件的数据追加到合并后的DataFrame # ignore_index=True 会重置索引,避免不同文件数据索引重复 combined_df = pd.concat([combined_df, df], ignore_index=True) print(f"已成功处理文件: {os.path.basename(file_path)}") except FileNotFoundError: print(f"错误:文件未找到 - {file_path}") except KeyError as e: print(f"错误:文件 {os.path.basename(file_path)} 中缺少必要的列:{e}") except Exception as e: print(f"处理文件 {os.path.basename(file_path)} 时发生未知错误: {e}") # 可以选择跳过当前文件并继续处理下一个 continue # 定义输出文件的路径 output_file = "../content/multiplesheet.xlsx" # 将合并后的数据保存到新的Excel文件 try: # index=False 避免将DataFrame的索引作为一列写入Excel文件 combined_df.to_excel(output_file, sheet_name='Sheet', index=False) print(f"\n所有文件已成功合并并保存到: {output_file}") except Exception as e: print(f"\n保存合并文件 {output_file} 时发生错误: {e}")
all_dfs = [] for file_path in files: # ... 读取df,添加filename列 ... all_dfs.append(df) combined_df = pd.concat(all_dfs, ignore_index=True)
通过本教程,我们学习了如何利用Python的Pandas库高效地合并多个Excel文件,并为合并后的数据自动添加一个表示其来源文件名的列。这一方法不仅简化了数据整合过程,更重要的是,它为数据分析和溯源提供了极大的便利。掌握这一技巧,将使你在处理批量Excel数据时更加得心应手。
以上就是使用Pandas合并多个Excel文件并自动添加文件名列的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号