优化Pandas DataFrame I/O：使用多线程异步保存CSV文件

心靈之曲

发布时间：2025-11-14 11:41:13

717人浏览过

来源于php中文网

原创

优化Pandas DataFrame I/O：使用多线程异步保存CSV文件

本文探讨了如何利用python的`threading`模块，在不阻塞主程序流程的情况下，异步保存pandas dataframe到csv文件。通过将耗时的i/o操作（如`to_csv`）放到单独的线程中执行，可以显著提高程序的响应性和效率。文章将详细介绍实现方法、适用场景以及多线程编程中的关键注意事项，如gil的影响和线程安全性。

在数据处理流程中，将大型Pandas DataFrame保存到CSV文件是一个常见的操作，但它往往是I/O密集型任务，可能耗费大量时间并阻塞主程序的执行。为了提升程序的响应性和整体效率，我们可以将这类耗时操作卸载到单独的线程中异步执行，从而允许主线程继续处理其他任务。

为什么选择多线程进行I/O操作？

Python的全局解释器锁（GIL）是多线程编程中一个重要的概念。GIL确保在任何给定时刻只有一个线程可以执行Python字节码，这意味着对于CPU密集型任务，多线程并不能真正实现并行计算，甚至可能因为线程切换的开销而降低性能。

然而，对于I/O密集型任务（如文件读写、网络请求等），当一个线程等待I/O操作完成时，它会释放GIL，允许其他线程运行。因此，将df.to_csv()这类文件写入操作放到单独的线程中，可以有效地利用CPU等待I/O的时间，让主线程执行其他计算任务，从而实现并发效果。

实现异步保存DataFrame到CSV

要实现异步保存DataFrame，我们可以使用Python标准库中的threading模块。基本步骤包括定义一个保存函数、创建并启动一个新线程，然后主线程继续执行其任务。

示例代码

以下代码演示了如何将一个DataFrame的子集异步保存到CSV文件，同时主线程可以继续处理另一个子集。

import pandas as pd
import threading
import time # 用于模拟主线程的其他操作

# 定义一个用于在单独线程中保存DataFrame的函数
def save_dataframe_to_csv(df: pd.DataFrame, filename: str):
    """
    将DataFrame保存到CSV文件。
    此函数将在单独的线程中执行。
    """
    print(f"线程：开始保存文件 '{filename}'...")
    start_time = time.time()
    df.to_csv(filename, index=False)
    end_time = time.time()
    print(f"线程：文件 '{filename}' 保存完成，耗时 {end_time - start_time:.2f} 秒。")

# 准备一个大型DataFrame
print("主线程：生成大型DataFrame...")
df = pd.DataFrame({
    "col1": [x for x in range(100000)],
    "col2": [x**2 for x in range(100000)],
    "col3": [f"text_{x}" for x in range(100000)]
})
print("主线程：DataFrame生成完成。")

# 根据条件分割DataFrame
print("主线程：分割DataFrame...")
df_selected = df[df["col1"] % 3 == 0]
df_unselected = df[df["col1"] % 3 != 0]
print("主线程：DataFrame分割完成。")

# 创建并启动一个新线程来保存未选中的行
print("主线程：启动新线程异步保存 'unselected_rows.csv'...")
save_thread = threading.Thread(
    target=save_dataframe_to_csv,
    args=(df_unselected, 'unselected_rows.csv')
)
save_thread.start() # 启动线程，文件保存将在后台进行

# 主线程继续执行其他任务，例如处理选中的行
print("主线程：继续处理 'df_selected' 的其他任务...")
# 模拟主线程的其他计算或I/O操作
for _ in range(5):
    time.sleep(0.5) # 模拟耗时操作
    print(f"主线程：正在进行其他操作...")

# 假设主线程需要等待文件保存完成才能继续
# 例如，如果后续操作依赖于unselected_rows.csv的存在
print("主线程：等待文件保存线程完成...")
save_thread.join() # 阻塞主线程，直到save_thread执行完毕
print("主线程：文件保存线程已完成。")

# 所有任务完成后
print("主线程：所有任务完成。")

在上述代码中：

WowTo

用AI建立视频知识库

下载

save_dataframe_to_csv 函数封装了df.to_csv()操作，它将被新线程调用。
threading.Thread 类的实例被创建，target参数指定了线程要执行的函数，args参数则传递给该函数。
save_thread.start() 启动新线程。此时，save_dataframe_to_csv 函数会在后台运行，而主线程会立即执行print("主线程：继续处理 'df_selected' 的其他任务...")及后续代码。
save_thread.join() 是可选的。如果主线程后续的操作依赖于新线程的完成（例如，需要读取刚刚保存的CSV文件），则可以使用join()方法来阻塞主线程，直到save_thread执行完毕。如果主线程不需要等待，可以省略join()。

重要注意事项

在使用多线程进行DataFrame操作时，需要考虑以下几点：

GIL与CPU密集型任务： 再次强调，尽管多线程适用于I/O密集型任务，但对于CPU密集型任务（如复杂的DataFrame计算、大数据聚合等），多线程的性能提升有限，甚至可能下降。在这种情况下，推荐使用Python的multiprocessing模块，它通过创建独立的进程来绕过GIL，实现真正的并行计算。
线程安全： 确保数据在多线程环境下的完整性和一致性至关重要。
- 不可变性： 在本例中，我们将df_unselected传递给新线程。在线程内部，我们只对其执行to_csv操作，并没有修改它。这是安全的。
- 避免共享可变状态： 如果多个线程需要访问和修改同一个DataFrame或其他共享数据结构，必须采取同步机制（如锁threading.Lock、信号量threading.Semaphore等）来防止竞态条件和数据损坏。在本教程的场景中，由于df_unselected在传递给线程后不再被主线程修改，并且线程只进行写入操作，因此不需要额外的锁。
资源管理： 确保文件句柄等资源得到妥善管理。df.to_csv()会自动处理文件打开和关闭，但在自定义文件操作时，应使用with open(...)语句来确保资源被正确释放。

总结

通过利用Python的threading模块，我们可以有效地将Pandas DataFrame的CSV保存操作异步化，从而避免阻塞主程序，提升应用程序的响应性和用户体验。这种方法尤其适用于I/O密集型任务。然而，开发者必须清楚GIL对CPU密集型任务的影响，并在必要时考虑使用multiprocessing，同时始终关注多线程环境下的数据线程安全问题。正确地应用这些并发编程技术，将使你的Python数据处理程序更加高效和健壮。

如何在 ROS2 Humble 中正确运行 Python 节点

如何在Python中删除嵌套字典中的不符合条件项并重编号键

如何在删除嵌套字典中不符合条件的项后重新编号键值

Python 大数据量下的数据结构选择

Python 如何正确设置请求超时？

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：深入理解Python继承与__init__：如何正确调用父类构造器下一篇：高效查找布尔数组中的下一个真值：基于预处理的O(1)查询策略

作者最新文章

如何用图像精准替换单词中的单个字符并实现垂直居中对齐

2026-01-18 15:07

如何为 WooCommerce 非美国订单邮件添加自定义内容

2026-01-18 15:08

免费坐 3 年公交地铁，福建福州延长“新福卡”应届毕业生优惠政策

2026-01-18 15:09

标题：解决PuLP中“模型不可行”问题：正确建模物品到类别的分配约束

2026-01-18 15:12

CorelDRAW如何绘制公文包

2026-01-18 15:27

如何判断 NumPy 多维数组切片是否为真实副本（而非视图）

2026-01-18 15:28

《光与影》TGA热度消退！Steam在线玩家数下降40%

2026-01-18 15:35

奇游手游加速器如何加速游戏

2026-01-18 15:39

Typora怎么输入代码

2026-01-18 15:49

如何在 Processing 中检测鼠标点击圆形对象并触发背景色变化

2026-01-18 16:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

639

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11

Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机（JVM）的核心工作原理与性能调优方法，包括 JVM 内存结构、对象创建与回收流程、垃圾回收器（Serial、CMS、G1、ZGC）对比分析、常见内存泄漏与性能瓶颈排查，以及 JVM 参数调优与监控工具（jstat、jmap、jvisualvm）的实战使用。通过真实案例，帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

2026.01.20

热门下载

网站特效

网站源码

网站素材

前端模板