0

0

优化Pandas DataFrame I/O:使用多线程异步保存CSV文件

心靈之曲

心靈之曲

发布时间:2025-11-14 11:41:13

|

717人浏览过

|

来源于php中文网

原创

优化Pandas DataFrame I/O:使用多线程异步保存CSV文件

本文探讨了如何利用python的`threading`模块,在不阻塞主程序流程的情况下,异步保存pandas dataframe到csv文件。通过将耗时的i/o操作(如`to_csv`)放到单独的线程中执行,可以显著提高程序的响应性和效率。文章将详细介绍实现方法、适用场景以及多线程编程中的关键注意事项,如gil的影响和线程安全性。

在数据处理流程中,将大型Pandas DataFrame保存到CSV文件是一个常见的操作,但它往往是I/O密集型任务,可能耗费大量时间并阻塞主程序的执行。为了提升程序的响应性和整体效率,我们可以将这类耗时操作卸载到单独的线程中异步执行,从而允许主线程继续处理其他任务。

为什么选择多线程进行I/O操作?

Python的全局解释器锁(GIL)是多线程编程中一个重要的概念。GIL确保在任何给定时刻只有一个线程可以执行Python字节码,这意味着对于CPU密集型任务,多线程并不能真正实现并行计算,甚至可能因为线程切换的开销而降低性能。

然而,对于I/O密集型任务(如文件读写、网络请求等),当一个线程等待I/O操作完成时,它会释放GIL,允许其他线程运行。因此,将df.to_csv()这类文件写入操作放到单独的线程中,可以有效地利用CPU等待I/O的时间,让主线程执行其他计算任务,从而实现并发效果。

实现异步保存DataFrame到CSV

要实现异步保存DataFrame,我们可以使用Python标准库中的threading模块。基本步骤包括定义一个保存函数、创建并启动一个新线程,然后主线程继续执行其任务。

示例代码

以下代码演示了如何将一个DataFrame的子集异步保存到CSV文件,同时主线程可以继续处理另一个子集。

import pandas as pd
import threading
import time # 用于模拟主线程的其他操作

# 定义一个用于在单独线程中保存DataFrame的函数
def save_dataframe_to_csv(df: pd.DataFrame, filename: str):
    """
    将DataFrame保存到CSV文件。
    此函数将在单独的线程中执行。
    """
    print(f"线程:开始保存文件 '{filename}'...")
    start_time = time.time()
    df.to_csv(filename, index=False)
    end_time = time.time()
    print(f"线程:文件 '{filename}' 保存完成,耗时 {end_time - start_time:.2f} 秒。")

# 准备一个大型DataFrame
print("主线程:生成大型DataFrame...")
df = pd.DataFrame({
    "col1": [x for x in range(100000)],
    "col2": [x**2 for x in range(100000)],
    "col3": [f"text_{x}" for x in range(100000)]
})
print("主线程:DataFrame生成完成。")

# 根据条件分割DataFrame
print("主线程:分割DataFrame...")
df_selected = df[df["col1"] % 3 == 0]
df_unselected = df[df["col1"] % 3 != 0]
print("主线程:DataFrame分割完成。")

# 创建并启动一个新线程来保存未选中的行
print("主线程:启动新线程异步保存 'unselected_rows.csv'...")
save_thread = threading.Thread(
    target=save_dataframe_to_csv,
    args=(df_unselected, 'unselected_rows.csv')
)
save_thread.start() # 启动线程,文件保存将在后台进行

# 主线程继续执行其他任务,例如处理选中的行
print("主线程:继续处理 'df_selected' 的其他任务...")
# 模拟主线程的其他计算或I/O操作
for _ in range(5):
    time.sleep(0.5) # 模拟耗时操作
    print(f"主线程:正在进行其他操作...")

# 假设主线程需要等待文件保存完成才能继续
# 例如,如果后续操作依赖于unselected_rows.csv的存在
print("主线程:等待文件保存线程完成...")
save_thread.join() # 阻塞主线程,直到save_thread执行完毕
print("主线程:文件保存线程已完成。")

# 所有任务完成后
print("主线程:所有任务完成。")

在上述代码中:

WowTo
WowTo

用AI建立视频知识库

下载
  1. save_dataframe_to_csv 函数封装了df.to_csv()操作,它将被新线程调用。
  2. threading.Thread 类的实例被创建,target参数指定了线程要执行的函数,args参数则传递给该函数。
  3. save_thread.start() 启动新线程。此时,save_dataframe_to_csv 函数会在后台运行,而主线程会立即执行print("主线程:继续处理 'df_selected' 的其他任务...")及后续代码。
  4. save_thread.join() 是可选的。如果主线程后续的操作依赖于新线程的完成(例如,需要读取刚刚保存的CSV文件),则可以使用join()方法来阻塞主线程,直到save_thread执行完毕。如果主线程不需要等待,可以省略join()。

重要注意事项

在使用多线程进行DataFrame操作时,需要考虑以下几点:

  1. GIL与CPU密集型任务: 再次强调,尽管多线程适用于I/O密集型任务,但对于CPU密集型任务(如复杂的DataFrame计算、大数据聚合等),多线程的性能提升有限,甚至可能下降。在这种情况下,推荐使用Python的multiprocessing模块,它通过创建独立的进程来绕过GIL,实现真正的并行计算。

  2. 线程安全: 确保数据在多线程环境下的完整性和一致性至关重要。

    • 不可变性: 在本例中,我们将df_unselected传递给新线程。在线程内部,我们只对其执行to_csv操作,并没有修改它。这是安全的。
    • 避免共享可变状态: 如果多个线程需要访问和修改同一个DataFrame或其他共享数据结构,必须采取同步机制(如锁threading.Lock、信号量threading.Semaphore等)来防止竞态条件和数据损坏。在本教程的场景中,由于df_unselected在传递给线程后不再被主线程修改,并且线程只进行写入操作,因此不需要额外的锁。
  3. 资源管理: 确保文件句柄等资源得到妥善管理。df.to_csv()会自动处理文件打开和关闭,但在自定义文件操作时,应使用with open(...)语句来确保资源被正确释放。

总结

通过利用Python的threading模块,我们可以有效地将Pandas DataFrame的CSV保存操作异步化,从而避免阻塞主程序,提升应用程序的响应性和用户体验。这种方法尤其适用于I/O密集型任务。然而,开发者必须清楚GIL对CPU密集型任务的影响,并在必要时考虑使用multiprocessing,同时始终关注多线程环境下的数据线程安全问题。正确地应用这些并发编程技术,将使你的Python数据处理程序更加高效和健壮。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

639

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 9.1万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号