Python脚本处理海量数据时发生内存溢出:如何优化代码避免OOM?

霞舞
发布: 2025-03-02 13:52:01
原创
531人浏览过

Python脚本处理海量数据导致内存溢出:优化策略

处理大型mongoengine数据库时,使用python脚本逐行读取并写入csv文件,当数据量超过10万条时,容易出现内存溢出(oom)错误,导致进程被系统强制终止。本文分析此问题的原因,并提供优化方案。

问题描述:

一个Python脚本循环读取大型MongoEngine数据库表,每次读取一行数据并追加到CSV文件中。当数据量达到10万级时,程序发生内存溢出,系统日志显示OOM错误,例如:

aug 22 18:59:13 ubuntu1 kernel: [35729.076177] oom-kill:constraint=constraint_none,nodemask=(null),cpuset=user.slice,mems_allowed=0,global_oom,task_memcg=/user.slice/user-1000.slice/user@1000.service/app.slice/snap.pycharm-professional.pycharm-professional.5bec252c-af46-4b4b-b24d-ca56f3e18cc8.scope,task=python,pid=82650,uid=1000
aug 22 18:59:13 ubuntu1 kernel: [35729.076201] out of memory: killed process 82650 (python) total-vm:25980252kb, anon-rss:22958888kb, file-rss:0kb, shmem-rss:0kb, uid:1000 pgtables:45712kb oom_score_adj:0
登录后复制

使用memory_profiler工具分析,发现问题代码段:

   Line #    Mem usage    Increment  Occurrences   Line Contents
   443    557.3 MiB   -906.4 MiB       47360               elif _attr_id in multiple_choices_attr_id_list:
   444    557.3 MiB   -723.6 MiB       37888                   if isinstance(answer, list):
   445    557.3 MiB -378176.5 MiB    19756656                       answer = '|'.join([
   446    557.3 MiB -376003.6 MiB    19643112                           str(option_id_name_dict.get(_id, '')) for _id in option_id_order_list if _id in answer
   447                                                             ])
   448    557.3 MiB   -725.2 MiB       37888                   _row.append(answer)
登录后复制

问题分析:

立即学习Python免费学习笔记(深入)”;

memory_profiler显示的负增量并非内存减少,而是因为其测量的是代码执行之后的内存使用情况。问题在于445行和446行的列表推导式,它创建了一个巨大的中间列表,占用大量内存。即使'|'.join(...)完成,这个中间列表仍然存在,直到垃圾回收。由于数据量巨大,垃圾回收可能无法及时处理,导致OOM。

解决方案:

避免一次性创建大型列表,采用生成器或迭代器逐行处理数据,并在处理完一行后释放不再需要的变量。使用csv模块高效写入CSV文件,避免内存缓存过多数据。 考虑数据库的批量写入功能或分批处理,降低单次处理的数据量。

Python脚本处理海量数据时发生内存溢出:如何优化代码避免OOM?

通过以上优化,可以有效避免Python脚本在处理海量数据时发生内存溢出。 建议结合实际数据量和系统资源,选择合适的优化策略。

以上就是Python脚本处理海量数据时发生内存溢出:如何优化代码避免OOM?的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号