处理大型mongoengine数据库时,使用python脚本逐行读取并写入csv文件,当数据量超过10万条时,容易出现内存溢出(oom)错误,导致进程被系统强制终止。本文分析此问题的原因,并提供优化方案。
问题描述:
一个Python脚本循环读取大型MongoEngine数据库表,每次读取一行数据并追加到CSV文件中。当数据量达到10万级时,程序发生内存溢出,系统日志显示OOM错误,例如:
aug 22 18:59:13 ubuntu1 kernel: [35729.076177] oom-kill:constraint=constraint_none,nodemask=(null),cpuset=user.slice,mems_allowed=0,global_oom,task_memcg=/user.slice/user-1000.slice/user@1000.service/app.slice/snap.pycharm-professional.pycharm-professional.5bec252c-af46-4b4b-b24d-ca56f3e18cc8.scope,task=python,pid=82650,uid=1000 aug 22 18:59:13 ubuntu1 kernel: [35729.076201] out of memory: killed process 82650 (python) total-vm:25980252kb, anon-rss:22958888kb, file-rss:0kb, shmem-rss:0kb, uid:1000 pgtables:45712kb oom_score_adj:0
使用memory_profiler工具分析,发现问题代码段:
Line # Mem usage Increment Occurrences Line Contents 443 557.3 MiB -906.4 MiB 47360 elif _attr_id in multiple_choices_attr_id_list: 444 557.3 MiB -723.6 MiB 37888 if isinstance(answer, list): 445 557.3 MiB -378176.5 MiB 19756656 answer = '|'.join([ 446 557.3 MiB -376003.6 MiB 19643112 str(option_id_name_dict.get(_id, '')) for _id in option_id_order_list if _id in answer 447 ]) 448 557.3 MiB -725.2 MiB 37888 _row.append(answer)
问题分析:
立即学习“Python免费学习笔记(深入)”;
memory_profiler显示的负增量并非内存减少,而是因为其测量的是代码执行之后的内存使用情况。问题在于445行和446行的列表推导式,它创建了一个巨大的中间列表,占用大量内存。即使'|'.join(...)完成,这个中间列表仍然存在,直到垃圾回收。由于数据量巨大,垃圾回收可能无法及时处理,导致OOM。
解决方案:
避免一次性创建大型列表,采用生成器或迭代器逐行处理数据,并在处理完一行后释放不再需要的变量。使用csv模块高效写入CSV文件,避免内存缓存过多数据。 考虑数据库的批量写入功能或分批处理,降低单次处理的数据量。
通过以上优化,可以有效避免Python脚本在处理海量数据时发生内存溢出。 建议结合实际数据量和系统资源,选择合适的优化策略。
以上就是Python脚本处理海量数据时发生内存溢出:如何优化代码避免OOM?的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号