Python 使用 pandas chunk 处理大文件

冰川箭仙

发布时间：2025-09-23 21:38:01

996人浏览过

来源于php中文网

原创

chunk是pandas分块读取数据时的单位，设置chunksize可返回可迭代对象，每块为小型DataFrame；示例中每次读取10000行进行处理，适用于清洗、统计、导出等场景；通过累计sum和count计算全局均值，或过滤后保存到新文件、写入数据库；需权衡chunksize大小，避免内存累积，注意跨块操作需维护中间状态。

python 使用 pandas chunk 处理大文件

处理大文件时，直接读取整个文件容易导致内存溢出。Python 中的 pandas 提供了 chunksize 参数，可以分块读取数据，逐块处理，有效降低内存占用。

什么是 chunk？

在使用 pandas.read_csv() 或类似方法时，设置 chunksize 参数会返回一个可迭代的对象，每次只加载一部分数据。每一块（chunk）都是一个小型 DataFrame，可以单独处理。

示例代码：

import pandas as pd

指定每次读取 10000 行

chunk_size = 10000 file_path = 'large_data.csv'

for chunk in pd.read_csv(file_path, chunksize=chunk_size):

立即学习“Python免费学习笔记（深入）”；

生活同城信息网系统

fankuan8生活同城信息网系统 v1206采用主流的Asp+Access开发设计，网站美工设计方面更大气，漂亮!网站浏览器兼容性也比较好，网站功能方面的细节方面十分强大。网站程序的几大特点： 1.全站页面实行了伪静态化，各类型网站服务器的伪静态文件都已近处理好了，无需自己再做伪静态出来。 2.网站前台开始使用了fankuan8独立开发的互助链系统，开始使用时，在网站底部点击链接根据提示马上

下载

对每一块数据进行处理

print(f"处理 {len(chunk)} 行数据")
# 例如：统计某一列的均值
if 'value' in chunk.columns:
    print("value 列平均值:", chunk['value'].mean())

常见用途与技巧

分块读取适用于多种场景，比如数据清洗、聚合统计、写入数据库或导出新文件。

1. 聚合全局统计信息
即使数据被分块，也可以累计计算总和、均值等。

total_sum = 0
total_count = 0
for chunk in pd.read_csv(file_path, chunksize=10000):
total_sum += chunk['value'].sum()
total_count += len(chunk)
overall_mean = total_sum / total_count
print("整体均值:", overall_mean)

2. 过滤数据并保存结果
可以筛选符合条件的数据，写入新文件。

output_file = 'filtered_data.csv' first_chunk = True # 控制是否写入表头

for chunk in pd.read_csv(file_path, chunksize=10000): filtered = chunk[chunk['value'] > 100]

第一次写入时包含表头，后续追加

filtered.to_csv(output_file, mode='a', header=first_chunk, index=False)
first_chunk = False

3. 写入数据库适合将大数据逐步导入数据库。 from sqlalchemy import create_engine engine = create_engine('sqlite:///mydb.db') for chunk in pd.read_csv(file_path, chunksize=5000): chunk.to_sql('table_name', engine, if_exists='append', index=False) 注意事项使用 chunk 处理时需要注意以下几点： chunksize 大小需权衡：太小会增加 I/O 开销，太大仍可能耗内存，一般 5000～50000 行较合适。确保每块数据处理完及时释放，避免累积变量占用内存。若需去重或排序，分块处理会复杂，可能需要额外策略（如分组键哈希）。某些操作（如跨块统计）需手动维护中间状态。基本上就这些。合理使用 chunk 可以轻松应对远超内存容量的 CSV 文件处理任务。


					
													
								相关文章
							
							
																	
										如何在Pandas中高效处理缺失值并批量替换为零
									
																	
										如何使用 Pandas 的 pivot 方法将分类列值转为新列
									
																	
										PythonAI学习地图教程_核心知识一览无遗
									
																	
										Python转型AI第一阶段教程_掌握数据与模型
									
																	
										Python时间序列分析教程_Pandas时间索引实践
									
															
													
								相关标签:
								
									python 大数据 app csv 数据清洗 内存占用 可迭代对象 red Python pandas count 对象 数据库								
							
						
						本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn
						
													上一篇：Python 检测 Ctrl+R 组合键并重启程序教程
													下一篇：检测字符串中是否包含元音字母的 Python 方法
												
					

					
													
								
									 
										作者最新文章
									
								
																	
										
											
												移动修改手机归属地官方办理方式
											
											
												2026-01-08 09:29
											
										
								
																	
										
											
												漫蛙漫画入口连接_漫蛙漫画正版官方入口2026
											
											
												2026-01-08 09:49
											
										
								
																	
										
											
												ao3镜像链接2026最新版 AO3最新稳定镜像链接2026入口地址
											
											
												2026-01-08 09:50
											
										
								
																	
										
											
												如何彻底删除python
											
											
												2026-01-08 10:05
											
										
								
																	
										
											
												Python请求并发控制_限流策略说明【指导】
											
											
												2026-01-08 10:09
											
										
								
																	
										
											
												苹果预约修理中心官网入口_苹果官方维修预约服务中心入口
											
											
												2026-01-08 10:26
											
										
								
																	
										
											
												公历转农历生日查询器官网_阴历农历转换官方入口
											
											
												2026-01-08 10:45
											
										
								
																	
										
											
												春运火车票提前多少天买票 春运提前多久买火车票
											
											
												2026-01-08 10:49
											
										
								
																	
										
											
												春运开始的时间 春运开始日期
											
											
												2026-01-08 10:50
											
										
								
																	
										
											
												Python执行流程解析教程_代码运行顺序详解
											
											
												2026-01-08 11:10
											
										
								
															
						
						
							
								 
									热门AI工具
								
								更多
							

							
																	
										
											
											
												DeepSeek
												幻方量化公司旗下的开源大模型平台
																									
																												AI大模型
																													开放平台
																											
																							
										
									
																	
										
											
											
												豆包大模型
												字节跳动自主研发的一系列大型语言模型
																									
																												AI大模型
																											
																							
										
									
																	
										
											
											
												通义千问
												阿里巴巴推出的全能AI助手
																									
																												AI大模型
																											
																							
										
									
																	
										
											
											
												腾讯元宝
												腾讯混元平台推出的AI助手
																									
																												文档处理
																													Excel 表格
																											
																							
										
									
																	
										
											
											
												文心一言
												文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。
																									
																												AI大模型
																													中文写作
																											
																							
										
									
																	
										
											
											
												讯飞写作
												基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿
																									
																												中文写作
																													写作工具
																											
																							
										
									
																	
										
											
											
												即梦AI
												一站式AI创作平台，免费AI图片和视频生成。
																									
																												图片拼接
																													图画生成
																											
																							
										
									
																	
										
											
											
												ChatGPT
												最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
																									
																												AI大模型
																													中文写作
																											
																							
										
									
																	
										
											
											
												智谱清言 - 免费全能的AI助手
												智谱清言 - 免费全能的AI助手
																									
																												AI大模型
																													PDF 文档


			
				
                    
                
				
					
						 
							相关专题
						
						更多
					
					
													
								
								
									python开发工具
									php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。
									
										 
											742
										
										 
											2023.06.15
										
									
								
							
													
								
								
									python打包成可执行文件
									本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。
									
										 
											634
										
										 
											2023.07.20
										
									
								
							
													
								
								
									python能做什么
									python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。
									
										 
											756
										
										 
											2023.07.25
										
									
								
							
													
								
								
									format在python中的用法
									Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。
									
										 
											617
										
										 
											2023.07.31
										
									
								
							
													
								
								
									python教程
									Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。
									
										 
											1259
										
										 
											2023.08.03
										
									
								
							
													
								
								
									python环境变量的配置
									Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。
									
										 
											547
										
										 
											2023.08.04
										
									
								
							
													
								
								
									python eval
									eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。
									
										 
											577
										
										 
											2023.08.04
										
									
								
							
													
								
								
									scratch和python区别
									scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。
									
										 
											705
										
										 
											2023.08.11
										
									
								
							
													
								
								
									c++主流开发框架汇总
									本专题整合了c++开发框架推荐，阅读专题下面的文章了解更多详细内容。
									
										 
											3
										
										 
											2026.01.09
										
									
								
							
											
				

				
					
						 
							热门下载
						
						更多
					
					
						
							网站特效   /
							网站源码  /
							网站素材  /
							前端模板 
						
						
															
									
										
										[表单按钮]js点击弹窗弹出登录框代码
									
								
															
									
										
										[窗口特效]利用jquery实现右侧悬浮在线客服代码
									
								
															
									
										
										[文字特效]CSS3文本阴影彩虹阴影特效
									
								
															
									
										
										[窗口特效]div css会员问题介绍页面布局
									
								
															
									
										
										[文字特效]js全屏文字弹幕发送代码
									
								
															
									
										
										[窗口特效]HTML5图文卡片响应式布局特效
									
								
															
									
										
										[表单按钮]js下拉选择配送城市列表代码
									
								
															
									
										
										[文字特效]CSS3仿电影文字标题动画特效
									
								
															
									
										
										[图片特效]js进度条拖动倒影图片放大效果
									
								
															
									
										
										[表单按钮]HTML5登录注册表单切换代码
									
								
													
						
															
									
										
										[企业站源码]雅龙智能装备工业设备类WordPress主题1.0 
									
								
															
									
										
										[电商源码]威发卡自动发卡系统 
									
								
															
									
										
										[电商源码]卡密分发系统 
									
								
															
									
										
										[电商源码]中华陶瓷网 
									
								
															
									
										
										[电商源码]简洁粉色食品公司网站 
									
								
															
									
										
										[电商源码]极速网店系统 
									
								
															
									
										
										[电商源码]淘宝妈妈_淘客推广系统 
									
								
															
									
										
										[电商源码]积客B2SCMS商城系统 
									
								
															
									
										
										[电商源码]CODEC2I 众筹系统 
									
								
															
									
										
										[电商源码]ieshop超级网店系统 
									
								
													
						
															
									
										
										[网站素材]2026极简新年贺卡矢量模板 
									
								
															
									
										
										[网站素材]2026立体建筑迷宫矢量素材 
									
								
															
									
										
										[网站素材]挂耳耳机折扣海报设计源文件下载 
									
								
															
									
										
										[网站素材]2026新年派对香槟庆祝矢量素材 
									
								
															
									
										
										[网站素材]手机促销折扣海报设计素材下载 
									
								
															
									
										
										[网站素材]超市购物主题方形海报PSD模板下载 
									
								
															
									
										
										[网站素材]鸡肉卷特价折扣美食海报PSD下载 
									
								
															
									
										
										[网站素材]复古手绘烘焙面包菜单矢量模板 
									
								
															
									
										
										[网站素材]新中式水墨松树山水矢量素材 
									
								
															
									
										
										[网站素材]紫色风格蓝牙耳机特价订购海报设计下载 
									
								
													
						
															
									
										
										[前端模板]驾照考试驾校HTML5网站模板 
									
								
															
									
										
										[前端模板]驾照培训服务机构宣传网站模板 
									
								
															
									
										
										[前端模板]HTML5房地产公司宣传网站模板 
									
								
															
									
										
										[前端模板]新鲜有机肉类宣传网站模板 
									
								
															
									
										
										[前端模板]响应式天气预报宣传网站模板 
									
								
															
									
										
										[前端模板]房屋建筑维修公司网站CSS模板 
									
								
															
									
										
										[前端模板]响应式志愿者服务网站模板 
									
								
															
									
										
										[前端模板]创意T恤打印店网站HTML5模板 
									
								
															
									
										
										[前端模板]网页开发岗位简历作品展示网页模板 
									
								
															
									
										
										[前端模板]响应式人力资源机构宣传网站模板 
									
								
													
					
					

				

				
					
                



				
					
						 
							相关下载
						
						更多
					
					
											生活同城信息网系统
											赣极购物商城网店建站软件系统
										

				

				
					
						 
							精品课程
						
						更多
					
					
						
							相关推荐   /
							热门推荐  /
							最新课程 
						
						
													
								
									
								
								
									Pandas 教程

									
										共15课时 | 0.9万人学习
									
								
							
													
								
									
								
								
									CSS3 教程

									
										共18课时 | 4.4万人学习
									
								
							
													
								
									
								
								
									【web前端】Node.js快速入门

									
										共16课时 | 1.9万人学习
									
								
							
												

						
															
									
										
									
									
										JavaScript ES5基础线上课程教学

										
											共6课时 | 6.9万人学习
										
									
								
															
									
										
									
									
										最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

										
											共79课时 | 150.9万人学习
										
									
								
															
									
										
									
									
										phpStudy极速入门视频教程

										
											共6课时 | 53.3万人学习
										
									
								
													

						
															
										
											
										
										
											最新Python教程 从入门到精通

											
												共4课时 | 0.6万人学习
											
										
									
																
										
											
										
										
											JavaScript ES5基础线上课程教学

											
												共6课时 | 6.9万人学习
											
										
									
																
										
											
										
										
											PHP新手语法线上课程教学

											
												共13课时 | 0.8万人学习
											
										
									
														
						

					
				

				
					
						 
							最新文章
						
						更多
					
					
													Matplotlib 渲染线条失真：y轴范围过大导致数据看似“扁平化”
													Python数据库操作教程_SQLiteMySQL连接使用
													PythonAI项目结构教程_规范化组织AI工程代码
													如何在 Python Telegram Bot 中实现水平排列的自定义键盘按钮
													ValueError 解决方案：修复训练集与测试集长度不匹配问题
													python怎么显示行号
													python堆和栈的区别有哪些
													如何在 Python 中转置不规则二维数组（锯齿状数组）
													Matplotlib 绘图中因坐标轴范围失衡导致线条显示异常的排查与修复
													PythonAI高阶阶段教程_大模型与工程化能力