分块读写可避免内存溢出,核心是按固定大小逐步操作文件。使用read(size)和生成器逐块读取,配合'rb'和'wb'模式实现高效复制。处理文本时需注意行完整性,可缓存断行部分。该方法适用于大文件处理、网络传输等场景。

处理大文件时,直接一次性读取或写入容易导致内存溢出。Python 提供了分块读取与写入的方法,既能节省内存,又能高效处理数据。核心思路是按固定大小的块逐步操作文件内容。
分块读取文件
使用 read(size) 方法可以每次只读取指定字节数的内容,避免加载整个文件到内存。
常见做法是设置一个块大小(如 8192 或 65536 字节),循环读取直到文件结束:
def read_in_chunks(file_path, chunk_size=8192):
with open(file_path, 'rb') as f:
while True:
chunk = f.read(chunk_size)
if not chunk:
break
yield chunk
使用示例
for chunk in read_in_chunks('large_file.txt'):
process(chunk) # 自定义处理函数
说明:采用生成器模式,适合处理超大文件;'rb' 模式表示以二进制方式读取,适用于所有类型文件。
立即学习“Python免费学习笔记(深入)”;
分块写入文件
向文件写入大量数据时,也应分批进行,防止内存堆积。
可结合读取的生成器,边读边写,实现高效复制或转换:
def copy_file_by_chunks(src, dst, chunk_size=8192):
with open(src, 'rb') as fin, open(dst, 'wb') as fout:
while True:
chunk = fin.read(chunk_size)
if not chunk:
break
fout.write(chunk)
说明:'wb' 表示以二进制写入;该方法可用于大文件复制、下载保存等场景。
文本文件的分块处理注意事项
若处理的是文本文件(如日志、CSV),需注意分块可能在行中间切断,影响解析。
建议改用逐行读取或确保块边界完整性:
- 使用 for line in file: 更安全,适合按行处理
- 若必须分块,可在每块末尾缓存断行部分,合并到下一块开头
- 例如在网络传输或日志流中,常用此策略保证行完整
基本上就这些。掌握分块读写,能有效应对大文件挑战,提升程序稳定性。










