Python文件校验应使用SHA256分块读取计算哈希值,避免内存溢出;必须以二进制模式打开文件,逐块更新hash对象并最终获取十六进制摘要。

Python中做文件内容校验,核心是用哈希(hash)算法生成唯一摘要值,相同内容必得相同hash,内容微变则hash剧变。常用算法有md5、sha1、sha256等,推荐优先用sha256——安全性高、碰撞概率极低。
为什么不能直接读全文件到内存再hash?
大文件(如几百MB或GB级)一次性读入内存会占用过多资源,甚至触发MemoryError。稳妥做法是分块读取、逐块更新hash对象。
- 每次读取固定大小(如8192字节),避免小块频繁I/O或大块爆内存
- 调用
hash_obj.update(chunk)持续累积计算,不拼接原始数据 - 最终调用
hash_obj.hexdigest()获取十六进制字符串结果
标准实现:安全读取+SHA256校验
以下为生产可用的函数模板,自动处理二进制读取、异常和资源释放:
import hashlib
def file_sha256(filepath):
hash_obj = hashlib.sha256()
try:
with open(filepath, "rb") as f:
for chunk in iter(lambda: f.read(8192), b""):
hash_obj.update(chunk)
return hash_obj.hexdigest()
except (OSError, IOError) as e:
raise RuntimeError(f"无法读取文件 {filepath}: {e}")
调用示例:print(file_sha256("data.zip")) → 输出64位小写hex字符串。
立即学习“Python免费学习笔记(深入)”;
多算法支持与校验比对技巧
若需同时支持MD5/SHA1等,可将算法名作为参数传入;校验时注意大小写和空格——sha256sum命令输出默认含空格和文件名,提取时建议用split()[0]取首字段。
- Linux/macOS下生成参考值:
sha256sum file.txt - Windows PowerShell:
Get-FileHash file.txt -Algorithm SHA256 | Format-List - 比对前统一转小写、去除首尾空格,避免因格式差异误判
常见误区提醒
校验失败不一定是文件损坏,更可能是操作疏漏:
- 用文本模式(
"r")打开二进制文件,会导致换行符误转换,必须用"rb" - 未重置hash对象就重复使用(如循环中未新建
hashlib.sha256()) - 忽略文件路径编码问题(尤其含中文路径),建议用
pathlib.Path或确保UTF-8环境










