缓存可变对象需将参数转为不可变且内容敏感的表示:用to_immutable递归转换、JSON/pickle序列化键,或源头约束参数不可变性。

当函数参数是可变对象(如 list、dict、set)时,直接用其作为缓存键会导致问题:同一对象多次调用可能内容已变,但缓存仍返回旧结果;不同对象若内容相同,却无法命中缓存。核心在于——缓存键必须反映值的“逻辑一致性”,而非对象身份。
避免直接缓存可变对象引用
Python 的 @lru_cache 默认用 id() 或对象哈希(对不可变类型有效),但 list/dict 没有稳定哈希,会直接报错或拒绝缓存。即使绕过(如转成 tuple),若传入的是同一个 list 实例,后续修改它,缓存键不变,但实际输入已变,结果就错。
例如:
def process(items): return sum(items) * 2 @lru_cache def cached_process(items): return process(items)这段代码根本无法运行(TypeError: unhashable type: 'list')。强行改成 cached_process(tuple(items)) 也不行——因为如果反复调用 cached_process(tuple(my_list)),而 my_list 中间被修改,tuple 每次都是新对象,缓存不共享;若传入同一 tuple 实例,又失去“按值缓存”意义。
用深拷贝+冻结结构构造缓存键
关键思路:把可变参数转换为等价的、不可变且内容敏感的表示。常用方法:
- 序列类(list/tuple)→ 递归 tuple 化:对嵌套 list/dict 逐层转成 tuple 和 frozenset,确保结构可哈希且反映内容
-
映射类(dict)→ frozenset of sorted items:用
frozenset((k, to_immutable(v)) for k, v in sorted(d.items())),避免键序影响 - 集合类(set)→ frozenset,但注意元素本身也需可哈希;若含 list,需先递归处理
- 写一个通用的
to_immutable(obj)辅助函数,对常见类型做标准化转换,再作为缓存键
改用基于内容的缓存策略
不依赖 Python 内置装饰器,而是手动管理缓存字典,键由参数的规范序列化生成:
- 用
json.dumps(obj, sort_keys=True, separators=(',', ':'))适用于纯 JSON 友好数据(str/int/float/list/dict/bool/None),简单可靠 - 对含自定义对象、函数、datetime 等场景,用
pickle.dumps(obj, protocol=5)(注意安全性,仅可信数据) - 对性能敏感场景,手写轻量哈希函数(如用
hashlib.sha256(repr(obj).encode()).hexdigest()[:16]),牺牲一点精确性换速度
示例节选:
from functools import lru_cache import jsondef cache_key(*args, **kwargs):
将 args 和 kwargs 统一转为 JSON 字符串(要求参数可 JSON 序列化)
data = {'args': args, 'kwargs': kwargs}
return json.dumps(data, sort_keys=True, separators=(',', ':')) 手动缓存字典
_cache = {}
def my_func(items, config=None):
key = cache_key(items, config=config)
if key in _cache:
return _cache[key]
result = heavy_computation(items, config)
_cache[key] = result
return result
更推荐:从源头约束参数不可变性
最稳健的做法不是“修缓存”,而是让接口本身拒绝可变输入:
- 函数文档和类型提示明确要求
Sequence[int]而非list,鼓励传 tuple 或其他不可变序列 - 内部对 list 参数立即做
tuple(items)或frozenset(items)转换,后续只操作不可变副本 - 使用
typing.NamedTuple、dataclasses.frozen=True或attrs(frozen=True)定义配置类,天然支持哈希 - 在调试阶段加断言:
assert not isinstance(items, (list, dict, set)), "Use tuple/frozenset instead"
这样既提升函数纯度,也让缓存逻辑回归自然——因为输入本身就是值语义,无需额外“冻结”步骤。










