Python set 的去重原理与性能考量

舞夢輝影

发布时间：2026-01-26 20:00:46

670人浏览过

来源于php中文网

原创

Python set 能去重是因为底层基于哈希表：元素插入前计算 hash() 值并映射到桶，相同值必有相同哈希值，重复插入时检测到等价元素即跳过；仅可哈希类型（如 tuple、frozenset）可加入，list/dict 不行。

python set 的去重原理与性能考量

Python set 为什么能去重？底层是哈希表

Python set 去重不是靠遍历比对，而是依赖哈希（hash）机制：每个元素被插入前先计算 hash() 值，映射到内部哈希表的某个桶（bucket）。相同值的对象必然有相同哈希值（且满足 a == b → hash(a) == hash(b)），因此第二次插入时会发现桶中已有等价元素，直接跳过。

注意：只有可哈希类型才能放进 set —— 比如 list、dict 会报 TypeError: unhashable type；而 tuple（不含不可哈希项）可以。

自定义类若想进 set，必须正确定义 __hash__ 和 __eq__
哈希冲突存在，但 CPython 用开放寻址法处理，不影响正确性
None、数值、字符串、frozenset 等内置类型都已实现合理哈希

list(set(...)) 去重会丢失原始顺序，怎么办？

Python 3.7+ 的 dict 保持插入顺序，这个特性可被借用来保序去重：

list(dict.fromkeys(items))

它比 list(set(items)) 多一次哈希计算（key 插入 dict），但避免了排序或额外索引查找。如果 items 是生成器或大列表，这种写法也更省内存——dict.fromkeys 不会提前展开整个迭代器。

立即学习“Python免费学习笔记（深入）”；

微信 WeLM

WeLM不是一个直接的对话机器人，而是一个补全用户输入信息的生成模型。

下载

不要用 sorted(set(...)) 除非你真需要排序后结果
若需稳定去重 + 条件过滤，用 seen = set(); [x for x in items if not (x in seen or seen.add(x))]（注意 add() 返回 None）
第三方库如 more-itertools.unique_everseen 更语义清晰，但引入依赖

大数据量下 set 去重比 list.count 或 in 慢？不，恰恰相反

对长度为 N 的列表，用 for x in lst: if x not in seen: seen.append(x) 这种方式，每次 in 是 O(N) 列表扫描，总时间复杂度是 O(N²)；而 set 的 in 平均是 O(1)，总开销接近 O(N)。

实测：10 万整数去重，set 耗时约 8ms，纯列表模拟耗时超 2s（CPython 3.11，Mac M2）。

小数据（set
内存上 set 占用略高（哈希表有空桶、存储哈希值），但通常可接受
如果元素本身很大（如长字符串、大元组），哈希计算开销会上升，但仍是目前最通用的平衡解

嵌套结构去重只能靠 frozenset 或 tuple 化？

想对 list 列表去重？不行，因为 list 不可哈希。常见做法是转成 tuple（如果元素可哈希）：

list(set(tuple(x) for x in list_of_lists))

但如果内层含字典或集合，就得进一步转换，比如用 json.dumps(x, sort_keys=True) 生成唯一字符串再哈希——但这引入序列化开销和浮点精度、NaN 等边界问题。

frozenset 可用于去重无序集合（如 [{1,2}, {2,1}] → 一个结果），但会丢失顺序和重复元素信息
真正复杂的嵌套结构（含函数、对象引用等），set 无能为力，得用自定义缓存逻辑或 id()（仅限临时内存去重）
别忘了深拷贝风险：转 tuple 是浅转换，原列表内嵌套可变对象仍共享引用

实际用 set 去重时，最易忽略的是「可哈希性」前提和「顺序丢失」副作用；一旦涉及嵌套或自定义类型，哈希逻辑就得手动接管，这时候就不是一行 set() 能解决的事了。

如何检测当前 Python 是否运行在 Nuitka 编译的可执行文件中

Python 数据结构优化与性能调优思路

Python 类属性与实例属性的查找顺序

Python 日志系统设计与实践

Python 函数签名设计与可读性原则

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关标签:

python 大数据 app mac 为什么 Python if count for 字符串 append 对象

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python dict 的哈希实现与碰撞处理下一篇：如何检测当前代码是否被 pytest 测试运行时加载

作者最新文章

GitHub 是什么开源社区？GitHub 平台功能与用途讲解

2026-01-26 15:49

交互图表插入怎么操作？交互图表插入使用教程说明

2026-01-26 15:53

Win11 系统优化怎么做？Win11 系统优化设置指南说明

2026-01-26 16:10

去哪儿旅行买机票靠谱吗_去哪儿旅行购买机票安全可靠吗

2026-01-26 16:13

vivo官方官网首页忘记密码怎么找回？vivo官网登录页面点击忘记密码重置

2026-01-26 16:34

csv.writer 如何处理字段中包含逗号/引号/换行的转义

2026-01-26 16:36

poki手游无需下载免费入口方法_Poki手机端游戏免费秒玩入口

2026-01-26 16:56

阿里巴巴官网登录入口地址_1688阿里巴巴官网登录页面入口

2026-01-26 17:03

学习通学生登录平台入口_超星学习通学生账号登录官方平台

2026-01-26 17:15

超星网络学生登录入口电脑网页版_超星学习通pc学生登录入口

2026-01-26 17:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

778

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

685

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

769

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

739

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1445

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

571

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

580

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

752

2023.08.11