Python set 操作在大数据量下的表现

冷炫風刃

发布时间：2026-01-26 19:31:59

696人浏览过

来源于php中文网

原创

Python set查找快因哈希表平均O(1)，但创建慢因需逐个hash并处理冲突；数据量大、字符串长或未重写hash时更明显，内存占用可达原始数据3–5倍。

python set 操作在大数据量下的表现

Python set 查找为什么快，但创建很慢？

set 底层是哈希表，平均 O(1) 查找确实快，但初始化时要把所有元素 hash 并处理冲突——数据量上亿时，这个过程会明显卡顿，尤其当元素是长字符串或自定义对象（没重写 hash 和 eq）时，开销更大。

大量重复字符串：用 set(list_data) 比用 {x for x in list_data} 稍快，但差别不大；真正影响性能的是字符串本身长度和内存分配
从文件逐行构建：别用 set(line.strip() for line in f)，改用 set() 实例 + 循环 .add()，能减少中间生成器开销
内存占用高：一个空 set 初始约 200 字节，但装入千万级元素后，实际占用常达原始数据 3–5 倍内存（因哈希表预留空槽）

1000 万以上数据，set 去重比 list 好多少？

在纯去重场景下，set 仍是唯一可行选择：list 的 if x not in lst 是 O(n)，1000 万数据可能跑数小时；而 set 整体耗时通常在秒级（取决于硬件和数据分布）。

实测对比（i7-11800H, 32GB）：
- 1000 万随机整数：set(data) ≈ 0.8s；list 去重 ≈ 42 分钟
- 1000 万短字符串（平均 12 字符）：≈ 2.3s
- 1000 万长字符串（平均 200 字符）：≈ 6.7s（hash 计算变重）
注意：如果只是判断“是否存在”，且数据可流式处理，优先用 set + in；若还需保持顺序，不要先转 set 再排序，考虑 dict.fromkeys(data).keys()（Python 3.7+ 保持插入序）

内存爆了怎么办？set 装不下 5000 万字符串

set 没有分片或懒加载机制，所有数据必须驻留内存。一旦触发系统 swap 或 OOM killer，程序直接崩溃。

先确认是不是真需要全量驻留：用 collections.Counter 或 numpy.unique（配合 dtype='U100'）有时更省内存
替代方案（按优先级）：
- 用 bloomfilter（如 pybloom_live）做存在性粗筛，再查磁盘/DB
- 分块处理：读一批 → 去重 → 写临时文件 → 合并（用 heapq.merge 配合已排序的临时文件）
- 改用 SQLite 内存库：con = sqlite3.connect(':memory:') 建唯一索引表，INSERT OR IGNORE，对超大数据更稳

为什么 set.intersection() 在大数据量下反而慢？

a.intersection(b) 默认把小集合遍历、大集合查 hash，看似合理，但若两个集合都超千万，且元素 hash 冲突多（比如大量相似字符串），实际性能可能不如手动用 filter(lambda x: x in b, a)（后者至少避免构造新 set 的内存峰值）。

易通cmseasy免费的企业建站程序2.0 UTF-8 build 201000510 中文版

易通(企业网站管理系统)是一款小巧,高效,人性化的企业建站程序.易通企业网站程序是国内首款免费提供模板的企业网站系统.§ 简约的界面及小巧的体积：后台菜单完全可以修改成自己最需要最高效的形式；大部分操作都集中在下拉列表框中，以节省更多版面来显示更有价值的数据；数据的显示以Javascript数组类型来输出，减少数据的传输量，加快传输速度。 § 灵活的模板标签及模

下载

立即学习“Python免费学习笔记（深入）”；

关键点：
- 总是确保 len(a) 再调 a.intersection(b)
- 若只关心交集大小，用 sum(1 for x in a if x in b) 可省掉结果 set 的内存分配
- 对字符串集合，提前用 sys.intern() 减少重复对象，能显著降低 hash 冲突率和内存

真正卡住的往往不是算法复杂度，而是哈希碰撞、内存分配延迟、字符串 intern 缺失这些细节。数据过亿前，先 sys.getsizeof(your_set) 看一眼实际占用，比盲目优化逻辑更有效。

Python 属性访问背后的 __getattribute__

Python 装饰器原理：函数替换与闭包结合

如何在 Python 子类中为方法参数设置默认值（面向对象编程实践）

Python中为子类方法设置默认参数值的正确方式

dict.popitem() 在 Python 3.7+ 的 LIFO 行为变化细节

相关标签:

python 显卡大数据字节懒加载内存占用为什么 Python numpy if for Filter 字符串循环 Lambda len 对象算法 sqlite

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：numpy 如何用 np.lib.stride_tricks.sliding_window_view 实现滑动窗口下一篇：如何判断一个对象是否支持 with 语句（enter 存在）

作者最新文章

谷歌浏览器官网下载怎么操作？谷歌浏览器官网下载步骤教程

2026-01-26 15:36

普通发票查询平台有哪些？普通发票查询平台官方渠道说明

2026-01-26 15:36

荷塘雨课堂网页版入口_荷塘雨课堂网页版登录快速指南

2026-01-26 16:02

小红书官网入口官方网址_小红书官方网站网页版登录入口详解

2026-01-26 16:04

iota + const 块嵌套还能玩吗？实验结果告诉你

2026-01-26 16:17

json.dumps() 如何自定义序列化 set / frozenset

2026-01-26 16:28

poki游戏官方入口地址详解_Poki官网免费游戏在线秒玩入口

2026-01-26 16:54

抖币充值链接怎么弄官方_抖音官方抖币充值链接获取方法

2026-01-26 17:05

ios抖币充值比例详解_iOS苹果抖币充值比例及优惠入口

2026-01-26 17:06

1688官网网址是什么官方地址_阿里巴巴1688批发网官方网站网址

2026-01-26 17:06

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

778

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

685

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

769

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

739

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1445

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

571

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

580

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

752

2023.08.11