讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

python中怎么对列表去重？

穿越時空

发布时间：2025-09-12 15:14:01

|

1068人浏览过

|

来源于php中文网

原创

最常用且高效的方法是使用set()进行去重，适用于元素可哈希且无需保留顺序的场景；若需保留原始顺序，推荐使用dict.fromkeys()（Python 3.7+），其兼具高效性与顺序保持能力；对于不可哈希元素（如列表、字典），则只能通过遍历并逐项比较的方式实现去重，虽性能较低但通用性强。这三种方法分别对应不同需求：set适合大多数常规去重，dict.fromkeys兼顾效率与顺序，手动循环则应对复杂数据类型。性能方面，前两者平均时间复杂度为O(N)，远优于第三种的O(N²)。实际应用中应根据元素类型和顺序要求选择合适方案。

python中怎么对列表去重？

在Python中对列表进行去重，最常用也最直接的方法是利用

set

（集合）数据结构，因为它天然地只存储唯一元素。将列表转换为集合，然后再转换回列表，就能高效地移除重复项。

解决方案

当我们需要从Python列表中移除重复项时，有几种方法可以选择，每种都有其适用场景和考量。我个人在不同情境下会灵活运用它们。

1. 使用

set()

进行去重（最常用且高效）

这是最简洁也通常是最高效的方法，尤其适用于列表元素都是可哈希（hashable）类型（如数字、字符串、元组）的情况。

立即学习“Python免费学习笔记（深入）”；

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
unique_list = list(set(original_list))
print(unique_list)
# 输出: [1, 2, 3, 4, 5] (顺序可能与原列表不同)

我的看法：

set

的效率非常高，因为它内部使用了哈希表。对于绝大多数场景，如果对元素的原始顺序没有要求，这绝对是首选。但要记住，它会打乱原始顺序，这在某些数据处理流程中可能会是个坑。

2. 使用

dict.fromkeys()

结合
list()
（保留原始顺序，Python 3.7+）

这个方法利用了字典键的唯一性。

dict.fromkeys()

会创建一个新字典，其键来自提供的序列，值默认为

None

。由于字典会保留键的插入顺序（从Python 3.7开始），我们可以巧妙地利用这一点。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
unique_list_ordered = list(dict.fromkeys(original_list))
print(unique_list_ordered)
# 输出: [1, 2, 3, 4, 5] (保留了第一次出现的顺序)

我的看法： 这个方法简直是神器！它兼顾了简洁性和效率（内部实现也依赖哈希），同时解决了

set

方法不保留顺序的问题。如果你的元素是可哈希的，并且需要保留原始插入顺序，这几乎是完美的解决方案。

3. 使用循环和新列表（适用于不可哈希元素或对性能不极致要求时）

当列表包含不可哈希的元素（如其他列表、字典或自定义对象，除非你为它们实现了

__hash__

和

__eq__

方法）时，

set

和

dict.fromkeys

就无能为力了。这时，我们只能通过遍历原始列表，并将不重复的元素添加到新列表中。

original_list = [1, 2, [3, 4], 2, [3, 4], 5]
unique_list_manual = []
for item in original_list:
    if item not in unique_list_manual:
        unique_list_manual.append(item)
print(unique_list_manual)
# 输出: [1, 2, [3, 4], 5] (保留了原始顺序，且适用于不可哈希元素)

我的看法： 这种方法虽然看起来“笨拙”一些，但在处理复杂数据类型时却是最可靠的。它的缺点是性能可能不如基于哈希的方法，因为

item not in unique_list_manual

操作在最坏情况下需要遍历

unique_list_manual

的所有元素。但对于小到中等规模的列表，或者当其他方法不适用时，它依然是坚实的选择。

为什么列表去重在Python编程中如此重要？

列表去重远不止是代码上的一个小技巧，它在实际的编程工作中扮演着至关重要的角色。从数据完整性到程序性能，再到用户体验，它的影响无处不在。我经常遇到的情况是，如果不对数据进行去重，后续的逻辑可能会变得异常复杂，甚至出现错误。

想象一下，你正在处理一份用户提交的邮件列表，如果其中有重复的地址，你发出的每一封邮件都可能被发送多次，这不仅浪费资源，还可能让用户感到困扰。或者，你在分析日志文件，统计某个事件的发生次数，如果日志中存在重复的事件记录，你的统计结果就会严重偏离真实情况。

去重能帮助我们：

确保数据唯一性与准确性： 这是最直接的好处。无论是数据库记录、API响应还是用户输入，唯一的数据往往是进行正确分析和处理的基础。
优化程序性能： 处理一个较小的、无重复的数据集通常比处理一个庞大且包含冗余的数据集要快得多。减少数据量意味着更少的内存占用和更快的计算速度。
简化后续逻辑： 当你确信列表中的每个元素都是唯一的时，你可以更自信地编写依赖于此假设的代码，从而避免了为处理重复项而设计的额外复杂逻辑。
提升用户体验： 在展示数据给用户时，例如一个选项列表或一个搜索结果，去除重复项能让信息更清晰、更易读，避免混淆。

在我看来，去重是数据清洗（data cleaning）的一个基本环节，就像整理房间一样，把不必要的重复物品清理掉，才能让整个空间更有效率、更整洁。

当处理大型Python列表时，去重有哪些性能考量？

处理大型列表的去重问题，性能就成了不得不考虑的关键因素。不同的去重方法在面对海量数据时，其效率差异会非常显著。我通常会根据列表的规模和元素特性，权衡选择最合适的方案。

科威旅游管理系统

科威旅游管理系统

该软件是以php+MySQL进行开发的旅游管理网站系统。系统前端采用可视化布局，能自动适应不同尺寸屏幕，一起建站，不同设备使用，免去兼容性烦恼。系统提供列表、表格、地图三种列表显示方式，让用户以最快的速度找到所需行程，大幅提高效率。系统可设置推荐、优惠行程，可将相应行程高亮显示，对重点行程有效推广，可实现网站盈利。系统支持中文、英文，您还可以在后台添加新的语言，关键字单独列出，在后台即可快速翻译。

下载

1.

set()

方法的性能：

平均时间复杂度： O(N)，其中N是列表的长度。这是因为集合的添加操作（以及检查元素是否存在）在平均情况下是常数时间复杂度O(1)。
最坏时间复杂度： O(N^2)。在极少数情况下，如果哈希冲突非常严重，或者Python的哈希函数设计不佳，可能会退化到O(N^2)。但在实际应用中，这种情况非常罕见。
内存使用： 会创建一个与原始列表大小相近的临时集合对象。对于非常大的列表，这可能是一个内存消耗点。

2.

dict.fromkeys()

方法的性能：

平均时间复杂度： 同样是O(N)，与
```
set()
```
方法类似，因为它也依赖于哈希表。
内存使用： 也会创建一个临时字典，其内存占用与
```
set
```
类似。

3. 循环加

in

检查的方法的性能：

时间复杂度： O(N*M)，其中N是原始列表的长度，M是已去重列表的当前长度。在最坏情况下（例如，所有元素都是唯一的），M会逐渐增长到N，导致总时间复杂度接近O(N^2)。
内存使用： 除了原始列表，还会创建一个新的列表来存储唯一元素，内存占用与原始列表相似。

总结和建议：

对于大多数情况，基于哈希的

set()

或

dict.fromkeys()

方法是性能最优的选择。它们的平均时间复杂度是线性的，这意味着处理的数据量越大，它们的优势越明显。

如果列表非常庞大，比如数百万甚至上亿条记录，并且内存是一个严格的限制，你可能需要考虑流式处理或者使用更专业的库（如Pandas），而不是一次性将所有数据加载到内存中去重。但对于Python内置的数据结构而言，哈希方法依然是首选。

为了验证不同方法的性能差异，我有时会使用Python的

timeit

模块进行简单的基准测试。这能帮助我在特定场景下做出数据驱动的决策。

import timeit

# 准备一个包含大量重复项的列表
list_large = [i for i in range(10000)] * 100 # 100万个元素，1万个唯一值

# 测试 set() 方法
time_set = timeit.timeit("list(set(list_large))", globals={'list_large': list_large}, number=10)
print(f"Set method: {time_set:.4f} seconds")

# 测试 dict.fromkeys() 方法
time_dict_fromkeys = timeit.timeit("list(dict.fromkeys(list_large))", globals={'list_large': list_large}, number=10)
print(f"Dict.fromkeys method: {time_dict_fromkeys:.4f} seconds")

# 测试循环加 in 检查的方法 (对于大列表会非常慢，谨慎运行)
# time_loop = timeit.timeit("""
# unique_list_manual = []
# for item in list_large:
#     if item not in unique_list_manual:
#         unique_list_manual.append(item)
# """, globals={'list_large': list_large}, number=1) # 只运行一次，因为太慢了
# print(f"Loop method: {time_loop:.4f} seconds")

通过这样的测试，你会清晰地看到哈希方法的巨大性能优势。

如何处理不可哈希的列表元素，或者在去重时必须保持原始顺序？

在实际开发中，我们遇到的列表元素并非总是简单的数字或字符串。有时，它们可能是列表、字典或其他自定义对象，而这些类型默认是不可哈希的。同时，在某些业务场景下，列表元素的原始顺序又至关重要。这两种情况都需要我们采取更细致的去重策略。

处理不可哈希的元素：

当列表包含不可哈希的元素时，

set()

和

dict.fromkeys()

方法会直接抛出

TypeError: unhashable type

错误。这时，我们唯一的选择就是回退到基于迭代和比较的去重方法。

# 包含不可哈希列表的列表
list_of_lists = [[1, 2], [3, 4], [1, 2], [5, 6], [3, 4]]

unique_list_of_lists = []
for item in list_of_lists:
    if item not in unique_list_of_lists:
        unique_list_of_lists.append(item)

print(unique_list_of_lists)
# 输出: [[1, 2], [3, 4], [5, 6]]

这里

item not in unique_list_of_lists

的判断是基于元素的

__eq__

方法（即等值比较），而不是哈希值。对于列表，

[1,2] == [1,2]

会返回

True

，所以这种方法能正确识别重复项。

我的思考： 这种方法虽然性能相对较低，但却是处理复杂数据类型的“万能钥匙”。如果你自定义了类，并且希望它们可以去重，你需要确保为这些类正确实现了

__eq__

方法。如果还想使用

set

或

dict.fromkeys

，那就需要进一步实现

__hash__

方法，但这通常会增加代码的复杂性。

在去重时保持原始顺序：

正如前面提到的，

list(set(my_list))

会打乱原始顺序。如果顺序是业务逻辑的关键部分，那么我们必须选择能够保留顺序的方法。

```
list(dict.fromkeys(my_list))
```
(推荐用于可哈希元素)： 这是最优雅且高效的解决方案，前提是你的列表元素都是可哈希的。从Python 3.7开始，字典会保持键的插入顺序，所以这个方法完美地结合了去重和顺序保留。
```
original_data = ['apple', 'banana', 'apple', 'orange', 'banana', 'grape']
ordered_unique_data = list(dict.fromkeys(original_data))
print(ordered_unique_data)
# 输出: ['apple', 'banana', 'orange', 'grape']
```

循环加

in

检查的方法 (适用于不可哈希元素或作为通用方案)： 这种方法天生就能保持元素的原始插入顺序，因为它是一个接一个地检查并添加到新列表中。

mixed_list = [1, 'a', [1,2], 1, 'a', {'key': 'value'}, [1,2]]
ordered_unique_mixed = []
for item in mixed_list:
    if item not in ordered_unique_mixed:
        ordered_unique_mixed.append(item)
print(ordered_unique_mixed)
# 输出: [1, 'a', [1, 2], {'key': 'value'}]

我的经验之谈： 我不止一次地因为忽略了

set

会打乱顺序的特性而掉入坑里。尤其是在处理一些需要按时间顺序或特定逻辑顺序排列的数据时，这种“顺序丢失”可能会导致非常隐蔽的bug。因此，在选择去重方法时，我总是会先问自己两个问题：1. 元素是否可哈希？ 2. 原始顺序是否需要保留？这两个问题的答案，基本就能指导我选择最合适的去重策略了。

相关文章

Python 为什么不推荐复杂继承体系？

Python 并发程序为何难以测试？

Python 数据结构如何影响算法复杂度？

Python flush 到底刷新了什么？

Python 动态导入的正确使用方式

python速学教程(入门到精通)

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

python app apple python编程内存占用排列为什么 red Python pandas 数据类型字符串循环数据结构对象事件数据库 bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：python如何生成一个随机数_python生成随机数的常用方法下一篇：Python怎么对DataFrame的某一列应用函数_apply与map方法在DataFrame中的应用

作者最新文章

如何查看浏览器占用了多少内存和CPU？浏览器内置任务管理器使用指南

2026-01-17 18:05

转转官网登录入口在线转转网页版电脑版官网

2026-01-17 18:22

Win11怎么启用隐藏的“可靠性监视器”_Win11系统稳定性历史图表调出【诊断】

2026-01-17 18:36

Win11怎么关闭搜索索引_Win11减少资源占用优化方法【性能】

2026-01-17 18:40

Win11怎么禁用显示器节能模式_Win11屏幕自动休眠关闭【系统】

2026-01-17 19:04

Win11怎么设置电源高性能模式_Win11提升性能电源方案【性能】

2026-01-17 19:09

浏览器显示不安全，但需要访问怎么办？浏览器忽略证书警告继续访问

2026-01-17 19:51

Windows如何开启卓越性能模式？（电源计划命令行开启）

2026-01-17 19:54

怎么用ai绘画修复老照片_AI图像修复与画质增强实战教程

2026-01-17 20:11

edge浏览器如何开启DoH edge浏览器通过HTTPS使用DNS【安全指南】

2026-01-17 20:27

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

python开发工具

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

760

2023.06.15

python打包成可执行文件

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

762

2023.07.25

format在python中的用法

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11

高德地图升级方法汇总

高德地图升级方法汇总

本专题整合了高德地图升级相关教程，阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

科威旅游管理系统

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新Python教程从入门到精通

最新Python教程从入门到精通

共4课时 | 4.6万人学习

Django 教程

Django 教程

共28课时 | 3.2万人学习

SciPy 教程

SciPy 教程

共10课时 | 1.2万人学习

最新文章

更多

Python pass 语句存在的真实意义

Python 中业务异常与系统异常如何区分？

Python 3.7+ 中 dict 保序是如何实现的？

如何在 BitTorrent 客户端中正确实现与对等节点的分片数据交换

如何用 while 循环配合 if 语句持续收集用户输入并构建列表

如何将本地文件内容插入 MySQL 数据表

Flask 无法跳转到对应功能页面：根本原因与完整解决方案

如何在Python中结合if语句与while循环实现动态列表输入

如何高效合并两个基于通道范数的三维张量

Python 为什么不推荐复杂继承体系？

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部