0

0

python中set数据类型怎么用_python集合set数据类型操作方法

冰火之心

冰火之心

发布时间:2025-09-13 15:40:01

|

907人浏览过

|

来源于php中文网

原创

Python中的set是无序且元素唯一的集合,适用于快速成员检测、去重和集合运算。通过花括号{}或set()创建,支持add、remove、discard等操作,并提供交集(&)、并集(|)、差集(-)、对称差集(^)等数学运算。与列表和元组不同,set不支持索引,元素必须可哈希,常用于高效去重和集合关系处理。注意空集合需用set()创建,且集合操作性能高但内存占用较大。

python中set数据类型怎么用_python集合set数据类型操作方法

Python中的

set
数据类型本质上是一个无序且元素唯一的集合。它最核心的用处,在我看来,就是快速地进行成员检测、去除序列中的重复项,以及执行各种数学意义上的集合操作,比如求交集、并集和差集。当你需要处理一系列不关心顺序但又要求元素不能重复的数据时,
set
往往是那个最直接、最高效的选择。

解决方案

使用Python的

set
数据类型其实非常直观。你可以通过两种主要方式来创建它:

  1. 直接使用花括号

    {}

    my_set = {1, 2, 3, 4, 1} # 重复的1会被自动去除
    print(my_set) # 输出: {1, 2, 3, 4} (顺序可能不同)

    需要注意的是,创建一个空的

    set
    不能直接用
    {}
    ,因为这会创建一个空的字典。你应该使用
    set()

    立即学习Python免费学习笔记(深入)”;

  2. 使用

    set()
    构造函数

    empty_set = set()
    print(empty_set) # 输出: set()
    
    from_list = set([1, 2, 2, 3])
    print(from_list) # 输出: {1, 2, 3}
    
    from_string = set("hello")
    print(from_string) # 输出: {'o', 'e', 'l', 'h'} (同样,顺序不确定,且字符唯一)

添加和删除元素:

  • add(element)
    :向集合中添加一个元素。如果元素已存在,集合不会改变。
    my_set.add(5)
    my_set.add(2) # 2已存在,无变化
    print(my_set) # 输出: {1, 2, 3, 4, 5}
  • remove(element)
    :从集合中移除一个元素。如果元素不存在,会引发
    KeyError
    my_set.remove(5)
    # my_set.remove(99) # 这会引发KeyError
    print(my_set) # 输出: {1, 2, 3, 4}
  • discard(element)
    :与
    remove()
    类似,但如果元素不存在,不会引发错误。这在你不确定元素是否存在时非常有用。
    my_set.discard(4)
    my_set.discard(99) # 不会报错
    print(my_set) # 输出: {1, 2, 3}
  • pop()
    :随机移除并返回集合中的一个元素。由于
    set
    是无序的,你无法预测哪个元素会被移除。如果集合为空,会引发
    KeyError
    popped_element = my_set.pop()
    print(f"移除的元素: {popped_element}, 剩余集合: {my_set}")
  • clear()
    :移除集合中的所有元素,使其变为空集。
    my_set.clear()
    print(my_set) # 输出: set()

集合操作:

set
最强大的地方在于它能直接进行数学上的集合运算。

  • 并集 (Union)
    |
    union()
    set_a = {1, 2, 3}
    set_b = {3, 4, 5}
    union_set = set_a | set_b
    print(union_set) # 输出: {1, 2, 3, 4, 5}
    print(set_a.union(set_b)) # 同样输出: {1, 2, 3, 4, 5}
  • 交集 (Intersection)
    &
    intersection()
    intersection_set = set_a & set_b
    print(intersection_set) # 输出: {3}
    print(set_a.intersection(set_b)) # 同样输出: {3}
  • 差集 (Difference)
    -
    difference()
    (A - B 表示在A中但不在B中的元素)
    difference_set = set_a - set_b
    print(difference_set) # 输出: {1, 2}
    print(set_a.difference(set_b)) # 同样输出: {1, 2}
  • 对称差集 (Symmetric Difference)
    ^
    symmetric_difference()
    (在A或B中,但不同时在两者中的元素)
    symmetric_difference_set = set_a ^ set_b
    print(symmetric_difference_set) # 输出: {1, 2, 4, 5}
    print(set_a.symmetric_difference(set_b)) # 同样输出: {1, 2, 4, 5}

成员检测和子集/超集判断:

  • element in my_set
    :检查元素是否存在于集合中,效率极高。
    print(1 in set_a) # 输出: True
    print(9 in set_a) # 输出: False
  • issubset()
    /
    <=
    :判断一个集合是否是另一个集合的子集。
    set_c = {1, 2}
    print(set_c.issubset(set_a)) # 输出: True
    print(set_c <= set_a) # 同样输出: True
  • issuperset()
    /
    >=
    :判断一个集合是否是另一个集合的超集。
    print(set_a.issuperset(set_c)) # 输出: True
    print(set_a >= set_c) # 同样输出: True
  • isdisjoint()
    :判断两个集合是否没有共同的元素(不相交)。
    set_d = {6, 7}
    print(set_a.isdisjoint(set_d)) # 输出: True
    print(set_a.isdisjoint(set_b)) # 输出: False (因为有共同元素3)

Python集合(Set)与列表(List)或元组(Tuple)有什么本质区别

这个问题问得很好,因为这三者在Python中都是用来存储多个元素的,但它们的设计哲学和适用场景却大相径庭。理解这些差异,是高效选择数据结构的关键。

首先,最核心的区别在于元素的唯一性元素的顺序性

  • 列表(List):它是有序的,可以包含重复的元素。你可以通过索引访问任何位置的元素,并且列表是可变的,意味着你可以添加、删除或修改其中的元素。我们平时处理序列数据,比如一串用户操作记录、一份商品清单(即使商品有重复),列表总是首选。它的有序性保证了数据的输入和输出顺序一致,这在很多业务逻辑中是不可或缺的。

    my_list = [1, 2, 3, 2, 1]
    print(my_list[0]) # 输出: 1
    my_list.append(4)
    print(my_list) # 输出: [1, 2, 3, 2, 1, 4]
  • 元组(Tuple):它也是有序的,可以包含重复的元素,但它是不可变的。一旦创建,就不能修改其内容。这使得元组在某些场景下比列表更安全,例如作为函数参数传递时,可以确保其内容不会被意外修改。同时,由于其不可变性,元组可以作为字典的键,或者作为集合的元素(而列表不行)。我个人觉得元组更像是一种“固定不变的记录”,比如坐标

    (x, y)
    、日期
    (year, month, day)
    等。

    my_tuple = (1, 2, 3, 2, 1)
    print(my_tuple[0]) # 输出: 1
    # my_tuple.append(4) # 这会报错,元组不可变
  • 集合(Set):这是今天的主角。它最大的特点是无序的,并且只存储唯一的元素。这意味着你不能通过索引来访问集合中的元素,而且当你创建一个包含重复元素的集合时,重复项会自动被去除。集合是可变的,你可以添加或删除元素,但集合中的元素本身必须是不可变的(可哈希的)。这种设计让它在处理“成员资格”和“去重”问题时表现出色。当你只关心“有什么”而不关心“有多少个”或“在什么位置”时,

    set
    就是你的最佳拍档。

    my_set = {1, 2, 3, 2, 1}
    print(my_set) # 输出: {1, 2, 3} (顺序不确定)
    # print(my_set[0]) # 这会报错,集合无序,不支持索引
    my_set.add(4)
    print(my_set) # 输出: {1, 2, 3, 4}

从性能角度看,由于

set
内部是基于哈希表实现的,它在进行成员检测(
in
操作)时通常比列表和元组快得多,平均时间复杂度是O(1),而列表和元组是O(n)。所以,如果你有一个庞大的数据集,需要频繁检查某个元素是否存在,
set
无疑是更好的选择。

如何在Python中高效地处理重复数据并进行集合运算?

在Python中,

set
数据类型简直就是为“去重”和“集合运算”量身定制的。我经常在数据清洗和分析任务中用到它,它的简洁和效率确实能省下不少力气。

AILOGO
AILOGO

LOGO123旗下的AI智能LOGO生成器,只需输入品牌名称就能免费在线生成公司logo设计及配套企业VI,轻松打造您的个性品牌!

下载

高效去重:

最常见的场景就是从一个列表中去除重复项。

set
提供了一种非常Pythonic且高效的方法:

# 假设我们有一份日志,里面有很多重复的IP地址
log_ips = ["192.168.1.1", "10.0.0.5", "192.168.1.1", "172.16.0.10", "10.0.0.5"]

# 去重只需要一步
unique_ips = list(set(log_ips))
print(unique_ips) # 输出: ['192.168.1.1', '10.0.0.5', '172.16.0.10'] (顺序不定)

# 如果你不需要保持列表形式,直接用set就可以
unique_ips_set = set(log_ips)
print(unique_ips_set)

这种方法利用了

set
自动去重的特性,然后如果需要,再转换回列表。对于大型列表,这种方式比手动遍历并检查元素是否已存在要快得多。

高效集合运算:

set
的另一个强大之处在于它对数学集合运算的原生支持,这使得处理复杂的数据关系变得非常直观。

  • 找出共同的元素 (交集): 假设我们有两个用户群体的ID列表,想知道哪些用户同时属于这两个群体。

    group_a_users = {101, 103, 105, 107, 109}
    group_b_users = {105, 107, 110, 112, 114}
    
    common_users = group_a_users.intersection(group_b_users)
    # 或者 common_users = group_a_users & group_b_users
    print(f"共同用户: {common_users}") # 输出: 共同用户: {105, 107}
  • 合并所有元素 (并集): 如果你想知道所有参与过这两个群体的用户有哪些。

    all_users = group_a_users.union(group_b_users)
    # 或者 all_users = group_a_users | group_b_users
    print(f"所有用户: {all_users}") # 输出: 所有用户: {101, 103, 105, 107, 109, 110, 112, 114}
  • 找出特定群体独有的元素 (差集): 想知道A群组中有哪些用户不在B群组中。

    a_only_users = group_a_users.difference(group_b_users)
    # 或者 a_only_users = group_a_users - group_b_users
    print(f"A群组独有用户: {a_only_users}") # 输出: A群组独有用户: {101, 103, 109}
  • 找出在任一群组但不同时在两个群组的元素 (对称差集): 这在找出两个集合中“不重叠”的部分时很有用。

    exclusive_users = group_a_users.symmetric_difference(group_b_users)
    # 或者 exclusive_users = group_a_users ^ group_b_users
    print(f"任一群组独有用户: {exclusive_users}") # 输出: 任一群组独有用户: {101, 103, 109, 110, 112, 114}

这些操作不仅代码简洁,而且在Python底层都经过高度优化,对于处理大规模数据集时,性能表现通常非常出色。

另外,值得一提的是

frozenset
。它是
set
的不可变版本。这意味着一旦创建,就不能再添加或删除元素。
frozenset
的一个主要用途是作为字典的键,或者作为另一个
set
的元素,因为
set
的元素必须是可哈希的(即不可变的)。

frozen_set_example = frozenset([1, 2, 3])
# my_set_of_sets = {frozen_set_example, frozenset([3, 4])} # 这样是合法的
# my_set_of_sets = {{1, 2}, {3, 4}} # 这样会报错,因为普通的set是可变的,不可哈希

Python Set操作中常见的陷阱与性能考量有哪些?

尽管

set
非常强大和高效,但在实际使用中,我们还是会遇到一些需要注意的地方,特别是关于它的特性和性能边界。我个人在项目里就踩过几个小坑,所以总结了一些经验。

常见的陷阱:

  1. 空花括号

    {}
    创建的是字典,不是空集合。 这是初学者最容易犯的错误之一。如果你想创建一个空的
    set
    ,必须使用
    set()

    empty_dict = {}
    print(type(empty_dict)) # 输出: 
    
    empty_set = set()
    print(type(empty_set)) # 输出: 

    这个细节很重要,因为如果你误用

    {}
    并期望它是一个集合,后续的集合操作都会失败。

  2. 集合的元素必须是可哈希的(Hashable)。 这意味着集合不能包含可变的数据类型,比如列表(

    list
    )、字典(
    dict
    )或其他集合(
    set
    )。如果你尝试将这些可变对象添加到集合中,Python会抛出
    TypeError: unhashable type

    # valid_set = {[1, 2]} # 这会报错!list是不可哈希的
    valid_set = {1, "hello", (1, 2)} # 数字、字符串、元组都是可哈希的
    print(valid_set)

    这是因为

    set
    内部依赖元素的哈希值来快速查找和存储,而可变对象的哈希值可能会改变,这会破坏集合的内部结构。如果确实需要存储集合的集合,可以考虑使用
    frozenset
    作为内部元素。

  3. remove()
    discard()
    的选择。
    前面提到过,
    remove()
    在元素不存在时会抛出
    KeyError
    ,而
    discard()
    则不会。在编写代码时,需要根据你的业务逻辑来选择。

    • 如果你确定元素一定存在,或者你希望在元素不存在时明确捕获这个错误并处理,使用
      remove()
    • 如果你不确定元素是否存在,只是想“尝试”移除它,并且不希望程序因为元素不存在而中断,那么
      discard()
      是更安全的选项。
  4. pop()
    的随机性。 由于
    set
    是无序的,
    pop()
    方法移除哪个元素是不可预测的。这意味着你不能依赖
    pop()
    来按照特定顺序获取或移除元素。如果需要按顺序处理,最好先将集合转换为列表并排序。

性能考量:

  1. 成员检测 (

    in
    操作) 的高效性。 这是
    set
    最显著的性能优势之一。平均情况下,检查一个元素是否在集合中,时间复杂度是O(1)(常数时间)。这意味着无论集合有多大,查找一个元素所需的时间大致相同。相比之下,在列表中查找元素是O(n)(线性时间),随着列表增大,查找时间会线性增长。

    import time
    
    large_list = list(range(1_000_000))
    large_set = set(large_list)
    
    # 列表查找
    start = time.time()
    _ = 999_999 in large_list
    end = time.time()
    print(f"列表查找耗时: {end - start:.6f}秒")
    
    # 集合查找
    start = time.time()
    _ = 999_999 in large_set
    end = time.time()
    print(f"集合查找耗时: {end - start:.6f}秒")
    # 通常会看到集合查找快得多

    因此,当你的核心需求是频繁地进行成员资格测试时,

    set
    是毋庸置疑的首选。

  2. 内存占用

    set
    在存储元素时,需要为每个元素计算哈希值,并将其存储在一个哈希表中。这通常意味着
    set
    会比存储相同元素的列表占用更多的内存,因为它需要额外的空间来维护哈希表的结构。对于内存敏感的应用,这可能是一个需要权衡的因素。

  3. 集合操作的效率。 像并集、交集、差集这样的集合操作,在

    set
    上执行也是非常高效的,通常是O(min(len(s1), len(s2))) 或 O(len(s1) + len(s2)),具体取决于操作类型。Python底层对这些操作进行了高度优化,使得它们在处理大量数据时表现出色。

  4. 创建集合的开销。 从一个列表或其他可迭代对象创建

    set
    时,Python需要遍历所有元素并计算它们的哈希值,这会有一定的初始化开销。如果你的数据量非常大,并且只需要进行一次性操作(比如去重后就不再使用集合的特性),那么这个创建成本也需要考虑。

总的来说,

set
是一个非常强大的工具,但了解它的这些特性和限制,可以帮助我们更好地利用它,避免不必要的错误,并在性能和内存之间做出明智的权衡。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

707

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

625

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

734

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

616

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

695

2023.08.11

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号