0

0

C++ unordered_set使用 哈希集合实现

P粉602998670

P粉602998670

发布时间:2025-09-11 11:49:01

|

597人浏览过

|

来源于php中文网

原创

C++ unordered_set基于哈希表实现,提供平均O(1)的插入、查找和删除操作,不保证元素顺序。它使用哈希函数将元素映射到桶中,采用链地址法解决冲突,默认使用std::hash,支持自定义哈希函数。当负载因子超过阈值(默认1.0)时触发rehash,可通过reserve预分配空间优化性能。相比set的O(log n)操作和有序存储,unordered_set更适合无需排序且追求高效存取的场景。

c++ unordered_set使用 哈希集合实现

C++

unordered_set
使用哈希表实现,提供快速的元素查找、插入和删除操作。它不保证元素的特定顺序,但提供接近常数时间的平均复杂度。

哈希集合实现

unordered_set
是一个关联容器,它存储唯一元素的集合,并且允许快速查找元素。其底层实现基于哈希表,这意味着元素通过哈希函数映射到桶(buckets)中。

基本操作:

立即学习C++免费学习笔记(深入)”;

  • 插入 (insert): 计算元素的哈希值,找到对应的桶,并将元素添加到桶中。如果桶中已经存在相同的元素,则插入失败(因为
    unordered_set
    只存储唯一元素)。
  • 查找 (find): 计算元素的哈希值,找到对应的桶,然后在桶中搜索该元素。
  • 删除 (erase): 计算元素的哈希值,找到对应的桶,然后在桶中删除该元素。
  • 计数 (count): 计算元素的哈希值,找到对应的桶,然后在桶中检查该元素是否存在。返回 1 如果存在,否则返回 0。

哈希冲突:

由于哈希函数可能将不同的元素映射到同一个桶中,因此哈希冲突是不可避免的。

unordered_set
通常使用以下方法解决哈希冲突:

  • 链地址法 (Separate Chaining): 每个桶存储一个链表(或其他数据结构)来存储所有哈希到该桶的元素。这是
    unordered_set
    最常用的冲突解决策略。
  • 开放寻址法 (Open Addressing): 当发生冲突时,尝试寻找下一个可用的桶来存储元素。

unordered_set
通常使用链地址法,因为它实现简单,且在负载因子(元素数量与桶数量的比率)较低时,性能表现良好。

代码示例:

#include 
#include 

int main() {
  std::unordered_set mySet;

  // 插入元素
  mySet.insert(10);
  mySet.insert(20);
  mySet.insert(30);
  mySet.insert(20); // 插入重复元素,不会生效

  // 查找元素
  if (mySet.find(20) != mySet.end()) {
    std::cout << "20 found in the set" << std::endl;
  } else {
    std::cout << "20 not found in the set" << std::endl;
  }

  // 删除元素
  mySet.erase(20);

  // 再次查找元素
  if (mySet.find(20) != mySet.end()) {
    std::cout << "20 found in the set" << std::endl;
  } else {
    std::cout << "20 not found in the set" << std::endl;
  }

  // 遍历集合
  std::cout << "Set elements: ";
  for (const int& element : mySet) {
    std::cout << element << " ";
  }
  std::cout << std::endl;

  return 0;
}

unordered_set
的性能高度依赖于哈希函数和负载因子。一个好的哈希函数应该尽可能地将元素均匀地分布到不同的桶中,以减少哈希冲突。当负载因子过高时,
unordered_set
会自动进行 rehash 操作,增加桶的数量,以降低负载因子并提高性能。

unordered_set
相比于
set
的优势在于其平均时间复杂度为 O(1) 的查找、插入和删除操作,而
set
的时间复杂度为 O(log n)。但是,
unordered_set
不保证元素的顺序,而
set
则按照元素的排序顺序存储元素。

C++ unordered_set 的哈希函数是如何工作的?

unordered_set
使用一个哈希函数将元素映射到桶。默认情况下,
unordered_set
使用
std::hash
作为哈希函数。
std::hash
针对内置类型(如
int
float
string
等)提供了默认的哈希函数实现。

对于自定义类型,你需要提供自己的哈希函数。这可以通过以下两种方式实现:

  1. 重载
    std::hash
    模板:
    为你的自定义类型特化
    std::hash
    模板。
  2. 提供自定义的哈希函数对象: 创建一个类或结构体,重载
    operator()
    ,并将其作为
    unordered_set
    的模板参数传递。

示例:自定义类型的哈希函数

#include 
#include 

struct MyStruct {
  int x;
  int y;

  bool operator==(const MyStruct& other) const {
    return x == other.x && y == other.y;
  }
};

// 方法 1: 重载 std::hash 模板
namespace std {
  template <>
  struct hash {
    size_t operator()(const MyStruct& s) const {
      // 一个简单的哈希函数,可以将 x 和 y 的值组合起来
      return ((hash()(s.x) ^ (hash()(s.y) << 1)) >> 1);
    }
  };
}

// 方法 2: 提供自定义的哈希函数对象
struct MyStructHash {
  size_t operator()(const MyStruct& s) const {
    return ((std::hash()(s.x) ^ (std::hash()(s.y) << 1)) >> 1);
  }
};

int main() {
  // 使用重载的 std::hash
  std::unordered_set mySet1;
  mySet1.insert({1, 2});
  mySet1.insert({3, 4});

  // 使用自定义的哈希函数对象
  std::unordered_set mySet2;
  mySet2.insert({5, 6});
  mySet2.insert({7, 8});

  return 0;
}

哈希函数的设计原则:

  • 均匀分布: 哈希函数应该尽可能地将元素均匀地分布到不同的桶中,以减少哈希冲突。
  • 高效性: 哈希函数的计算应该尽可能地高效,以避免成为性能瓶颈。
  • 避免碰撞: 理想情况下,哈希函数应该为不同的元素生成不同的哈希值,但实际上这是不可能的。一个好的哈希函数应该尽可能地减少碰撞的概率。

选择合适的哈希函数对于

unordered_set
的性能至关重要。如果哈希函数设计不当,可能会导致大量的哈希冲突,从而降低
unordered_set
的性能,甚至使其退化为 O(n) 的时间复杂度。

Mureka
Mureka

Mureka是昆仑万维最新推出的一款AI音乐创作工具,输入歌词即可生成完整专属歌曲。

下载

C++ unordered_set 何时进行 rehash?

unordered_set
会在以下情况下进行 rehash 操作:

  • 当负载因子超过最大负载因子时: 负载因子是指
    unordered_set
    中元素的数量与桶的数量的比率。最大负载因子是一个阈值,当负载因子超过该阈值时,
    unordered_set
    会自动进行 rehash 操作,增加桶的数量,以降低负载因子并提高性能。默认情况下,
    unordered_set
    的最大负载因子为 1.0。可以使用
    max_load_factor()
    方法获取或设置最大负载因子。
  • 显式调用
    rehash()
    方法:
    可以手动调用
    rehash()
    方法来强制
    unordered_set
    进行 rehash 操作。这通常在你知道
    unordered_set
    将要存储大量的元素时使用,以避免在插入元素时频繁地进行 rehash 操作。

Rehash 的过程:

Rehash 的过程包括以下步骤:

  1. 分配新的桶: 分配一个新的桶数组,其大小通常是当前桶数量的 2 倍或更大。
  2. 重新计算哈希值: 遍历
    unordered_set
    中的所有元素,并使用新的桶数量重新计算它们的哈希值。
  3. 将元素移动到新的桶: 将所有元素移动到新的桶中。
  4. 释放旧的桶: 释放旧的桶数组。

Rehash 是一个耗时的操作,因为它需要遍历

unordered_set
中的所有元素并重新计算它们的哈希值。因此,应该尽量避免频繁地进行 rehash 操作。

示例:控制 rehash

#include 
#include 

int main() {
  std::unordered_set mySet;

  // 设置最大负载因子
  mySet.max_load_factor(0.5);

  // 预留足够的空间,以减少 rehash 的次数
  mySet.reserve(1000);

  // 插入大量元素
  for (int i = 0; i < 1000; ++i) {
    mySet.insert(i);
  }

  std::cout << "Load factor: " << mySet.load_factor() << std::endl;
  std::cout << "Bucket count: " << mySet.bucket_count() << std::endl;

  return 0;
}

通过设置最大负载因子和预留足够的空间,可以有效地控制

unordered_set
的 rehash 行为,从而提高其性能。

C++ unordered_set 和 set 的区别是什么?

unordered_set
set
都是 C++ 标准库中用于存储唯一元素的容器,但它们在底层实现、元素顺序和性能方面存在显著差异。

底层实现:

  • unordered_set
    : 基于哈希表实现。
  • set
    : 基于红黑树(一种自平衡二叉搜索树)实现.

元素顺序:

  • unordered_set
    : 不保证元素的任何特定顺序。元素在内存中的存储顺序取决于哈希函数和哈希冲突的解决策略。
  • set
    : 元素按照排序顺序存储。默认情况下,使用
    <
    运算符进行排序,但也可以提供自定义的比较函数。

性能:

操作 @@######@@ (平均) @@######@@ (平均)
插入 (insert) O(1) O(log n)
查找 (find) O(1) O(log n)
删除 (erase) O(1) O(log n)
  • unordered_set
    : 在平均情况下,插入、查找和删除操作的时间复杂度为 O(1)。但在最坏情况下(例如,所有元素都哈希到同一个桶中),时间复杂度可能退化为 O(n)。
  • set
    : 插入、查找和删除操作的时间复杂度为 O(log n)。

内存占用

  • unordered_set
    : 通常比
    set
    占用更多的内存,因为它需要额外的空间来存储哈希表。
  • unordered_set
    : 内存占用相对较少,因为它只需要存储元素和红黑树的节点信息。

使用场景:

  • set
    : 适用于需要快速查找、插入和删除元素,并且不关心元素顺序的场景。例如,去重、统计元素出现次数等。
  • set
    : 适用于需要按照排序顺序存储元素,并且需要进行范围查找等操作的场景。例如,维护一个有序的排行榜、实现一个字典等。

总结:

特性 @@######@@ @@######@@
底层实现 哈希表 红黑树
元素顺序 无序 有序
查找、插入、删除 O(1) (平均) O(log n)
内存占用 较高 较低

选择

unordered_set
还是
set
取决于具体的应用场景和性能需求。如果需要快速的查找、插入和删除操作,并且不关心元素的顺序,那么
unordered_set
是一个更好的选择。如果需要按照排序顺序存储元素,并且需要进行范围查找等操作,那么
set
是一个更好的选择。

unordered_set
set
unordered_set
set

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

315

2023.08.02

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

558

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

98

2025.10.23

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1465

2023.10.24

Go语言中的运算符有哪些
Go语言中的运算符有哪些

Go语言中的运算符有:1、加法运算符;2、减法运算符;3、乘法运算符;4、除法运算符;5、取余运算符;6、比较运算符;7、位运算符;8、按位与运算符;9、按位或运算符;10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

228

2024.02.23

php三元运算符用法
php三元运算符用法

本专题整合了php三元运算符相关教程,阅读专题下面的文章了解更多详细内容。

85

2025.10.17

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2023.11.20

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

196

2025.06.09

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 6.8万人学习

C 教程
C 教程

共75课时 | 4万人学习

C++教程
C++教程

共115课时 | 12.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号