0

0

C++怎么实现一个布隆过滤器_C++中用位数组实现的高效概率性数据结构

裘德小鎮的故事

裘德小鎮的故事

发布时间:2025-11-22 18:47:17

|

743人浏览过

|

来源于php中文网

原创

布隆过滤器通过位数组和多哈希函数判断元素是否存在,允许误判但不漏判。使用std::vector实现位存储,插入时将哈希位置设为1,查询时全1则可能存在,否则一定不存在。参数由预期元素数和误判率计算得出,适用于去重、缓存防护等场景。

c++怎么实现一个布隆过滤器_c++中用位数组实现的高效概率性数据结构

布隆过滤器是一种高效的空间节省型概率数据结构,用于判断一个元素是否存在于集合中。它允许一定的误判率(即可能把不存在的元素误判为存在),但不会将存在的元素漏判。C++ 中可以通过位数组和多个哈希函数来实现。

基本原理与设计思路

布隆过滤器的核心是一个长度为 m 的位数组,初始时所有位都为 0。同时定义 k 个独立的哈希函数,每个函数可以将输入元素映射到位数组的一个位置。

当插入一个元素时,用 k 个哈希函数计算出 k 个位置,并将位数组中这些位置设为 1。查询时同样计算 k 个位置,如果所有位置都为 1,则认为元素“可能存在”;只要有一个位置为 0,则元素“一定不存在”。

关键点:

立即学习C++免费学习笔记(深入)”;

腾讯云AI代码助手
腾讯云AI代码助手

基于混元代码大模型的AI辅助编码工具

下载
  • 位数组节省内存
  • k 个哈希函数尽量独立均匀分布
  • 不支持删除操作(标准版本)
  • 存在误判率,但可通过参数调节

使用 std::vector 实现位数组

C++ 中 std::vector 是特化模板,底层以位为单位存储,非常适合实现布隆过滤器。

#include 
#include 
#include 
#include 

class BloomFilter {
private:
    std::vector bits;
    size_t size;
    size_t hashCount;

    // 简单哈希函数:使用 STL 的 hash 并结合乘法扰动
    size_t hash(const std::string& data, size_t seed) const {
        std::hash hasher;
        return (hasher(data) ^ seed) % size;
    }

public:
    BloomFilter(size_t expectedElements, double falsePositiveRate) {
        // 根据期望元素数和误判率计算最优参数
        size = static_cast(-expectedElements * log(falsePositiveRate) / (log(2) * log(2)));
        hashCount = static_cast(size * log(2) / expectedElements);
        size = std::max(size, static_cast(1));
        hashCount = std::max(hashCount, static_cast(1));

        bits.resize(size, false);
    }

    void insert(const std::string& data) {
        for (size_t i = 0; i < hashCount; ++i) {
            size_t pos = hash(data, i);
            bits[pos] = true;
        }
    }

    bool contains(const std::string& data) const {
        for (size_t i = 0; i < hashCount; ++i) {
            size_t pos = hash(data, i);
            if (!bits[pos]) {
                return false;  // 一定不存在
            }
        }
        return true;  // 可能存在
    }
};

使用示例与注意事项

下面是一个简单的使用例子:

#include 

int main() {
    BloomFilter bf(1000, 0.01);  // 支持约1000个元素,误判率1%

    bf.insert("apple");
    bf.insert("banana");

    std::cout << bf.contains("apple") << std::endl;     // 输出 1(可能存在)
    std::cout << bf.contains("grape") << std::endl;     // 很可能输出 0
    std::cout << bf.contains("orange") << std::endl;    // 可能误判为1

    return 0;
}

优化建议:

  • 可替换更高质量的哈希函数,如 MurmurHash、FNV 等提升分布均匀性
  • 对于固定字符串,可预计算部分哈希值
  • 生产环境可用 std::bitset(编译期确定大小)或自定义位数组提升性能
  • 注意 vector 的代理引用特性,避免意外行为

基本上就这些。布隆过滤器在去重、缓存穿透防护、爬虫URL记录等场景非常实用,C++ 实现简洁高效。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

253

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

206

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1462

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

612

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

547

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

542

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

159

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

77

2025.08.07

java学习网站推荐汇总
java学习网站推荐汇总

本专题整合了java学习网站相关内容,阅读专题下面的文章了解更多详细内容。

6

2026.01.08

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 6.3万人学习

C 教程
C 教程

共75课时 | 3.9万人学习

C++教程
C++教程

共115课时 | 11.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号