c++中如何实现数组的随机采样算法_c++洗牌算法与采样技巧【详解】

裘德小鎮的故事

发布时间：2026-01-17 15:57:09

216人浏览过

来源于php中文网

原创

从数组中随机抽取k个不重复元素，首选std::sample（C++17），时间复杂度O(n)、空间O(k)；若不可用则用std::shuffle配合mt19937引擎打乱后截取；流式数据需手写蓄水池算法。

c++中如何实现数组的随机采样算法_c++洗牌算法与采样技巧【详解】

用 `std::shuffle` 实现等概率随机采样

如果目标是「从数组中随机抽取 k 个不重复元素」，最直接可靠的方式不是手写洗牌再截取，而是先用 std::shuffle 打乱整个容器，再取前 k 个——前提是 k 远小于数组长度时性能可接受。

关键点在于：必须用高质量随机数引擎（如 std::mt19937），不能用 std::random_device() 直接当引擎传给 shuffle（它不是引擎类型）。

std::vector arr = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};
std::random_device rd;
std::mt19937 g(rd());  // 必须包装成引擎
std::shuffle(arr.begin(), arr.end(), g);
std::vector sample(arr.begin(), arr.begin() + 3); // 取前3个

std::shuffle 是 Fisher–Yates 原地实现，时间复杂度 O(n)，但若只采 k 个却 shuffle 全量，空间局部性好但有冗余计算
若原数组不能修改，需先 copy 再 shuffle，多一次 O(n) 拷贝
Windows MSVC 下注意：旧版 std::shuffle 在 debug 模式可能触发迭代器调试开销，Release 下无影响

用 `std::sample` 做高效不放回采样（C++17 起）

当 k 明显小于 n（比如百万级数组里抽 10 个），std::sample 是更优解——它内部使用 reservoir sampling（蓄水池算法），时间复杂度 O(n)、空间复杂度仅 O(k)，且不修改原容器。

std::vector arr = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};
std::vector sample(3);
std::random_device rd;
std::mt19937 g(rd());
std::sample(arr.begin(), arr.end(), sample.begin(), sample.size(), g);

第三个参数必须是指向足够空间的输出迭代器，sample 容器需预先分配大小（不能是空 vector）
第四个参数是采样数量，类型为 std::iterator_traits::difference_type，传 int 可能触发隐式转换警告，建议显式转为 decltype(arr.size())
GCC 7+、Clang 5+、MSVC 2017+ 支持；低于此版本需自行实现或降级用 shuffle

手写蓄水池采样应对流式数据或内存受限场景

当数组太大无法全加载进内存（比如从文件逐行读）、或根本不知道总长度（数据流），就必须用经典蓄水池算法。它只需遍历一次、固定内存，且保证每个元素被选中概率严格为 k / n。

立即学习“C++免费学习笔记（深入）”；

核心逻辑：前 k 个元素直接入池；对第 i 个元素（i > k），以 k / i 概率决定是否替换池中某个随机位置。

std::vector reservoir_sample(std::istream& is, size_t k) {
    std::vector res;
    int x;
    size_t i = 0;
// 填充前 k 个
while (i < k && is >> x) {
    res.push_back(x);
    ++i;
}
if (i < k) return res; // 不足 k 个，返回全部

// 蓄水池更新
std::random_device rd;
std::mt19937 gen(rd());
std::uniform_int_distribution dist;

while (is >> x) {
    ++i;
    dist = std::uniform_int_distribution(0, i - 1);
    size_t j = dist(gen);
    if (j < k) res[j] = x;
}
return res;
}

注意 std::uniform_int_distribution 构造必须在循环外，否则每次重建分布对象会严重拖慢性能
若输入是随机访问容器（如 vector），该算法反而比 std::sample 慢，因多了分支和分布调用开销
浮点误差风险：不要用 (double)rand() / RAND_MAX  判断——rand() 周期短、分布差，且 double 除法引入精度偏差


常见错误：用 rand() % n 实现索引随机导致偏差
这是 C++ 新手最常踩的坑：用 rand() % n 生成 [0, n) 随机索引，结果分布不均。因为 RAND_MAX 很少是 n 的整数倍，余数区间被“截断”，小索引出现概率略高。
例如 RAND_MAX == 32767，n == 10000，则索引 0~2767 出现概率为 4/32768，而 2768~9999 仅为 3/32768。

永远不要用 rand()，尤其在需要统计严谨性的采样中
用 std::uniform_int_distribution(0, n-1) 包裹 std::mt19937，它会自动处理范围映射与偏差消除
若必须兼容极老编译器（无 C++11），可用 arc4random_uniform(n)（BSD/macOS）或自己实现线性同余+拒绝采样

实际项目中，优先选 std::sample；若需兼容旧标准或处理流式数据，才手写蓄水池；而任何涉及 rand() 或 % 取模的地方，基本都藏着概率偏差——这点最容易被忽略，也最难事后排查。

c++中如何进行字符编码转换_c++ utf8转gbk常用方法【详解】

c++中如何获取当前可执行文件的路径_c++获取程序所在目录【实例】

如何使用c++的std::chrono库进行精确的时间测量？ (高精度计时)

c++中如何使用std::filesystem::relative计算相对路径_c++技巧【实例】

c++中如何设置控制台颜色_c++修改命令行输出颜色的方法【详解】

c++速学教程(入门到精通)

c++怎么学习？c++怎么入门？c++在哪学？c++怎么学才快？不用担心，这里为大家提供了c++速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

windows mac ai c++ macos win stream cos 隐式转换 int double 循环 copy 对象 windows macos 算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用c++20的std::chrono处理本地时间和UTC的转换？ (时区库实践) 下一篇：C++二进制文件存储vector数组的正确姿势

作者最新文章

手机保护壳怎么选？透明壳、硅胶壳、磨砂壳哪个好【选购】

2026-01-17 10:37

c++中如何使用stable_sort_c++保持相等元素相对顺序的排序【详解】

2026-01-17 10:40

c++中如何使用std::apply调用函数_c++将tuple展开为函数参数【详解】

2026-01-17 10:42

百度网盘怎么转存资源百度网盘文件保存方法【介绍】

2026-01-17 10:43

c++中如何使用std::set_union求并集_c++容器合并算法详解【汇总】

2026-01-17 10:59

c++中如何使用结构体_c++ struct定义与初始化方法【实例】

2026-01-17 11:07

中国移动app在哪里交话费中国移动app在线充值指南【详解】

2026-01-17 11:10

PR怎么给视频降噪 Premiere音频降噪处理技巧【教程】

2026-01-17 11:12

c++中如何使用std::is_sorted算法_c++检查容器是否有序【详解】

2026-01-17 11:17

c++怎么调用LibTorch运行深度学习模型_c++ PyTorch模型加载与推理【案例】

2026-01-17 11:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

317

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

538

2024.08.29

c++怎么把double转成int

本专题整合了 c++ double相关教程，阅读专题下面的文章了解更多详细内容。

2025.08.29

C++中int的含义

本专题整合了C++中int相关内容，阅读专题下面的文章了解更多详细内容。

197

2025.08.29

c++怎么把double转成int

本专题整合了 c++ double相关教程，阅读专题下面的文章了解更多详细内容。

2025.08.29

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

2025.10.23

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

578

2023.07.26