C++17标准库中正确函数名为std::sample,定义于,用于无放回随机采样;需传入UniformRandomBitGenerator引擎(如std::mt19937)、预先分配输出空间,采样数超源大小时自动取全部元素。

std::sample 不存在,正确函数名是 std::sample
标准库中没有 std::sample_c++,这是常见误写。C++17 引入的是 std::sample,定义在 头文件中。它用于从输入范围中**无放回随机采样**指定数量的元素,结果写入输出迭代器。
基本用法:需要提供随机数生成器
std::sample 不自己管理随机性,必须显式传入一个符合 UniformRandomBitGenerator 要求的引擎(如 std::mt19937),否则行为未定义——编译可能通过,但运行时采样不随机或崩溃。
- 必须包含
和 - 不能用
std::rand()或默认构造的std::mt19937{}(后者种子为 0,每次结果相同) - 输出容器需预先分配足够空间,或使用
std::back_inserter
std::vectorsrc = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; std::vector dst; dst.reserve(3); // 推荐:避免多次重分配 std::random_device rd; std::mt19937 g(rd()); // 正确:用硬件熵初始化 std::sample(src.begin(), src.end(), dst.begin(), 3, g);
采样数量超过源容器大小时的行为
当请求采样数 n 大于输入范围长度时,std::sample 会复制全部元素(即退化为全量拷贝),不会报错或抛异常。这和直觉可能不符——它不是“最多取 n 个”,而是“取 min(n, distance(first, last)) 个”。
- 若
src.size() == 5,调用std::sample(..., 10, ...)→dst得到全部 5 个元素 - 若需严格限制上限并拒绝超量请求,必须手动检查:
if (n > std::distance(begin, end)) throw std::invalid_argument("sample size exceeds range"); - 不支持“有放回采样”;要实现有放回,得用循环 +
std::uniform_int_distribution
性能与迭代器类型限制
std::sample 要求输入迭代器至少是 ForwardIterator,不接受 InputIterator(比如某些流式迭代器)。内部算法复杂度平均为 O(N),其中 N 是输入范围长度,与采样数无关——它必须遍历全部元素以保证均匀性(采用 Reservoir Sampling 变种)。
立即学习“C++免费学习笔记(深入)”;
- 对
std::list、std::vector、std::array均适用 - 对
std::istream_iterator不可用:编译失败,提示缺少operator++或operator==的完备实现 - 若只采少量元素但源容器极大,且允许近似均匀,可考虑先用
std::shuffle再取前 k 个——但需额外 O(N) 空间和时间
reserve 又用 back_inserter 看似省事,但在高频调用场景下可能引发频繁内存分配。











