Arrow C++ 最小编译需链接 libarrow 并用 find_package(Arrow REQUIRED);CSV 读取须显式指定 column_types 避免类型推断;Compute API 实现零拷贝向量化计算;注意 Buffer/Array 生命周期,禁用裸指针访问内存。

Arrow C++ 库的最小可行编译配置
Arrow C++ 不是头文件库,必须链接预编译的 libarrow(或启用 ARROW_STATIC 静态链接)。直接 #include "arrow/api.h" 但不链接会报 undefined reference to arrow::Array::MakeFromScalar 类错误。
- 用 CMake 时必须调用
find_package(Arrow REQUIRED),且确保ARROW_BUILD_SHARED=ON(默认)与你的构建类型一致 -
macOS 上若用 Homebrew 安装,需额外设置
set(ARROW_HOME /opt/homebrew/opt/apache-arrow)并在find_package前加set(CMAKE_PREFIX_PATH ${ARROW_HOME}) - Windows + MSVC 下注意运行时一致性:Arrow 若用
/MD编译,你的项目也必须用/MD,否则std::shared_ptr跨 DLL 边界析构崩溃
从 CSV 构建 Arrow Table 的高效写法
别用 arrow::csv::ReadCSV 默认参数读大文件——它默认把所有列当 string 推断,内存暴涨且后续类型转换开销大。必须显式传 arrow::csv::ConvertOptions 指定 schema。
auto convert_options = arrow::csv::ConvertOptions::Defaults();
convert_options.column_types = {
{"ts", arrow::timestamp(arrow::TimeUnit::MICRO)},
{"value", arrow::float64()},
{"category", arrow::dictionary(arrow::int32(), arrow::utf8())}
};
auto read_options = arrow::csv::ReadOptions::Defaults();
auto parse_options = arrow::csv::ParseOptions::Defaults();
auto table = arrow::csv::ReadCSV("data.csv", read_options, parse_options, convert_options).ValueOrDie();
-
column_types提前指定能跳过类型推断,减少内存驻留时间 - 对高基数字符串列,优先用
dictionary类型,压缩率常达 5–10× - 避免
ReadCSV(...)->ToTable()两步走,ReadCSV返回就是Table,多调一次ToTable白拷贝
用 Compute API 做列式过滤和聚合(不用手写循环)
Arrow 的 arrow::compute::Filter 和 arrow::compute::Sum 是零拷贝、向量化、自动 SIMD 的。手写 for-loop 遍历 Array 数据不仅慢,还绕过内存对齐优化。
auto arr = table->GetColumnByName("value")->chunk(0);
auto predicate = arrow::compute::Less(arr, arrow::compute::ScalarConstant(100.0));
auto filtered = arrow::compute::Filter(arr, predicate.ValueOrDie()).ValueOrDie();
auto sum = arrow::compute::Sum(filtered).ValueOrDie();
std::cout << *sum.scalar_as().value << "\n";
-
chunk(0)只取首 chunk——实际数据可能分 chunk 存储,批量处理要用table->column(i)->chunks()循环 -
Filter返回新Array,不是视图;如需原地过滤,得用arrow::compute::Take+ 索引数组 - 聚合函数(
Sum/Mean)默认返回Scalar,但GroupBy尚未稳定(截至 Arrow 15.x),复杂分组仍需导出到 Pandas 或用arrow::dataset
内存生命周期和零拷贝导出的关键陷阱
arrow::Buffer 和 arrow::Array 共享底层 arrow::MemoryPool 分配的内存,但它们的 std::shared_ptr 生命周期独立。常见错误是提前释放 Table,却还在用其 Array 的 data() 指针。
本文档主要讲述的是用Apache Spark进行大数据处理——第一部分:入门介绍;Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 在这个Apache Spark文章系列的第一部分中,我们将了解到什么是Spark,它与典型的MapReduce解决方案的比较以及它如何为大数据处理提供了一套完整的工具。希望本文档会给有需要的朋友带来帮助;感
立即学习“C++免费学习笔记(深入)”;
- 永远不要保存
array->data()->buffers[1]->data()这类裸指针——它没所有权,Array析构后就悬空 - 需要长期持有数据?用
arrow::Buffer::Copy或构造新arrow::Array显式复制 - 导出到 NumPy:用
arrow::py::ImportArray(Python 绑定),C++ 侧别自己 memcpy 到PyArrayObject——类型/字节序/对齐全得手动校验,极易出错
最易被忽略的是 chunked array 的跨 chunk 边界操作——比如按行号索引第 1000000 行,你得先算清它落在哪个 chunk、偏移多少,Table::RowSlicing 尚未提供高效接口,得自己做二分查找 chunk_offsets。









