Polars 中使用 pivot 实现行转列的稀疏数据重塑

聖光之護

发布时间：2026-01-06 13:34:02

282人浏览过

来源于php中文网

原创

Polars 中使用 pivot 实现行转列的稀疏数据重塑

本文介绍如何使用 polars 的 pivot 方法，将长格式（key-value）稀疏数据高效转换为宽格式（列式）表示，适用于大规模稀疏特征场景。

在处理稀疏数据（如用户行为日志、特征向量、配置映射等）时，常以“ID-键-值”三元组形式存储（即长格式），以节省空间并提升写入/追加效率。但在后续分析或模型训练阶段，往往需要将其展开为列式结构（即宽格式），其中每个唯一 key 成为一列，每个 ID 对应一行，缺失值自动填充为 null。

Polars 提供了原生、高性能的 pivot 操作，专为此类行转列（reshape）任务设计。其核心语法简洁直观：

import polars as pl

df = pl.from_repr("""
┌─────┬─────┬───────┐
│ id  ┆ key ┆ value │
│ --- ┆ --- ┆ ---   │
│ str ┆ str ┆ i64   │
╞═════╪═════╪═══════╡
│ a   ┆ m1  ┆ 1     │
│ a   ┆ m2  ┆ 2     │
│ a   ┆ m3  ┆ 1     │
│ b   ┆ m2  ┆ 4     │
│ c   ┆ m1  ┆ 2     │
│ c   ┆ m3  ┆ 6     │
│ d   ┆ m4  ┆ 4     │
│ e   ┆ m2  ┆ 1     │
└─────┴─────┴───────┘
""")

# 执行 pivot：以 'key' 列值为新列名，'id' 为索引，'value' 为填充值
result = df.pivot(
    on="key",        # 要展开为列的字段（即 key 列）
    index="id",      # 作为行索引的字段（即分组依据）
    values="value"   # 用于填充新列的值字段（默认为 value 列）
)

print(result)

输出结果即为目标宽格式 DataFrame：

Opus

AI生成视频工具

下载

shape: (5, 5)
┌─────┬──────┬──────┬──────┬──────┐
│ id  ┆ m1   ┆ m2   ┆ m3   ┆ m4   │
│ --- ┆ ---  ┆ ---  ┆ ---  ┆ ---  │
│ str ┆ i64  ┆ i64  ┆ i64  ┆ i64  │
╞═════╪══════╪══════╪══════╪══════╡
│ a   ┆ 1    ┆ 2    ┆ 1    ┆ null │
│ b   ┆ null ┆ 4    ┆ null ┆ null │
│ c   ┆ 2    ┆ null ┆ 6    ┆ null │
│ d   ┆ null ┆ null ┆ null ┆ 4    │
│ e   ┆ null ┆ 1    ┆ null ┆ null │
└─────┴──────┴──────┴──────┴──────┘

✅ 关键说明与注意事项：

pivot() 仅在 eager 模式下可用（即直接对 DataFrame 调用）；若在 lazy pipeline 中需 pivot，可先用 .collect() 触发计算，或采用替代方案（如 group_by().agg() + struct 展开，详见 Polars Pivot 文档）。
若 key 列存在重复组合（如同一 id + key 多次出现），需指定 aggregate_function（如 pl.first(), pl.sum()）来聚合冲突值，否则会报错。
新列名自动取自 on 列的唯一值；若需重命名或控制列顺序，可在 pivot 后使用 .select() 或 .rename()。
对于超大规模稀疏数据，pivot 后的内存占用可能显著增加（因引入大量 null），建议结合 pl.datatypes.Null 或后续 fill_null()/drop_nulls() 按需优化。

该方法相比手动构造字典再拼接（如 Pandas 示例），不仅代码更简洁，且底层由 Rust 高效实现，兼具可读性与性能优势，是 Polars 稀疏数据工程中的标准实践。

如何在循环中让函数调用脱离循环条件的约束

linux运行python怎么结束

如何让循环内的函数调用脱离循环条件的约束

如何用python创建文件夹

Python内存管理教程_引用计数与垃圾回收

相关标签:

内存占用 gate rust pandas NULL select Struct

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python Pandas resample 时间窗口对齐原理与偏移修正方法下一篇：标题：基于偏好约束的宿舍分配问题：用图论与组合优化求解2床/3床房间分配

作者最新文章

Spring Boot 中解析嵌套 JSON 为独立 Java 对象的正确方法

2026-01-07 21:00

如何正确使用 JavaScript 中的 setTimeout 实现延时执行

2026-01-07 21:16

如何使用正则表达式将字符串中方括号内的内容加粗（HTML 格式）

2026-01-07 21:45

如何在Python中将当前登录用户名动态添加到输出文件名中

2026-01-07 21:57

如何在 Python 项目中全局共享并复用同一个类实例

2026-01-07 22:22

如何使用正则表达式将字符串中方括号内的文本替换为加粗 HTML 标签

2026-01-07 22:24

如何动态创建包含单元素子数组的二维数组

2026-01-07 22:24

Laravel/PHP 中将数组或集合的某个字段值设为新键名的实用技巧

2026-01-07 22:42

Jackson ObjectMapper 自动转义字符串：原因与正确处理方式

2026-01-07 22:42

如何在 Shopify Liquid 中动态拼接变量名并访问嵌套设置

2026-01-07 22:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全

C++系统编程中的内存管理是指对程序运行时内存的申请、使用和释放进行精细控制的机制，涵盖了栈、堆、静态区等不同区域，开发者需要通过new/delete、智能指针或内存池等方式管理动态内存，以避免内存泄漏、野指针等问题，确保程序高效稳定运行。它核心在于开发者对低层内存有完全控制权，带来灵活性，但也伴随高责任，是C++性能优化的关键。

2025.12.22