
在数据分析和处理中,我们经常会遇到需要计算时间序列数据中事件间时间间隔的场景。尤其是在处理用户行为日志、会话数据或传感器读数时,按特定实体(如用户ID、设备ID)分组并计算其内部连续事件的时间差,是常见的分析需求。Polars 作为一个高性能的 DataFrame 库,提供了强大的表达式系统和窗口函数功能,能够以极高的效率完成此类任务。
假设我们有一个包含 ID 和 Timestamp 列的 DataFrame,其中 Timestamp 表示某个会话或事件的结束时间。我们的目标是为每个唯一的 ID 计算其连续会话之间的时间间隔,并将结果存储在一个新列 time_between_sessions 中。
传统的 Pandas 操作可能会倾向于使用 groupby() 结合 apply() 或 transform(),但在大数据集上,这些方法可能效率不高。Polars 的设计理念是充分利用多核 CPU 和并行化,其表达式系统和惰性计算能力使其在处理大规模数据时表现出色。对于按组计算的需求,Polars 提供了更为优化的窗口函数(Window Functions)。
Polars 的 pl.Expr.over() 是实现分组计算的关键。它允许您在不显式执行 group_by() 操作的情况下,对数据进行分组并在每个组内应用表达式。这与 SQL 中的 OVER 子句概念类似,使得聚合、排名或差值计算等操作能够作用于数据的特定分区。
当与 diff() 函数结合使用时,over("ID") 会确保 diff() 操作仅在其所属的 ID 分组内进行,从而正确计算每个 ID 内部的连续时间差。
我们将通过一个最小可复现示例来演示如何使用 Polars 高效地计算每个 ID 的会话间隔。
首先,我们创建一个包含 ID 和 Timestamp 的示例 DataFrame,并将其转换为 Polars DataFrame,确保 Timestamp 列是 Polars 的 Datetime 类型。
import polars as pl
import pandas as pd
# 创建一个示例 Pandas DataFrame
data = {
'ID': ['A', 'A', 'A', 'B', 'B', 'B'],
'Timestamp': ['2023-01-01 10:00:00', '2023-01-01 10:30:00' ,'2023-01-01 11:00:00', '2023-01-01 12:00:00', '2023-01-01 12:30:00', '2023-01-01 13:00:00']
}
df_pandas = pd.DataFrame(data)
# 转换为 Polars DataFrame 并确保 Timestamp 为 Datetime 类型
sessions_features = pl.from_pandas(df_pandas).with_columns(
pl.col("Timestamp").str.to_datetime()
)
print("原始 Polars DataFrame:")
print(sessions_features)输出示例:
原始 Polars DataFrame: shape: (6, 2) ┌─────┬─────────────────────┐ │ ID ┆ Timestamp │ │ --- ┆ --- │ │ str ┆ datetime[μs] │ ╞═════╪═════════════════════╡ │ A ┆ 2023-01-01 10:00:00 │ │ A ┆ 2023-01-01 10:30:00 │ │ A ┆ 2023-01-01 11:00:00 │ │ B ┆ 2023-01-01 12:00:00 │ │ B ┆ 2023-01-01 12:30:00 │ │ B ┆ 2023-01-01 13:00:00 │ └─────┴─────────────────────┘
现在,我们将使用 with_columns() 结合 pl.Expr.over() 来创建新的时间间隔列。
# 计算每个 ID 内部的会话时间间隔
result_df = sessions_features.with_columns(
pl.col("Timestamp")
.diff() # 计算当前行与上一行的时间差 (结果为 Duration 类型)
.dt.total_seconds() # 将 Duration 转换为总秒数 (i64 类型)
.fill_null(0) # 每个 ID 的第一个会话没有前一个会话,diff 结果为 null,此处填充为 0
.over("ID") # 关键:此表达式在每个唯一的 "ID" 分组内执行
.alias("time_between_sessions") # 为新列命名
)
print("\n计算时间间隔后的 DataFrame:")
print(result_df)代码解析:
预期输出:
计算时间间隔后的 DataFrame: shape: (6, 3) ┌─────┬─────────────────────┬───────────────────────┐ │ ID ┆ Timestamp ┆ time_between_sessions │ │ --- ┆ --- ┆ --- │ │ str ┆ datetime[μs] ┆ i64 │ ╞═════╪═════════════════════╪═══════════════════════╡ │ A ┆ 2023-01-01 10:00:00 ┆ 0 │ │ A ┆ 2023-01-01 10:30:00 ┆ 1800 │ │ A ┆ 2023-01-01 11:00:00 ┆ 1800 │ │ B ┆ 2023-01-01 12:00:00 ┆ 0 │ │ B ┆ 2023-01-01 12:30:00 ┆ 1800 │ │ B ┆ 2023-01-01 13:00:00 ┆ 1800 │ └─────┴─────────────────────┴───────────────────────┘
在 Polars 中,强烈建议避免使用 map_groups()、apply() 或其他 Python 原生循环的函数,原因如下:
result_df = sessions_features.sort("ID", "Timestamp").with_columns(
pl.col("Timestamp").diff().dt.total_seconds().fill_null(0).over("ID").alias("time_between_sessions")
)在我们的示例中,数据已经按 ID 和 Timestamp 排序,所以可以省略 sort。
通过本教程,我们学习了如何利用 Polars 的 pl.Expr.over() 窗口函数,结合 diff() 和 dt.total_seconds() 等表达式,高效且优雅地计算 DataFrame 中按组划分的时间间隔。这种方法充分利用了 Polars 的高性能特性,避免了传统 map 或 apply 可能带来的性能瓶颈,是处理大规模时间序列分组数据的推荐实践。掌握 over() 函数的使用,将极大地提升您在 Polars 中处理复杂数据转换任务的能力。
以上就是使用 Polars 高效计算 DataFrame 中按 ID 分组的时间间隔的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号