
本文旨在提供在 Polars DataFrame 中高效复制行的实用方法。通过 repeat_by() 和 flatten() 函数的组合使用,可以简洁高效地实现行的复制,避免了使用 map_elements() 和类型转换可能出现的错误。本文将详细介绍如何使用这两种方法,并提供示例代码,帮助读者快速掌握该技巧。
在数据处理过程中,有时需要复制 DataFrame 中的行。在 Pandas 中,可以使用 apply() 和 explode() 函数来实现。然而,在 Polars 中,我们可以使用更高效的方法来实现相同的目标。
使用 repeat_by() 和 flatten() 函数
Polars 提供了 repeat_by() 和 flatten() 函数,可以方便地复制 DataFrame 中的行。repeat_by() 函数可以根据指定的次数重复每一行的值,而 flatten() 函数可以将嵌套的列表展开。
以下是一个示例代码:
import polars as pl
df = pl.DataFrame({ "key": [1, 2, 3], "value": [4, 5, 6] })
result = df.select(pl.all().repeat_by(2).flatten())
print(result)代码解释:
- pl.all(): 选择 DataFrame 中的所有列。
- .repeat_by(2): 将每一行的值重复两次。这将创建一个包含嵌套列表的 DataFrame。例如,key 列将变为 [1, 1, 2, 2, 3, 3],value 列将变为 [4, 4, 5, 5, 6, 6]。
- .flatten(): 将嵌套的列表展开,从而将 DataFrame 转换为具有所需行数的 DataFrame。
输出结果:
shape: (6, 2) ┌─────┬───────┐ │ key ┆ value │ │ --- ┆ --- │ │ i64 ┆ i64 │ ╞═════╪═══════╡ │ 1 ┆ 4 │ │ 1 ┆ 4 │ │ 2 ┆ 5 │ │ 2 ┆ 5 │ │ 3 ┆ 6 │ │ 3 ┆ 6 │ └─────┴───────┘
注意事项:
- repeat_by() 函数的参数可以是整数,也可以是一个 Polars Series,用于指定每一行重复的次数。
- flatten() 函数只能用于展开嵌套的列表。如果 DataFrame 中没有嵌套的列表,则 flatten() 函数不会产生任何影响。
总结:
使用 repeat_by() 和 flatten() 函数是 Polars DataFrame 中复制行的有效方法。这种方法简洁高效,避免了使用 map_elements() 和类型转换可能出现的错误。通过掌握这种技巧,可以提高数据处理的效率。










