
本文介绍了如何使用 Polars 库将包含逗号分隔整数的字符串列转换为多个整数列。通过 `.str.strip_chars()`, `.cast(pl.List(pl.Int32))`, `.list.to_struct()` 以及 `.unpivot()` 和 `.pivot()` 等方法,可以高效地实现这一转换,并提供了代码示例进行演示,帮助读者更好地理解和应用。
在数据处理中,经常会遇到将包含逗号分隔数值的字符串列转换为数值列的需求。Polars 提供了多种方法来高效地完成这一任务。本文将介绍几种常用的方法,并提供详细的代码示例。
这种方法的核心思想是先去除字符串末尾的逗号,然后将字符串分割成列表,再将列表转换为结构体,最后将结构体展开为多个列。
import polars as pl
df = pl.DataFrame(
{
"chrom": ["1", "1", "2", "X"],
"blockSizes": ["10,29,", "20,22,", "30,25,", "40,23,"],
"blockStarts": ["0,50,", "0,45,", "0,60,", "0,70,"]
})
cols = "blockSizes", "blockStarts"
(df.with_columns(
pl.col(col)
.str.strip_chars(",")
.str.split(",")
.cast(pl.List(pl.Int32))
.list.to_struct(
n_field_strategy = "max_width",
fields = lambda idx, col=col: f"{col}_{idx}"
)
for col in cols
)
.unnest(cols)
)代码解释:
输出结果:
shape: (4, 5) ┌───────┬──────────────┬──────────────┬───────────────┬───────────────┐ │ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 │ │ --- ┆ --- ┆ --- ┆ --- ┆ --- │ │ str ┆ i32 ┆ i32 ┆ i32 ┆ i32 │ ╞═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡ │ 1 ┆ 10 ┆ 29 ┆ 0 ┆ 50 │ │ 1 ┆ 20 ┆ 22 ┆ 0 ┆ 45 │ │ 2 ┆ 30 ┆ 25 ┆ 0 ┆ 60 │ │ X ┆ 40 ┆ 23 ┆ 0 ┆ 70 │ └───────┴──────────────┴──────────────┴───────────────┴───────────────┘
为了代码更简洁,可以定义一个函数来封装上述操作:
def csv_to_struct(col):
expr = pl.col(col).str.strip_chars(",").str.split(",")
expr = expr.cast(pl.List(pl.Int32))
return expr.list.to_struct(
n_field_strategy = "max_width",
fields = lambda idx: f"{col}_{idx}"
)
cols = "blockSizes", "blockStarts"
df.with_columns(map(csv_to_struct, cols)).unnest(cols)这种方法的核心思想是先将数据进行 unpivot 操作,将多个列合并为一个列,然后对列进行处理,最后再进行 pivot 操作,将数据恢复为原来的形式。
cols = "blockSizes", "blockStarts"
(df.with_row_index()
.with_columns(
pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int))
)
.explode(cols)
.unpivot(index=["index", "chrom"], variable_name="name")
.with_columns(
pl.format("{}_{}",
"name",
pl.col("index").cum_count().over("index", "name") - 1
)
)
.pivot(on="name", index=["index", "chrom"])
)代码解释:
输出结果:
shape: (4, 6) ┌───────┬───────┬──────────────┬──────────────┬───────────────┬───────────────┐ │ index ┆ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 │ │ --- ┆ --- ┆ --- ┆ --- ┆ --- ┆ --- │ │ u32 ┆ str ┆ i64 ┆ i64 ┆ i64 ┆ i64 │ ╞═══════╪═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡ │ 0 ┆ 1 ┆ 10 ┆ 29 ┆ 0 ┆ 50 │ │ 1 ┆ 1 ┆ 20 ┆ 22 ┆ 0 ┆ 45 │ │ 2 ┆ 2 ┆ 30 ┆ 25 ┆ 0 ┆ 60 │ │ 3 ┆ X ┆ 40 ┆ 23 ┆ 0 ┆ 70 │ └───────┴───────┴──────────────┴──────────────┴───────────────┴───────────────┘
本文介绍了两种使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的方法。第一种方法使用了 str.strip_chars(), str.split(), cast() 和 list.to_struct(),思路清晰,易于理解。第二种方法使用了 unpivot() 和 pivot(),代码更简洁,但理解起来可能稍有难度。选择哪种方法取决于具体的需求和个人偏好。在实际应用中,可以根据数据的特点和性能要求选择最适合的方法。
注意事项:
希望本文能够帮助你更好地使用 Polars 进行数据处理。
以上就是使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号