0

0

使用 Polars 将包含逗号分隔整数的字符串列转换为整数列

花韻仙語

花韻仙語

发布时间:2025-10-18 09:51:01

|

318人浏览过

|

来源于php中文网

原创

使用 polars 将包含逗号分隔整数的字符串列转换为整数列

本文介绍了如何使用 Polars 库将包含逗号分隔整数的字符串列转换为多个整数列。通过 `.str.strip_chars()`, `.cast(pl.List(pl.Int32))`, `.list.to_struct()` 以及 `.unpivot()` 和 `.pivot()` 等方法,可以高效地实现这一转换,并提供了代码示例进行演示,帮助读者更好地理解和应用。

在数据处理中,经常会遇到将包含逗号分隔数值的字符串列转换为数值列的需求。Polars 提供了多种方法来高效地完成这一任务。本文将介绍几种常用的方法,并提供详细的代码示例。

方法一:使用 str.strip_chars(), str.split(), cast() 和 list.to_struct()

这种方法的核心思想是先去除字符串末尾的逗号,然后将字符串分割成列表,再将列表转换为结构体,最后将结构体展开为多个列。

import polars as pl

df = pl.DataFrame(
    {
        "chrom": ["1", "1", "2", "X"],
        "blockSizes": ["10,29,", "20,22,", "30,25,", "40,23,"],
        "blockStarts": ["0,50,", "0,45,", "0,60,", "0,70,"]
    })

cols = "blockSizes", "blockStarts"

(df.with_columns(
    pl.col(col)
      .str.strip_chars(",")
      .str.split(",")
      .cast(pl.List(pl.Int32))
      .list.to_struct(
         n_field_strategy = "max_width", 
         fields = lambda idx, col=col: f"{col}_{idx}"
      )
    for col in cols
 )
 .unnest(cols)
)

代码解释:

  1. pl.col(col).str.strip_chars(","): 去除指定列 col 中字符串末尾的逗号。
  2. .str.split(","): 将字符串按照逗号分割成字符串列表。
  3. .cast(pl.List(pl.Int32)): 将字符串列表转换为整数列表。
  4. .list.to_struct(...): 将列表转换为结构体,n_field_strategy="max_width" 表示使用列表的最大长度作为结构体的字段数量,fields=lambda idx, col=col: f"{col}_{idx}" 用于动态地为结构体字段命名,例如 blockSizes_0, blockSizes_1。
  5. .unnest(cols): 将结构体展开为多个列。

输出结果:

shape: (4, 5)
┌───────┬──────────────┬──────────────┬───────────────┬───────────────┐
│ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 │
│ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           │
│ str   ┆ i32          ┆ i32          ┆ i32           ┆ i32           │
╞═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡
│ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            │
│ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            │
│ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            │
│ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │
└───────┴──────────────┴──────────────┴───────────────┴───────────────┘

为了代码更简洁,可以定义一个函数来封装上述操作:

def csv_to_struct(col):
    expr = pl.col(col).str.strip_chars(",").str.split(",")
    expr = expr.cast(pl.List(pl.Int32))
    return expr.list.to_struct(
        n_field_strategy = "max_width", 
        fields = lambda idx: f"{col}_{idx}"
    )

cols = "blockSizes", "blockStarts"

df.with_columns(map(csv_to_struct, cols)).unnest(cols)

方法二:使用 unpivot() 和 pivot()

这种方法的核心思想是先将数据进行 unpivot 操作,将多个列合并为一个列,然后对列进行处理,最后再进行 pivot 操作,将数据恢复为原来的形式。

WeShop唯象
WeShop唯象

WeShop唯象是国内首款AI商拍工具,专注电商产品图片的智能生成。

下载
cols = "blockSizes", "blockStarts"

(df.with_row_index()
   .with_columns(
      pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int))
   )
   .explode(cols)
   .unpivot(index=["index", "chrom"], variable_name="name")
   .with_columns(
      pl.format("{}_{}", 
         "name", 
         pl.col("index").cum_count().over("index", "name") - 1
      )
   )
   .pivot(on="name", index=["index", "chrom"])
)

代码解释:

  1. df.with_row_index(): 添加一个行索引列。
  2. pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int)): 与方法一相同,去除逗号,分割字符串,转换为整数列表。
  3. .explode(cols): 将列表展开为多行。
  4. .unpivot(index=["index", "chrom"], variable_name="name"): 将 blockSizes 和 blockStarts 列 unpivot 为一个名为 name 的列。
  5. .with_columns(...): 创建新的列名,使用 pl.format 结合 pl.col("index").cum_count().over("index", "name") - 1 生成 blockSizes_0, blockSizes_1 等列名。
  6. .pivot(on="name", index=["index", "chrom"]): 将数据 pivot 回原来的形式。

输出结果:

shape: (4, 6)
┌───────┬───────┬──────────────┬──────────────┬───────────────┬───────────────┐
│ index ┆ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 │
│ ---   ┆ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           │
│ u32   ┆ str   ┆ i64          ┆ i64          ┆ i64          ┆ i64           │
╞═══════╪═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡
│ 0     ┆ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            │
│ 1     ┆ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            │
│ 2     ┆ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            │
│ 3     ┆ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │
└───────┴───────┴──────────────┴──────────────┴───────────────┴───────────────┘

总结

本文介绍了两种使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的方法。第一种方法使用了 str.strip_chars(), str.split(), cast() 和 list.to_struct(),思路清晰,易于理解。第二种方法使用了 unpivot() 和 pivot(),代码更简洁,但理解起来可能稍有难度。选择哪种方法取决于具体的需求和个人偏好。在实际应用中,可以根据数据的特点和性能要求选择最适合的方法。

注意事项:

  • 确保字符串中的数值都是整数,否则在 cast() 步骤会报错。
  • 如果字符串中包含缺失值,需要先进行处理,例如使用 str.replace() 将缺失值替换为 0。
  • 如果列表的长度不一致,list.to_struct() 会使用最长的列表长度作为结构体的字段数量,较短的列表会用 None 填充。

希望本文能够帮助你更好地使用 Polars 进行数据处理。

相关专题

更多
format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

659

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

431

2024.06.27

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

258

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

209

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1468

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

620

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

550

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

566

2024.04.29

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

9

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.5万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

Excel 教程
Excel 教程

共162课时 | 12.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号