
本文介绍如何使用 Pandas 处理 DataFrame 中多个列包含相同分隔符的情况,并根据分隔符将行进行拆分。重点在于避免拆分后引入不必要的 NaN 值,并确保其他未拆分列的数据得到正确填充。通过结合 groupby 和 ffill 方法,可以高效地实现这一目标,使得数据处理流程更加简洁和高效。
在数据处理过程中,经常会遇到需要根据特定分隔符拆分 DataFrame 行的情况,尤其是当多个列都包含该分隔符时。一种常见的错误做法是直接使用 str.split 和 stack 方法,这会导致未拆分的列出现 NaN 值。本文将介绍一种更有效的方法,使用 groupby 和 ffill 避免 NaN 值的产生,并保证数据的完整性。
假设我们有一个 DataFrame,其中某些行的多个列包含相同数量的分隔符(例如 ;)。我们的目标是根据这些分隔符拆分行,同时保持其他列的数据不变。例如:
import pandas as pd
data = {'ID': [34, 35],
'Name': ['Alt-Tempelhof Ecke Tempelhofer Damm', 'Alt-Wittenau'],
'Type': ['bus', 'bus'],
'Lines': ['A77,A68,A76', 'A62 ; A15,A21'],
'Coordinates': ['52.465964306830664, 13.38558297633417', '52.58972877186178, 13.334169215342472 ; 52.59166508975595, 13.326326895395114'],
'Extra': [None, 'Alt-Wittenau Ecke Oranienburger Straße ; Alt-Wittenau Ecke Eichborndamm']}
df = pd.DataFrame(data)
print(df)输出:
ID Name Type Lines \
0 34 Alt-Tempelhof Ecke Tempelhofer Damm bus A77,A68,A76
1 35 Alt-Wittenau bus A62 ; A15,A21
Coordinates Extra
0 52.465964306830664, 13.38558297633417 None
1 52.58972877186178, 13.334169215342472 ; 52.59166508975595, 13.326326895395114 Alt-Wittenau Ecke Oranienburger Straße ; Alt-Wittenau Ecke Eichborndamm首先,对 DataFrame 中的每一列使用 str.split(';', expand=True) 将包含分隔符的列拆分成多列,然后使用 stack() 将这些列堆叠起来。
split_df = pd.concat([df[col].astype(str).str.split(';', expand=True).stack().str.strip() for col in df.columns], axis=1, keys=df.columns)关键在于使用 groupby(level=0).ffill()。groupby(level=0) 将数据按照原始 DataFrame 的索引进行分组,然后 ffill() 方法在每个分组内向前填充缺失值。这确保了在拆分行时,其他列的数据能够正确地复制到新的行中。
split_df = split_df.groupby(level=0).ffill().reset_index(drop=True)
import pandas as pd
data = {'ID': [34, 35],
'Name': ['Alt-Tempelhof Ecke Tempelhofer Damm', 'Alt-Wittenau'],
'Type': ['bus', 'bus'],
'Lines': ['A77,A68,A76', 'A62 ; A15,A21'],
'Coordinates': ['52.465964306830664, 13.38558297633417', '52.58972877186178, 13.334169215342472 ; 52.59166508975595, 13.326326895395114'],
'Extra': [None, 'Alt-Wittenau Ecke Oranienburger Straße ; Alt-Wittenau Ecke Eichborndamm']}
df = pd.DataFrame(data)
split_df = pd.concat([df[col].astype(str).str.split(';', expand=True).stack().str.strip() for col in df.columns], axis=1, keys=df.columns)
split_df = split_df.groupby(level=0).ffill().reset_index(drop=True)
print(split_df)输出:
ID Name Type Lines \
0 34 Alt-Tempelhof Ecke Tempelhofer Damm bus A77,A68,A76
1 35 Alt-Wittenau bus A62
2 35 Alt-Wittenau bus A15,A21
Coordinates Extra
0 52.465964306830664, 13.38558297633417 None
1 52.58972877186178, 13.334169215342472 Alt-Wittenau Ecke Oranienburger Straße
2 52.59166508975595, 13.326326895395114 Alt-Wittenau Ecke Eichborndamm通过结合 str.split、stack、groupby 和 ffill 方法,我们可以高效地处理 DataFrame 中包含相同分隔符的多列,并根据分隔符将行进行拆分,同时避免 NaN 值的产生,保证数据的完整性。这种方法在数据清洗和预处理过程中非常有用,能够提高数据处理的效率和准确性。
以上就是使用 Pandas 分割 DataFrame 中包含相同分隔符的多列的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号