
本文介绍如何在 pandas 中精准地按**第一个下划线 `_`** 将字符串列拆分为两个新列(如 `gender` 和 `age`),避免 `str.split()` 默认行为导致的嵌套列表或多余下划线干扰问题。
在数据清洗中,常需将类似 Male_85__and_over 这样的复合标识符按首个分隔符拆解为语义明确的字段。若直接使用 str.split('_', n=1),虽可限制分割次数,但 .str[1:] 会返回一个包含单个字符串的列表(如 ['85__and_over']),导致结果为 list 类型而非纯字符串,影响后续分析。
✅ 正确做法是使用正则提取 str.extract(),配合捕获组精准匹配「第一个 _ 前」和「第一个 _ 后(且不包含后续 _)」的内容:
test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_([^_]+)')
- ([^_]+):匹配一个或多个非下划线字符(即首个 _ 前的所有内容);
- _:字面量下划线,作为分隔符;
- ([^_]+):匹配首个 _ 后、下一个 _ 之前的所有非下划线字符(即只取第一段有效内容)。
? 注意:此正则适用于「首个 _ 后仍有至少一个非 _ 字符」的场景(如 Male_85__and_over → gender="Male", age="85")。若需保留 _ 后全部内容(包括后续下划线),应改用:
test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_(.*)')
其中 (.*) 表示“任意字符(含 _)零次或多次”,可完整捕获 85__and_over。
? 总结:
- ✅ 优先用 str.extract() 替代链式 str.split().str[],语义清晰、结果类型安全;
- ✅ 正则模式需根据业务逻辑选择:[^_]+(截断至下一 _)或 .*(捕获全部剩余内容);
- ⚠️ 若原始数据存在无 _ 的行,str.extract() 对应位置将返回 NaN,建议提前用 test["column_Name_pivoted"].str.contains('_').all() 校验。










