Pandas数据处理：高效解析混合文本与数字词的复杂列

聖光之護

发布时间：2025-11-06 12:29:24

798人浏览过

来源于php中文网

原创

pandas数据处理：高效解析混合文本与数字词的复杂列

本文介绍如何在Pandas DataFrame中处理包含混合数据类型（如数字词和数值字符串）及多种分隔符的复杂列。通过结合正则表达式、`word2number`库进行文本到数字的转换，并利用Pandas的字符串操作与数据类型转换功能，实现将原始列高效拆分为多个标准数值列，解决`ValueError: No valid number words found!`等常见问题，提升数据清洗效率。

在数据分析和预处理过程中，我们经常会遇到数据格式不规范的情况，尤其是在从非结构化或半结构化源导入数据时。一个常见的挑战是，单个DataFrame列中可能包含多种类型的信息，例如文本描述的数字（"three hundred"）、数值字符串（"203.0"），并且这些信息可能由不同的分隔符（如;、,、_）连接。本教程将详细讲解如何使用Pandas结合word2number库和正则表达式，高效地将这类复杂列拆分成多个结构化的数值列。

场景描述与问题分析

假设我们有一个DataFrame，其中包含 cement_water 和 coarse_fine_aggregate 等列。这些列的特点是：

cement_water 列: 包含文本形式的数字（如 "three hundred and two"）和数值字符串（如 "203.0"），两者之间由 ;、_ 等分隔符连接。
coarse_fine_aggregate 列: 包含两个数值字符串，由 ;、, 等分隔符连接。
目标: 将这些列拆分为 cement、water、coarse_aggregate、fine_aggregate 等独立的浮点数类型列。

一个常见的错误尝试是先将所有分隔符替换为空格，然后尝试用 word2number 转换所有部分，这可能导致 ValueError: No valid number words found!，因为 word2number 期望输入的是纯粹的数字词，而不是包含数字词和数值字符串的混合文本。

用Apache Spark进行大数据处理

本文档主要讲述的是用Apache Spark进行大数据处理——第一部分：入门介绍；Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。在这个Apache Spark文章系列的第一部分中，我们将了解到什么是Spark，它与典型的MapReduce解决方案的比较以及它如何为大数据处理提供了一套完整的工具。希望本文档会给有需要的朋友带来帮助；感

下载

原始数据示例:

cement_water                  coarse_fine_aggregate
three hundred and two;203.0     974.0,817.0
one hundred and fifty-one;184.4     992.0;815.9
three hundred and sixty-two_164.9   944.7;755.8

期望输出格式:

cement  water   coarse_aggregate    fine_aggregate
302.0   203.0     974.0                    817.0
151.0   184.4      992.0               815.9

Python开发：修复Hangman游戏中的显示逻辑与常见陷阱

Python-docx 深度解析：正确加载与修改现有 .docx 文件

使用Python高效删除Word宏并转换DOCM为DOCX格式

python中的win32com库是什么？

Python如何自动生成考试试卷？

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：高效修改Pandas DataFrame字符串列的首尾元素下一篇：Python处理JSON数据时保留带空格键名的策略与实践

作者最新文章

“国补”PS5难掩Playstation在日本的颓势销量持续走低

2025-12-24 11:58

我在神界刷装备零氪钻石使用攻略

2025-12-24 12:17

IGN满分神作清单更新！63款游戏你玩过哪个？

2025-12-24 12:26

什么叫RPG游戏？连B社的制作人都不太清楚

2025-12-24 12:55

前R星技术总监：《GTA6》不太可能定价100美元但开发成本会创新高

2025-12-24 13:04

《代号三国：龙起》新视频钟晨瑶忘词很可爱

2025-12-24 13:08

曝索尼PSN账户严重安全漏洞！双重认证也难防入侵

2025-12-24 13:10

Steam新一周销量榜：《光与影：33号远征队》仅排第二《怪物猎人：荒野》上榜

2025-12-24 13:20

8.8元的神作！《杀戮尖塔》在线5.2万创下历史新高

2025-12-24 13:21

从良了！成人恐怖游戏《Project Werewulf》宣布推出全年龄版本

2025-12-24 14:07

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

505

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

245

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

722

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

208

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

343

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

228

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

524

2023.12.06

苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/，该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2025.12.24

热门下载

网站特效

网站源码

网站素材

前端模板