0

0

Pandas DataFrame中复杂日期字符串的清洗与格式化教程

霞舞

霞舞

发布时间:2025-10-09 13:10:35

|

1063人浏览过

|

来源于php中文网

原创

Pandas DataFrame中复杂日期字符串的清洗与格式化教程

本教程详细介绍了如何在Pandas DataFrame中处理包含特殊字符和冗余信息的日期字符串。文章提供了两种核心策略:一是利用pd.to_datetime函数的exact=False参数直接将复杂字符串转换为日期时间对象,二是结合正则表达式str.extract和str.replace方法,从混乱的字符串中精准提取并标准化日期部分,以应对不同格式的日期字符串,确保数据清洗的准确性和灵活性。

引言:Pandas DataFrame中日期字符串的清洗挑战

在数据分析和处理过程中,我们经常会遇到dataframe中日期列包含非标准格式、特殊字符或额外信息的情况。例如,日期字符串可能混杂着时间、冒号、空格等,这给直接的类型转换或格式化带来了挑战。本教程将介绍几种有效的方法来清洗和标准化这些复杂的日期字符串,使其符合分析需求。

方法一:利用pd.to_datetime的灵活性进行转换

如果您的最终目标是将日期字符串转换为Pandas的datetime对象,并且字符串中包含的额外信息不会完全破坏日期部分的识别,那么pd.to_datetime函数提供了一个非常便捷的参数:exact=False。

exact=False参数允许to_datetime在尝试解析日期时忽略字符串中的额外数据,只要日期部分能够被识别。这在处理日期前后有无关字符(如时间戳、冒号等)时非常有用。

示例数据:

import pandas as pd
import io

data = """id date
1  '  : 07/01/2020 23:25'
2  ': 07/02/2020'
3  ' 07/03/2020 23:25 1'
4  '07/04/2020'
5  '23:50 07/05/2020'
6  '07 06 2023'
7  '00:00 07 07 2023'
"""
df = pd.read_csv(io.StringIO(data), sep=r'\s{2,}', engine='python')
df['date'] = df['date'].str.strip("'") # 清除单引号
print("原始DataFrame:")
print(df)

使用pd.to_datetime进行转换:

df['out'] = pd.to_datetime(df['date'], format='%d/%m/%Y', exact=False)
print("\n使用pd.to_datetime(exact=False)后的DataFrame:")
print(df)

输出结果:

原始DataFrame:
   id                  date
0   1    : 07/01/2020 23:25
1   2          : 07/02/2020
2   3    07/03/2020 23:25 1
3   4            07/04/2020
4   5      23:50 07/05/2020
5   6            07 06 2023
6   7      00:00 07 07 2023

使用pd.to_datetime(exact=False)后的DataFrame:
   id                  date        out
0   1    : 07/01/2020 23:25 2020-01-07
1   2          : 07/02/2020 2020-02-07
2   3    07/03/2020 23:25 1 2020-03-07
3   4            07/04/2020 2020-04-07
4   5      23:50 07/05/2020 2020-05-07
5   6            07 06 2023 2023-06-07
6   7      00:00 07 07 2023 2023-07-07

注意事项:

  • format参数仍然很重要,它告诉Pandas日期的基本结构(例如,%d/%m/%Y表示日月年)。
  • exact=False并非万能,如果日期部分本身格式不一致或被严重破坏,它可能无法正确解析。

方法二:使用正则表达式提取和标准化日期字符串

如果您的目标是提取纯净的日期字符串(例如DD/MM/YYYY格式),或者pd.to_datetime无法满足需求,那么结合正则表达式和str.extract方法是更灵活的选择。

2.1 提取标准DD/MM/YYYY格式

对于形如DD/MM/YYYY的日期模式,我们可以构建一个精确的正则表达式来匹配。

正则表达式: (\d{2}\/\d{2}\/\d{4})

  • \d{2}:匹配两个数字(代表日或月)。
  • \/:匹配斜杠(需要转义)。
  • \d{4}:匹配四个数字(代表年)。
  • ():捕获组,str.extract会返回捕获组中的内容。

代码示例:

剪映
剪映

一款全能易用的桌面端剪辑软件

下载
df['clean_slash'] = df['date'].str.extract(r'(\d{2}\/\d{2}\/\d{4})')
print("\n使用str.extract提取标准斜杠日期后的DataFrame:")
print(df)

输出结果:

使用str.extract提取标准斜杠日期后的DataFrame:
   id                  date        out clean_slash
0   1    : 07/01/2020 23:25 2020-01-07  07/01/2020
1   2          : 07/02/2020 2020-02-07  07/02/2020
2   3    07/03/2020 23:25 1 2020-03-07  07/03/2020
3   4            07/04/2020 2020-04-07  07/04/2020
4   5      23:50 07/05/2020 2020-05-07  07/05/2020
5   6            07 06 2023 2023-06-07         NaN
6   7      00:00 07 07 2023 2023-07-07         NaN

可以看到,对于以空格分隔的日期(如第6、7行),此正则未能匹配。

2.2 提取并标准化包含不同分隔符的日期

当日期字符串可能使用斜杠或空格作为分隔符时,我们需要一个更灵活的正则表达式来捕获这些模式,并随后进行标准化。

正则表达式: (\d{2}[ /]\d{2}[ /]\d{4})

  • [ /]:匹配一个空格或一个斜杠。这使得正则表达式能够同时捕获DD/MM/YYYY和DD MM YYYY格式。

代码示例:

df['clean_mixed'] = (df['date']
                     .str.extract(r'(\d{2}[ /]\d{2}[ /]\d{4})', expand=False)
                     .str.replace(' ', '/')
                    )
print("\n使用str.extract提取并标准化日期后的DataFrame:")
print(df)

输出结果:

使用str.extract提取并标准化日期后的DataFrame:
   id                  date        out clean_slash clean_mixed
0   1    : 07/01/2020 23:25 2020-01-07  07/01/2020  07/01/2020
1   2          : 07/02/2020 2020-02-07  07/02/2020  07/02/2020
2   3    07/03/2020 23:25 1 2020-03-07  07/03/2020  07/03/2020
4   4            07/04/2020 2020-04-07  07/04/2020  07/04/2020
5   5      23:50 07/05/2020 2020-05-07  07/05/2020  07/05/2020
6   6            07 06 2023 2023-06-07         NaN  07/06/2023
7   7      00:00 07 07 2023 2023-07-07         NaN  07/07/2023

通过这种方法,我们成功地提取了所有日期,并将其统一标准化为DD/MM/YYYY格式。

总结

清洗Pandas DataFrame中的复杂日期字符串是一个常见的任务。本教程提供了两种主要的解决方案:

  1. 直接转换为datetime对象: 利用pd.to_datetime函数的exact=False参数,可以在日期字符串中包含额外信息时,尝试直接将其转换为日期时间对象。这种方法适用于目标是datetime类型,且日期格式相对一致的情况。
  2. 使用正则表达式提取和标准化字符串: 结合Series.str.extract和Series.str.replace,可以灵活地从复杂字符串中提取特定模式的日期,并将其标准化为统一的字符串格式。这种方法在需要更精细控制提取内容或处理多种日期分隔符时更为强大。

在实际应用中,选择哪种方法取决于您的具体需求和数据特点。通常,如果最终需要进行日期计算或时间序列分析,转换为datetime对象是首选;如果仅仅需要一个干净的日期字符串,那么正则表达式提取是更直接的路径。无论选择哪种方法,理解数据中日期字符串的模式是成功的关键。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

505

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

245

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

722

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

209

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

343

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

228

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

525

2023.12.06

笔记本电脑卡反应很慢处理方法汇总
笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法,阅读专题下面的文章了解更多详细内容。

1

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号