
在数据分析实践中,我们经常会遇到包含非标准日期格式、多余字符或不一致分隔符的日期字符串。这些“脏数据”阻碍了直接的日期时间转换或后续的分析操作。本教程将以一个典型的dataframe为例,展示如何通过pandas的强大功能来解决此类问题。
假设我们有一个DataFrame,其中包含一个名为date的列,其内容格式多样,如下所示:
import pandas as pd
import io
data = """id date
1 ' : 07/01/2020 23:25'
2 ': 07/02/2020'
3 ' 07/03/2020 23:25 1'
4 '07/04/2020'
5 '23:50 07/05/2020'
6 '07 06 2023'
7 '00:00 07 07 2023'"""
df = pd.read_csv(io.StringIO(data), sep=r'\s{2,}', engine='python')
df['date'] = df['date'].str.strip("' ") # 清理引号和多余空格
print("原始DataFrame:")
print(df)输出的DataFrame df 如下:
原始DataFrame: id date 0 1 : 07/01/2020 23:25 1 2 : 07/02/2020 2 3 07/03/2020 23:25 1 3 4 07/04/2020 4 5 23:50 07/05/2020 5 6 07 06 2023 6 7 00:00 07 07 2023
我们的目标是从date列中提取出DD/MM/YYYY格式的日期,并将其标准化。
如果最终目标是将这些字符串转换为Pandas的datetime对象,并且字符串中包含的日期格式相对规整,即使有额外的字符,pd.to_datetime函数也能通过设置exact=False参数进行灵活处理。exact=False允许解析器在字符串中查找符合指定格式的部分进行转换,忽略不匹配的部分。
df['datetime_out'] = pd.to_datetime(df['date'], format='%d/%m/%Y', exact=False)
print("\n使用 pd.to_datetime 转换后的DataFrame:")
print(df)输出结果:
使用 pd.to_datetime 转换后的DataFrame: id date datetime_out 0 1 : 07/01/2020 23:25 2020-01-07 1 2 : 07/02/2020 2020-02-07 2 3 07/03/2020 23:25 1 2020-03-07 4 4 07/04/2020 2020-04-07 5 5 23:50 07/05/2020 2020-05-07 6 6 07 06 2023 2023-06-07 7 7 00:00 07 07 2023 2023-07-07
注意事项:
当需要从复杂字符串中精确提取特定模式的日期字符串,并保留其字符串形式时,正则表达式结合Pandas的str.extract方法是理想选择。
首先,我们针对以斜杠/分隔的DD/MM/YYYY格式进行提取。
# 定义正则表达式,匹配 DD/MM/YYYY 格式
# \d{2} 匹配两位数字,\/ 匹配斜杠
regex_slash_date = r'(\d{2}\/\d{2}\/\d{4})'
df['clean_slash_date'] = df['date'].str.extract(regex_slash_date, expand=False)
print("\n使用 str.extract (斜杠分隔) 后的DataFrame:")
print(df)输出结果:
使用 str.extract (斜杠分隔) 后的DataFrame: id date datetime_out clean_slash_date 0 1 : 07/01/2020 23:25 2020-01-07 07/01/2020 1 2 : 07/02/2020 2020-02-07 07/02/2020 2 3 07/03/2020 23:25 1 2020-03-07 07/03/2020 3 4 07/04/2020 2020-04-07 07/04/2020 4 5 23:50 07/05/2020 2020-05-07 07/05/2020 5 6 07 06 2023 2023-06-07 NaN 6 7 00:00 07 07 2023 2023-07-07 NaN
分析:
为了处理日期中可能出现的斜杠/或空格`作为分隔符的情况,我们需要修改正则表达式,并结合str.replace`进行标准化。
# 定义更灵活的正则表达式,匹配 DD/MM/YYYY 或 DD MM YYYY 格式
# [ /] 匹配一个空格或一个斜杠
regex_flexible_date = r'(\d{2}[ /]\d{2}[ /]\d{4})'
df['clean_date_str'] = (df['date']
.str.extract(regex_flexible_date, expand=False)
.str.replace(' ', '/') # 将空格分隔符替换为斜杠
)
print("\n使用 str.extract (灵活分隔符) 和 str.replace 后的DataFrame:")
print(df)输出结果:
使用 str.extract (灵活分隔符) 和 str.replace 后的DataFrame: id date datetime_out clean_slash_date clean_date_str 0 1 : 07/01/2020 23:25 2020-01-07 07/01/2020 07/01/2020 1 2 : 07/02/2020 2020-02-07 07/02/2020 07/02/2020 2 3 07/03/2020 23:25 1 2020-03-07 07/03/2020 07/03/2020 3 4 07/04/2020 2020-04-07 07/04/2020 07/04/2020 4 5 23:50 07/05/2020 2020-05-07 07/05/2020 07/05/2020 5 6 07 06 2023 2023-06-07 NaN 07/06/2023 6 7 00:00 07 07 2023 2023-07-07 NaN 07/07/2023
分析:
清洗DataFrame中的日期字符串是一个常见但具有挑战性的任务。根据您的具体需求,可以选择不同的策略:
直接转换为 datetime 对象 (pd.to_datetime):
提取并标准化日期字符串 (str.extract + str.replace):
在实际应用中,通常建议先尝试使用pd.to_datetime进行转换,因为它更为便捷。如果pd.to_datetime无法满足需求(例如,需要特定格式的字符串输出,或者日期格式过于混乱以至于exact=False也无法处理),那么转向使用正则表达式和str.extract进行模式匹配和清洗将是更强大的解决方案。熟练掌握这两种方法,将大大提高您在Pandas中处理日期数据的能力。
以上就是Pandas DataFrame中日期字符串的清洗与标准化的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号