Pandas数据合并：处理多时间频率DataFrame的完整指南-Python教程-PHP中文网

Pandas数据合并：处理多时间频率DataFrame的完整指南

花韻仙語

发布： 2025-12-13 21:41:02

原创

164人浏览过

Pandas数据合并：处理多时间频率DataFrame的完整指南

本教程详细阐述了如何使用pandas高效合并具有不同时间步长的多个dataframe。通过利用`pd.merge`函数的`how='outer'`参数，我们能够将所有时间点的数据整合到一个统一的数据帧中，并自动处理缺失值，确保所有时间序列信息的完整性。文章提供了具体的代码示例和专业指导，帮助读者掌握此类复杂数据合并技巧。

引言

在数据分析和处理中，我们经常会遇到需要整合来自不同来源或以不同频率采集的时间序列数据。例如，传感器A每10分钟记录一次数据，传感器B每15分钟记录一次，而传感器C每30分钟记录一次。将这些具有不同时间步长（或称为时间粒度）的数据帧（DataFrame）合并成一个统一的视图，同时保留所有原始时间点并清晰标记缺失数据，是一个常见的挑战。本教程将深入探讨如何使用Pandas库有效地解决这一问题。

挑战分析：多时间频率数据合并

假设我们有三个DataFrame，df1、df2和df3，它们各自包含Timestamp列和对应的数据列（data1、data2、data3）。它们的时间步长分别为10分钟、15分钟和30分钟。

原始数据结构示例：

df1 (10分钟步长):

Timestamp	data1
2019/04/02 10:00:00	1
2019/04/02 10:10:00	1
2019/04/02 10:20:00	1
2019/04/02 10:30:00	1

df2 (15分钟步长):

Timestamp	data2
2019/04/02 10:00:00	2
2019/04/02 10:15:00	22
2019/04/02 10:30:00	222
2019/04/02 10:45:00	2222
2019/04/02 11:00:00	22222

df3 (30分钟步长):

Timestamp	data3
2019/04/02 10:00:00	3
2019/04/02 10:30:00	33
2019/04/02 11:00:00	333
2019/04/02 11:30:00	3333

我们的目标是生成一个包含所有独特时间戳的合并DataFrame。对于在某个特定时间点上，如果某个原始DataFrame没有对应的数据，则其相应的数据列应显示为NaN（Not a Number）。

期望结果示例：

Timestamp	data1	data2	data3
2019/04/02 10:00:00	1	2	3
2019/04/02 10:10:00	1	NaN	NaN
2019/04/02 10:15:00	NaN	22	NaN
2019/04/02 10:20:00	1	NaN	NaN
2019/04/02 10:30:00	1	222	33
2019/04/02 10:45:00	NaN	2222	NaN
2019/04/02 11:00:00	NaN	22222	333
2019/04/02 11:30:00	NaN	NaN	3333

Pandas合并策略：outer连接的优势

Pandas提供了强大的merge函数来合并DataFrames。解决上述问题的关键在于使用how='outer'参数进行合并。

pd.merge()函数：用于根据一个或多个键列（这里是Timestamp）组合两个DataFrame。
how参数：定义了合并类型。
- 'inner'：只保留两个DataFrame中都存在的键。
- 'left'：保留左DataFrame的所有键，并匹配右DataFrame的键。
- 'right'：保留右DataFrame的所有键，并匹配左DataFrame的键。
- 'outer'：保留两个DataFrame中所有独特的键。如果某个键只存在于其中一个DataFrame中，则在另一个DataFrame对应的列中填充NaN。

how='outer'正是我们所需要的，它确保了所有DataFrame中的所有时间戳都会被包含在最终结果中，并且对于那些在特定时间点没有数据的列，会用NaN进行填充，完美符合我们的期望。

实施步骤与代码示例

下面我们将通过具体的Python代码演示如何实现这一合并过程。

步骤一：统一时间戳格式

在进行任何时间序列操作之前，确保Timestamp列是Pandas的datetime对象至关重要。这不仅可以保证正确的排序和比较，还能利用Pandas强大的时间序列功能。

N世界

一分钟搭建会展元宇宙

138

查看详情

import pandas as pd

# 示例数据创建 (与问题内容一致)
data1 = {'Timestamp': ['2019/04/02 10:00:00', '2019/04/02 10:10:00', '2019/04/02 10:20:00', '2019/04/02 10:30:00'],
         'data1': [1, 1, 1, 1]}
df1 = pd.DataFrame(data1)

data2 = {'Timestamp': ['2019/04/02 10:00:00', '2019/04/02 10:15:00', '2019/04/02 10:30:00', '2019/04/02 10:45:00', '2019/04/02 11:00:00'],
         'data2': [2, 22, 222, 2222, 22222]}
df2 = pd.DataFrame(data2)

data3 = {'Timestamp': ['2019/04/02 10:00:00', '2019/04/02 10:30:00', '2019/04/02 11:00:00', '2019/04/02 11:30:00'],
         'data3': [3, 33, 333, 3333]}
df3 = pd.DataFrame(data3)

# 将Timestamp列转换为datetime对象
df1['Timestamp'] = pd.to_datetime(df1['Timestamp'])
df2['Timestamp'] = pd.to_datetime(df2['Timestamp'])
df3['Timestamp'] = pd.to_datetime(df3['Timestamp'])

登录后复制

步骤二：执行外连接合并

由于pd.merge一次只能合并两个DataFrame，我们需要通过链式操作或迭代的方式逐步合并。这里，我们将df1与df2合并，然后将结果与df3合并。

# 首先合并df1和df2
result = pd.merge(df1, df2, on='Timestamp', how='outer')

# 接着将结果与df3合并
result = pd.merge(result, df3, on='Timestamp', how='outer')

登录后复制

步骤三：结果排序

合并后的DataFrame的行顺序可能不是严格按时间戳递增的。为了获得清晰、有序的时间序列数据，我们需要根据Timestamp列对结果进行排序。reset_index(drop=True)用于清理旧的索引。

# 根据Timestamp列对结果进行排序
result = result.sort_values('Timestamp').reset_index(drop=True)

登录后复制

完整代码示例

将以上所有步骤整合，得到完整的解决方案：

import pandas as pd

# 示例数据创建
data1 = {'Timestamp': ['2019/04/02 10:00:00', '2019/04/02 10:10:00', '2019/04/02 10:20:00', '2019/04/02 10:30:00'],
         'data1': [1, 1, 1, 1]}
df1 = pd.DataFrame(data1)

data2 = {'Timestamp': ['2019/04/02 10:00:00', '2019/04/02 10:15:00', '2019/04/02 10:30:00', '2019/04/02 10:45:00', '2019/04/02 11:00:00'],
         'data2': [2, 22, 222, 2222, 22222]}
df2 = pd.DataFrame(data2)

data3 = {'Timestamp': ['2019/04/02 10:00:00', '2019/04/02 10:30:00', '2019/04/02 11:00:00', '2019/04/02 11:30:00'],
         'data3': [3, 33, 333, 3333]}
df3 = pd.DataFrame(data3)

# 1. 将Timestamp列转换为datetime对象
df1['Timestamp'] = pd.to_datetime(df1['Timestamp'])
df2['Timestamp'] = pd.to_datetime(df2['Timestamp'])
df3['Timestamp'] = pd.to_datetime(df3['Timestamp'])

# 2. 执行外连接合并
# 先合并df1和df2
result = pd.merge(df1, df2, on='Timestamp', how='outer')
# 再将结果与df3合并
result = pd.merge(result, df3, on='Timestamp', how='outer')

# 3. 根据Timestamp列对结果进行排序并重置索引
result = result.sort_values('Timestamp').reset_index(drop=True)

print(result)

登录后复制

输出结果：

            Timestamp  data1    data2  data3
0 2019-04-02 10:00:00    1.0      2.0    3.0
1 2019-04-02 10:10:00    1.0      NaN    NaN
2 2019-04-02 10:15:00    NaN     22.0    NaN
3 2019-04-02 10:20:00    1.0      NaN    NaN
4 2019-04-02 10:30:00    1.0    222.0   33.0
5 2019-04-02 10:45:00    NaN   2222.0    NaN
6 2019-04-02 11:00:00    NaN  22222.0  333.0
7 2019-04-02 11:30:00    NaN      NaN 3333.0

登录后复制

可以看到，输出结果与我们期望的完全一致。

注意事项与进阶考量

NaN值的处理：合并后生成的DataFrame中会包含许多NaN值。根据后续的数据分析或建模需求，可能需要对这些NaN值进行填充。常见的填充方法包括：
- 前向填充 (Forward Fill)：result.fillna(method='ffill')，用前一个有效值填充。
- 后向填充 (Backward Fill)：result.fillna(method='bfill')，用后一个有效值填充。
- 插值 (Interpolation)：result.interpolate(method='time')，根据时间序列特性进行插值。
- 常数填充：result.fillna(0)，用特定常数填充。选择哪种方法取决于数据的性质和分析目标。
merge_asof的适用场景：Pandas还提供了pd.merge_asof函数，它适用于合并“最近邻”的时间序列数据。例如，如果你想将一个高频数据与最近的低频数据匹配，而不是严格要求时间戳完全匹配时，merge_asof会非常有用。然而，对于本教程中要求保留所有时间点并显示NaN的需求，merge_asof并不适用，因为它会进行数据填充而非创建NaN。
性能优化：对于拥有数百万甚至数十亿行的大型DataFrame，直接使用pd.merge可能会消耗大量内存和时间。在这种情况下，可以考虑以下优化策略：
- 设置Timestamp为索引：如果Timestamp列被设置为DataFrame的索引，Pandas在进行合并时可能会更高效。
- 使用Dask：Dask是一个并行计算库，可以与Pandas API兼容，用于处理超出内存的大型数据集。
- 预过滤数据：在合并之前，尽可能地筛选掉不必要的数据行。
列名冲突：如果不同DataFrame中除了Timestamp之外还有其他同名列，pd.merge会自动添加后缀（如_x, _y）来区分它们。可以通过suffixes参数自定义这些后缀。

总结

本教程详细介绍了如何使用Pandas的pd.merge函数结合how='outer'参数，有效地合并具有不同时间步长的多个DataFrame。通过将时间戳列统一为datetime格式，并逐步进行外连接合并，最终得到了一个包含所有时间点和相应数据的统一视图，其中缺失值以NaN表示。理解并掌握这种合并策略对于处理复杂的时间序列数据至关重要，它为后续的数据清洗、分析和建模奠定了坚实的基础。同时，文章也提醒了NaN值的后续处理以及merge_asof等其他合并方法的适用性，帮助读者在实际工作中做出更明智的选择。

以上就是Pandas数据合并：处理多时间频率DataFrame的完整指南的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

Python类方法间数据共享：利用类变量与@classmethod实现数据传递如何从PDF文本提取中排除特定页面 python如何将字符转换为数字 Python脚本执行与源代码及输出同步展示教程 Python Socket编程：如何精确控制UDP/组播数据包的源IP地址