Pandas与SQL高效重构长格式数据为宽格式列表

霞舞

发布时间：2025-10-18 09:10:01

958人浏览过

来源于php中文网

原创

Pandas与SQL高效重构长格式数据为宽格式列表

本教程探讨了如何高效地将sql数据库中拉取的长格式数据重构为宽格式列表，特别关注性能优化。文章详细介绍了pandas中`pivot`、`set_index`和`unstack`等函数的应用，并通过预过滤数据来提升性能。此外，还强调了在sql层面进行数据透视的巨大优势，提供sql查询示例，旨在帮助读者在python数据处理中实现更快的重构速度。

数据重构需求与挑战

在数据分析和处理中，我们经常会遇到将“长格式”数据（即同一类别的数据以多行形式存储）转换为“宽格式”数据（即同一类别的数据以多列形式存储）的需求。例如，从关系型数据库中获取的数据通常是长格式的，其中包含时间戳、测量类型和对应值。我们需要将其重构为以时间为索引，每个测量类型（如A、B、C、D）作为独立列表的结构。

原始数据结构示例：

Time	QuantityMeasured	Value
t1	A	7
t1	B	2
...	...	...
tn	D	1

目标数据结构示例：

list_of_time = ['t1', ..., 'tn']
list_of_A    = [7, ..., 5]
list_of_B    = [2, ..., 5]
list_of_C    = [8, ..., 3]
list_of_D    = [9, ..., 8]

这种转换在处理大量数据时，性能往往成为关键考量。

Pandas数据重构与性能优化

Pandas库提供了多种强大的工具来处理这类数据重构任务。

1. 使用 pivot 函数进行基础重构

pivot函数是Pandas中用于数据透视的直接方法。它通过指定索引、列和值来重塑DataFrame。

import pandas as pd

# 假设df是您的原始DataFrame
# df = pd.read_sql("SELECT Time, QuantityMeasured, Value FROM your_table", your_connection)

data = {
    'Time': ['t1', 't1', 't1', 't1', 't1', 'tn', 'tn', 'tn', 'tn', 'tn'],
    'QuantityMeasured': ['A', 'B', 'C', 'D', 'E', 'A', 'C', 'E', 'B', 'D'],
    'Value': [7, 2, 8, 9, 5, 5, 3, 4, 5, 1]
}
df = pd.DataFrame(data)

pivot_df = df.pivot(index='Time', columns='QuantityMeasured', values='Value')
print("原始pivot结果：")
print(pivot_df)

# 提取目标列表
list_of_time = pivot_df.index.tolist()
list_of_A = pivot_df['A'].tolist()
list_of_B = pivot_df['B'].tolist()
list_of_C = pivot_df['C'].tolist()
list_of_D = pivot_df['D'].tolist()

print("\n提取的列表示例：")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")

这种方法虽然直观，但在处理包含大量不必要QuantityMeasured类别的数据时，可能会因为生成一个非常宽的中间DataFrame而效率不高。

2. 预过滤数据以提升 pivot 性能

如果只需要特定QuantityMeasured类别（例如'A', 'B', 'C', 'D'），在进行透视操作之前对数据进行过滤，可以显著减少pivot操作的计算量，从而提升性能。这类似于SQL中的WHERE子句或Excel中的筛选功能。

# 假设我们只需要 'A', 'B', 'C', 'D' 这四种测量值
desired_quantities = ['A', 'B', 'C', 'D']

agg_df = (
    df.query("QuantityMeasured in @desired_quantities") # 使用query进行预过滤
    .pivot(index='Time', columns='QuantityMeasured', values='Value')
)
print("\n预过滤后的pivot结果：")
print(agg_df)

# 提取目标列表
list_of_time = agg_df.index.tolist()
list_of_A = agg_df['A'].tolist()
list_of_B = agg_df['B'].tolist()
list_of_C = agg_df['C'].tolist()
list_of_D = agg_df['D'].tolist()

print("\n提取的列表示例（预过滤后）：")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")

注意事项：

Quinvio AI

AI辅助下快速创建视频，虚拟代言人

下载

query方法提供了一种简洁高效的行筛选方式。@desired_quantities语法允许在query字符串中引用外部变量。
通过预过滤，中间DataFrame的宽度大大减小，减少了内存消耗和计算时间。

3. 使用 set_index 和 unstack 替代 pivot

pivot函数在底层通常会调用set_index和unstack。在某些特定场景下，直接使用set_index和unstack可能会带来轻微的性能优势。

agg_df_unstack = (
    df
    .query("QuantityMeasured in @desired_quantities") # 同样进行预过滤
    .set_index(['Time', 'QuantityMeasured'])['Value'] # 将Time和QuantityMeasured设为多级索引
    .unstack() # 将QuantityMeasured从索引转换为列
)
print("\n使用set_index和unstack的结果：")
print(agg_df_unstack)

# 提取目标列表
list_of_time_unstack = agg_df_unstack.index.tolist()
list_of_A_unstack = agg_df_unstack['A'].tolist()
list_of_B_unstack = agg_df_unstack['B'].tolist()
list_of_C_unstack = agg_df_unstack['C'].tolist()
list_of_D_unstack = agg_df_unstack['D'].tolist()

print("\n提取的列表示例（set_index和unstack）：")
print(f"Time: {list_of_time_unstack}")
print(f"A: {list_of_A_unstack}")

性能考量： 尽管Pandas提供了强大的数据重构能力，但对于大规模数据集，纯Python/Pandas的性能提升往往存在瓶颈。期望将处理时间缩短一个数量级（例如从0.2秒到0.02秒）在Python环境中可能不切实际，尤其是在涉及约1.85万个数据点时。对于更显著的性能提升，应考虑将数据处理的重心转移到数据源端，即SQL数据库。

SQL层面进行数据透视以实现极致性能

将数据透视操作在SQL查询阶段完成，是实现大幅性能提升的最佳策略。数据库系统通常针对这类聚合和重构操作进行了高度优化，并且避免了将大量原始数据传输到Python环境再进行处理的开销。

以下是一个在SQL中实现数据透视的示例查询：

SELECT
  Time,
  SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
  SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
  SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
  SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
FROM your_table_name -- 将 'your_table_name' 替换为实际的表名
GROUP BY Time
ORDER BY Time; -- 可选：按时间排序

解释：

CASE WHEN 语句用于根据 QuantityMeasured 的值有条件地选择 Value。如果 QuantityMeasured 是 'A'，则取 Value，否则为0。
SUM 聚合函数将同一 Time 下的所有 Value（经过 CASE WHEN 处理后）相加。由于我们希望每个 QuantityMeasured 类别独立成列，并且在同一 Time 下每个 QuantityMeasured 只有一个 Value，SUM在这里实际上起到了“选择”该值的作用。如果存在多个相同Time和QuantityMeasured的记录，SUM会将其加总，这可能需要根据实际业务逻辑调整（例如使用MAX或AVG）。
GROUP BY Time 将结果按 Time 分组，确保每个 Time 对应一行数据。

执行此SQL查询后，数据库将直接返回一个已经透视好的结果集，其结构与我们最终想要的DataFrame非常相似。之后，您只需将这个结果加载到Pandas DataFrame中，并简单地提取为列表即可，这会比在Python中进行复杂重构快得多。

# 假设您已经建立了数据库连接
# import sqlalchemy
# engine = sqlalchemy.create_engine("mysql+mysqlconnector://user:password@host/db")

# sql_query = """
# SELECT
#   Time,
#   SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
#   SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
#   SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
#   SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
# FROM your_table_name
# GROUP BY Time
# ORDER BY Time;
# """

# pivoted_df_from_sql = pd.read_sql(sql_query, engine)

# # 从Pandas DataFrame中提取列表
# list_of_time_sql = pivoted_df_from_sql['Time'].tolist()
# list_of_A_sql = pivoted_df_from_sql['A'].tolist()
# list_of_B_sql = pivoted_df_from_sql['B'].tolist()
# list_of_C_sql = pivoted_df_from_sql['C'].tolist()
# list_of_D_sql = pivoted_df_from_sql['D'].tolist()

总结

在将长格式数据重构为宽格式列表的场景中，性能优化是关键。

Pandas内部优化： 在使用Pandas进行重构时，务必在透视操作（如pivot或set_index().unstack()）之前，通过query或条件筛选对数据进行预过滤。这能有效减少中间DataFrame的大小，从而提升效率。
性能瓶颈与预期： 即使经过优化，纯Python/Pandas在处理数万级别的数据点时，其性能提升也存在上限。期望实现数量级（如10倍）的加速可能不现实。
SQL层面重构： 对于追求极致性能的场景，最推荐的方法是在SQL数据库层面完成数据透视。通过编写高效的SQL查询（如使用CASE WHEN和GROUP BY），可以将繁重的计算任务转移到数据库服务器，显著减少数据传输量和Python端的处理负担，从而获得最显著的性能提升。

选择哪种方法取决于您的具体需求、数据量以及对性能的要求。对于中小型数据集，Pandas的优化可能已足够；而对于大型数据集或对响应时间有严格要求的应用，SQL层面的重构无疑是更优的选择。

sqlalchemy 如何优雅写“存在则更新，不存在则插入”

Peewee 会覆盖 MySQL 的全局 SQL 模式，导致严格模式失效

Peewee 覆盖 MySQL 默认 SQL 模式导致严格模式失效的解决方案

Peewee 默认覆盖 MySQL 严格模式：如何正确启用 SQL 严格校验

Peewee MySQL 连接默认覆盖 SQL 模式导致严格模式失效问题详解