Pandas与SQL高效重构长格式数据为宽格式列表

霞舞
发布: 2025-10-18 09:10:01
原创
945人浏览过

Pandas与SQL高效重构长格式数据为宽格式列表

本教程探讨了如何高效地将sql数据库中拉取的长格式数据重构为宽格式列表,特别关注性能优化。文章详细介绍了pandas中`pivot`、`set_index`和`unstack`等函数的应用,并通过预过滤数据来提升性能。此外,还强调了在sql层面进行数据透视的巨大优势,提供sql查询示例,旨在帮助读者在python数据处理中实现更快的重构速度。

数据重构需求与挑战

在数据分析和处理中,我们经常会遇到将“长格式”数据(即同一类别的数据以多行形式存储)转换为“宽格式”数据(即同一类别的数据以多列形式存储)的需求。例如,从关系型数据库中获取的数据通常是长格式的,其中包含时间戳、测量类型和对应值。我们需要将其重构为以时间为索引,每个测量类型(如A、B、C、D)作为独立列表的结构。

原始数据结构示例:

Time QuantityMeasured Value
t1 A 7
t1 B 2
... ... ...
tn D 1

目标数据结构示例:

list_of_time = ['t1', ..., 'tn']
list_of_A    = [7, ..., 5]
list_of_B    = [2, ..., 5]
list_of_C    = [8, ..., 3]
list_of_D    = [9, ..., 8]
登录后复制

这种转换在处理大量数据时,性能往往成为关键考量。

Pandas数据重构与性能优化

Pandas库提供了多种强大的工具来处理这类数据重构任务。

1. 使用 pivot 函数进行基础重构

pivot函数是Pandas中用于数据透视的直接方法。它通过指定索引、列和值来重塑DataFrame。

import pandas as pd

# 假设df是您的原始DataFrame
# df = pd.read_sql("SELECT Time, QuantityMeasured, Value FROM your_table", your_connection)

data = {
    'Time': ['t1', 't1', 't1', 't1', 't1', 'tn', 'tn', 'tn', 'tn', 'tn'],
    'QuantityMeasured': ['A', 'B', 'C', 'D', 'E', 'A', 'C', 'E', 'B', 'D'],
    'Value': [7, 2, 8, 9, 5, 5, 3, 4, 5, 1]
}
df = pd.DataFrame(data)

pivot_df = df.pivot(index='Time', columns='QuantityMeasured', values='Value')
print("原始pivot结果:")
print(pivot_df)

# 提取目标列表
list_of_time = pivot_df.index.tolist()
list_of_A = pivot_df['A'].tolist()
list_of_B = pivot_df['B'].tolist()
list_of_C = pivot_df['C'].tolist()
list_of_D = pivot_df['D'].tolist()

print("\n提取的列表示例:")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")
登录后复制

这种方法虽然直观,但在处理包含大量不必要QuantityMeasured类别的数据时,可能会因为生成一个非常宽的中间DataFrame而效率不高。

2. 预过滤数据以提升 pivot 性能

如果只需要特定QuantityMeasured类别(例如'A', 'B', 'C', 'D'),在进行透视操作之前对数据进行过滤,可以显著减少pivot操作的计算量,从而提升性能。这类似于SQL中的WHERE子句或Excel中的筛选功能。

# 假设我们只需要 'A', 'B', 'C', 'D' 这四种测量值
desired_quantities = ['A', 'B', 'C', 'D']

agg_df = (
    df.query("QuantityMeasured in @desired_quantities") # 使用query进行预过滤
    .pivot(index='Time', columns='QuantityMeasured', values='Value')
)
print("\n预过滤后的pivot结果:")
print(agg_df)

# 提取目标列表
list_of_time = agg_df.index.tolist()
list_of_A = agg_df['A'].tolist()
list_of_B = agg_df['B'].tolist()
list_of_C = agg_df['C'].tolist()
list_of_D = agg_df['D'].tolist()

print("\n提取的列表示例(预过滤后):")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")
登录后复制

注意事项:

飞书多维表格
飞书多维表格

表格形态的AI工作流搭建工具,支持批量化的AI创作与分析任务,接入DeepSeek R1满血版

飞书多维表格 26
查看详情 飞书多维表格
  • query方法提供了一种简洁高效的行筛选方式。@desired_quantities语法允许在query字符串中引用外部变量。
  • 通过预过滤,中间DataFrame的宽度大大减小,减少了内存消耗和计算时间。

3. 使用 set_index 和 unstack 替代 pivot

pivot函数在底层通常会调用set_index和unstack。在某些特定场景下,直接使用set_index和unstack可能会带来轻微的性能优势。

agg_df_unstack = (
    df
    .query("QuantityMeasured in @desired_quantities") # 同样进行预过滤
    .set_index(['Time', 'QuantityMeasured'])['Value'] # 将Time和QuantityMeasured设为多级索引
    .unstack() # 将QuantityMeasured从索引转换为列
)
print("\n使用set_index和unstack的结果:")
print(agg_df_unstack)

# 提取目标列表
list_of_time_unstack = agg_df_unstack.index.tolist()
list_of_A_unstack = agg_df_unstack['A'].tolist()
list_of_B_unstack = agg_df_unstack['B'].tolist()
list_of_C_unstack = agg_df_unstack['C'].tolist()
list_of_D_unstack = agg_df_unstack['D'].tolist()

print("\n提取的列表示例(set_index和unstack):")
print(f"Time: {list_of_time_unstack}")
print(f"A: {list_of_A_unstack}")
登录后复制

性能考量: 尽管Pandas提供了强大的数据重构能力,但对于大规模数据集,纯Python/Pandas的性能提升往往存在瓶颈。期望将处理时间缩短一个数量级(例如从0.2秒到0.02秒)在Python环境中可能不切实际,尤其是在涉及约1.85万个数据点时。对于更显著的性能提升,应考虑将数据处理的重心转移到数据源端,即SQL数据库。

SQL层面进行数据透视以实现极致性能

将数据透视操作在SQL查询阶段完成,是实现大幅性能提升的最佳策略。数据库系统通常针对这类聚合和重构操作进行了高度优化,并且避免了将大量原始数据传输到Python环境再进行处理的开销。

以下是一个在SQL中实现数据透视的示例查询:

SELECT
  Time,
  SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
  SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
  SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
  SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
FROM your_table_name -- 将 'your_table_name' 替换为实际的表名
GROUP BY Time
ORDER BY Time; -- 可选:按时间排序
登录后复制

解释:

  • CASE WHEN 语句用于根据 QuantityMeasured 的值有条件地选择 Value。如果 QuantityMeasured 是 'A',则取 Value,否则为0。
  • SUM 聚合函数将同一 Time 下的所有 Value(经过 CASE WHEN 处理后)相加。由于我们希望每个 QuantityMeasured 类别独立成列,并且在同一 Time 下每个 QuantityMeasured 只有一个 Value,SUM在这里实际上起到了“选择”该值的作用。如果存在多个相同Time和QuantityMeasured的记录,SUM会将其加总,这可能需要根据实际业务逻辑调整(例如使用MAX或AVG)。
  • GROUP BY Time 将结果按 Time 分组,确保每个 Time 对应一行数据。

执行此SQL查询后,数据库将直接返回一个已经透视好的结果集,其结构与我们最终想要的DataFrame非常相似。之后,您只需将这个结果加载到Pandas DataFrame中,并简单地提取为列表即可,这会比在Python中进行复杂重构快得多。

# 假设您已经建立了数据库连接
# import sqlalchemy
# engine = sqlalchemy.create_engine("mysql+mysqlconnector://user:password@host/db")

# sql_query = """
# SELECT
#   Time,
#   SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
#   SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
#   SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
#   SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
# FROM your_table_name
# GROUP BY Time
# ORDER BY Time;
# """

# pivoted_df_from_sql = pd.read_sql(sql_query, engine)

# # 从Pandas DataFrame中提取列表
# list_of_time_sql = pivoted_df_from_sql['Time'].tolist()
# list_of_A_sql = pivoted_df_from_sql['A'].tolist()
# list_of_B_sql = pivoted_df_from_sql['B'].tolist()
# list_of_C_sql = pivoted_df_from_sql['C'].tolist()
# list_of_D_sql = pivoted_df_from_sql['D'].tolist()
登录后复制

总结

在将长格式数据重构为宽格式列表的场景中,性能优化是关键。

  1. Pandas内部优化: 在使用Pandas进行重构时,务必在透视操作(如pivot或set_index().unstack())之前,通过query或条件筛选对数据进行预过滤。这能有效减少中间DataFrame的大小,从而提升效率。
  2. 性能瓶颈与预期: 即使经过优化,纯Python/Pandas在处理数万级别的数据点时,其性能提升也存在上限。期望实现数量级(如10倍)的加速可能不现实。
  3. SQL层面重构: 对于追求极致性能的场景,最推荐的方法是在SQL数据库层面完成数据透视。通过编写高效的SQL查询(如使用CASE WHEN和GROUP BY),可以将繁重的计算任务转移到数据库服务器,显著减少数据传输量和Python端的处理负担,从而获得最显著的性能提升。

选择哪种方法取决于您的具体需求、数据量以及对性能的要求。对于中小型数据集,Pandas的优化可能已足够;而对于大型数据集或对响应时间有严格要求的应用,SQL层面的重构无疑是更优的选择。

以上就是Pandas与SQL高效重构长格式数据为宽格式列表的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号