0

0

Pandas与SQL高效重构长格式数据为宽格式列表

霞舞

霞舞

发布时间:2025-10-18 09:10:01

|

958人浏览过

|

来源于php中文网

原创

Pandas与SQL高效重构长格式数据为宽格式列表

本教程探讨了如何高效地将sql数据库中拉取的长格式数据重构为宽格式列表,特别关注性能优化。文章详细介绍了pandas中`pivot`、`set_index`和`unstack`等函数的应用,并通过预过滤数据来提升性能。此外,还强调了在sql层面进行数据透视的巨大优势,提供sql查询示例,旨在帮助读者在python数据处理中实现更快的重构速度。

数据重构需求与挑战

在数据分析和处理中,我们经常会遇到将“长格式”数据(即同一类别的数据以多行形式存储)转换为“宽格式”数据(即同一类别的数据以多列形式存储)的需求。例如,从关系型数据库中获取的数据通常是长格式的,其中包含时间戳、测量类型和对应值。我们需要将其重构为以时间为索引,每个测量类型(如A、B、C、D)作为独立列表的结构。

原始数据结构示例:

Time QuantityMeasured Value
t1 A 7
t1 B 2
... ... ...
tn D 1

目标数据结构示例:

list_of_time = ['t1', ..., 'tn']
list_of_A    = [7, ..., 5]
list_of_B    = [2, ..., 5]
list_of_C    = [8, ..., 3]
list_of_D    = [9, ..., 8]

这种转换在处理大量数据时,性能往往成为关键考量。

Pandas数据重构与性能优化

Pandas库提供了多种强大的工具来处理这类数据重构任务。

1. 使用 pivot 函数进行基础重构

pivot函数是Pandas中用于数据透视的直接方法。它通过指定索引、列和值来重塑DataFrame。

import pandas as pd

# 假设df是您的原始DataFrame
# df = pd.read_sql("SELECT Time, QuantityMeasured, Value FROM your_table", your_connection)

data = {
    'Time': ['t1', 't1', 't1', 't1', 't1', 'tn', 'tn', 'tn', 'tn', 'tn'],
    'QuantityMeasured': ['A', 'B', 'C', 'D', 'E', 'A', 'C', 'E', 'B', 'D'],
    'Value': [7, 2, 8, 9, 5, 5, 3, 4, 5, 1]
}
df = pd.DataFrame(data)

pivot_df = df.pivot(index='Time', columns='QuantityMeasured', values='Value')
print("原始pivot结果:")
print(pivot_df)

# 提取目标列表
list_of_time = pivot_df.index.tolist()
list_of_A = pivot_df['A'].tolist()
list_of_B = pivot_df['B'].tolist()
list_of_C = pivot_df['C'].tolist()
list_of_D = pivot_df['D'].tolist()

print("\n提取的列表示例:")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")

这种方法虽然直观,但在处理包含大量不必要QuantityMeasured类别的数据时,可能会因为生成一个非常宽的中间DataFrame而效率不高。

2. 预过滤数据以提升 pivot 性能

如果只需要特定QuantityMeasured类别(例如'A', 'B', 'C', 'D'),在进行透视操作之前对数据进行过滤,可以显著减少pivot操作的计算量,从而提升性能。这类似于SQL中的WHERE子句或Excel中的筛选功能。

# 假设我们只需要 'A', 'B', 'C', 'D' 这四种测量值
desired_quantities = ['A', 'B', 'C', 'D']

agg_df = (
    df.query("QuantityMeasured in @desired_quantities") # 使用query进行预过滤
    .pivot(index='Time', columns='QuantityMeasured', values='Value')
)
print("\n预过滤后的pivot结果:")
print(agg_df)

# 提取目标列表
list_of_time = agg_df.index.tolist()
list_of_A = agg_df['A'].tolist()
list_of_B = agg_df['B'].tolist()
list_of_C = agg_df['C'].tolist()
list_of_D = agg_df['D'].tolist()

print("\n提取的列表示例(预过滤后):")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")

注意事项:

Quinvio AI
Quinvio AI

AI辅助下快速创建视频,虚拟代言人

下载
  • query方法提供了一种简洁高效的行筛选方式。@desired_quantities语法允许在query字符串中引用外部变量。
  • 通过预过滤,中间DataFrame的宽度大大减小,减少了内存消耗和计算时间。

3. 使用 set_index 和 unstack 替代 pivot

pivot函数在底层通常会调用set_index和unstack。在某些特定场景下,直接使用set_index和unstack可能会带来轻微的性能优势。

agg_df_unstack = (
    df
    .query("QuantityMeasured in @desired_quantities") # 同样进行预过滤
    .set_index(['Time', 'QuantityMeasured'])['Value'] # 将Time和QuantityMeasured设为多级索引
    .unstack() # 将QuantityMeasured从索引转换为列
)
print("\n使用set_index和unstack的结果:")
print(agg_df_unstack)

# 提取目标列表
list_of_time_unstack = agg_df_unstack.index.tolist()
list_of_A_unstack = agg_df_unstack['A'].tolist()
list_of_B_unstack = agg_df_unstack['B'].tolist()
list_of_C_unstack = agg_df_unstack['C'].tolist()
list_of_D_unstack = agg_df_unstack['D'].tolist()

print("\n提取的列表示例(set_index和unstack):")
print(f"Time: {list_of_time_unstack}")
print(f"A: {list_of_A_unstack}")

性能考量: 尽管Pandas提供了强大的数据重构能力,但对于大规模数据集,纯Python/Pandas的性能提升往往存在瓶颈。期望将处理时间缩短一个数量级(例如从0.2秒到0.02秒)在Python环境中可能不切实际,尤其是在涉及约1.85万个数据点时。对于更显著的性能提升,应考虑将数据处理的重心转移到数据源端,即SQL数据库。

SQL层面进行数据透视以实现极致性能

将数据透视操作在SQL查询阶段完成,是实现大幅性能提升的最佳策略。数据库系统通常针对这类聚合和重构操作进行了高度优化,并且避免了将大量原始数据传输到Python环境再进行处理的开销。

以下是一个在SQL中实现数据透视的示例查询:

SELECT
  Time,
  SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
  SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
  SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
  SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
FROM your_table_name -- 将 'your_table_name' 替换为实际的表名
GROUP BY Time
ORDER BY Time; -- 可选:按时间排序

解释:

  • CASE WHEN 语句用于根据 QuantityMeasured 的值有条件地选择 Value。如果 QuantityMeasured 是 'A',则取 Value,否则为0。
  • SUM 聚合函数将同一 Time 下的所有 Value(经过 CASE WHEN 处理后)相加。由于我们希望每个 QuantityMeasured 类别独立成列,并且在同一 Time 下每个 QuantityMeasured 只有一个 Value,SUM在这里实际上起到了“选择”该值的作用。如果存在多个相同Time和QuantityMeasured的记录,SUM会将其加总,这可能需要根据实际业务逻辑调整(例如使用MAX或AVG)。
  • GROUP BY Time 将结果按 Time 分组,确保每个 Time 对应一行数据。

执行此SQL查询后,数据库将直接返回一个已经透视好的结果集,其结构与我们最终想要的DataFrame非常相似。之后,您只需将这个结果加载到Pandas DataFrame中,并简单地提取为列表即可,这会比在Python中进行复杂重构快得多。

# 假设您已经建立了数据库连接
# import sqlalchemy
# engine = sqlalchemy.create_engine("mysql+mysqlconnector://user:password@host/db")

# sql_query = """
# SELECT
#   Time,
#   SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
#   SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
#   SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
#   SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
# FROM your_table_name
# GROUP BY Time
# ORDER BY Time;
# """

# pivoted_df_from_sql = pd.read_sql(sql_query, engine)

# # 从Pandas DataFrame中提取列表
# list_of_time_sql = pivoted_df_from_sql['Time'].tolist()
# list_of_A_sql = pivoted_df_from_sql['A'].tolist()
# list_of_B_sql = pivoted_df_from_sql['B'].tolist()
# list_of_C_sql = pivoted_df_from_sql['C'].tolist()
# list_of_D_sql = pivoted_df_from_sql['D'].tolist()

总结

在将长格式数据重构为宽格式列表的场景中,性能优化是关键。

  1. Pandas内部优化: 在使用Pandas进行重构时,务必在透视操作(如pivot或set_index().unstack())之前,通过query或条件筛选对数据进行预过滤。这能有效减少中间DataFrame的大小,从而提升效率。
  2. 性能瓶颈与预期: 即使经过优化,纯Python/Pandas在处理数万级别的数据点时,其性能提升也存在上限。期望实现数量级(如10倍)的加速可能不现实。
  3. SQL层面重构: 对于追求极致性能的场景,最推荐的方法是在SQL数据库层面完成数据透视。通过编写高效的SQL查询(如使用CASE WHEN和GROUP BY),可以将繁重的计算任务转移到数据库服务器,显著减少数据传输量和Python端的处理负担,从而获得最显著的性能提升。

选择哪种方法取决于您的具体需求、数据量以及对性能的要求。对于中小型数据集,Pandas的优化可能已足够;而对于大型数据集或对响应时间有严格要求的应用,SQL层面的重构无疑是更优的选择。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

639

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

云朵浏览器入口合集
云朵浏览器入口合集

本专题整合了云朵浏览器入口合集,阅读专题下面的文章了解更多详细地址。

20

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.8万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 804人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号