
本教程探讨了如何高效地将sql数据库中拉取的长格式数据重构为宽格式列表,特别关注性能优化。文章详细介绍了pandas中`pivot`、`set_index`和`unstack`等函数的应用,并通过预过滤数据来提升性能。此外,还强调了在sql层面进行数据透视的巨大优势,提供sql查询示例,旨在帮助读者在python数据处理中实现更快的重构速度。
在数据分析和处理中,我们经常会遇到将“长格式”数据(即同一类别的数据以多行形式存储)转换为“宽格式”数据(即同一类别的数据以多列形式存储)的需求。例如,从关系型数据库中获取的数据通常是长格式的,其中包含时间戳、测量类型和对应值。我们需要将其重构为以时间为索引,每个测量类型(如A、B、C、D)作为独立列表的结构。
原始数据结构示例:
| Time | QuantityMeasured | Value |
|---|---|---|
| t1 | A | 7 |
| t1 | B | 2 |
| ... | ... | ... |
| tn | D | 1 |
目标数据结构示例:
list_of_time = ['t1', ..., 'tn'] list_of_A = [7, ..., 5] list_of_B = [2, ..., 5] list_of_C = [8, ..., 3] list_of_D = [9, ..., 8]
这种转换在处理大量数据时,性能往往成为关键考量。
Pandas库提供了多种强大的工具来处理这类数据重构任务。
pivot函数是Pandas中用于数据透视的直接方法。它通过指定索引、列和值来重塑DataFrame。
import pandas as pd
# 假设df是您的原始DataFrame
# df = pd.read_sql("SELECT Time, QuantityMeasured, Value FROM your_table", your_connection)
data = {
'Time': ['t1', 't1', 't1', 't1', 't1', 'tn', 'tn', 'tn', 'tn', 'tn'],
'QuantityMeasured': ['A', 'B', 'C', 'D', 'E', 'A', 'C', 'E', 'B', 'D'],
'Value': [7, 2, 8, 9, 5, 5, 3, 4, 5, 1]
}
df = pd.DataFrame(data)
pivot_df = df.pivot(index='Time', columns='QuantityMeasured', values='Value')
print("原始pivot结果:")
print(pivot_df)
# 提取目标列表
list_of_time = pivot_df.index.tolist()
list_of_A = pivot_df['A'].tolist()
list_of_B = pivot_df['B'].tolist()
list_of_C = pivot_df['C'].tolist()
list_of_D = pivot_df['D'].tolist()
print("\n提取的列表示例:")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")这种方法虽然直观,但在处理包含大量不必要QuantityMeasured类别的数据时,可能会因为生成一个非常宽的中间DataFrame而效率不高。
如果只需要特定QuantityMeasured类别(例如'A', 'B', 'C', 'D'),在进行透视操作之前对数据进行过滤,可以显著减少pivot操作的计算量,从而提升性能。这类似于SQL中的WHERE子句或Excel中的筛选功能。
# 假设我们只需要 'A', 'B', 'C', 'D' 这四种测量值
desired_quantities = ['A', 'B', 'C', 'D']
agg_df = (
df.query("QuantityMeasured in @desired_quantities") # 使用query进行预过滤
.pivot(index='Time', columns='QuantityMeasured', values='Value')
)
print("\n预过滤后的pivot结果:")
print(agg_df)
# 提取目标列表
list_of_time = agg_df.index.tolist()
list_of_A = agg_df['A'].tolist()
list_of_B = agg_df['B'].tolist()
list_of_C = agg_df['C'].tolist()
list_of_D = agg_df['D'].tolist()
print("\n提取的列表示例(预过滤后):")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")注意事项:
pivot函数在底层通常会调用set_index和unstack。在某些特定场景下,直接使用set_index和unstack可能会带来轻微的性能优势。
agg_df_unstack = (
df
.query("QuantityMeasured in @desired_quantities") # 同样进行预过滤
.set_index(['Time', 'QuantityMeasured'])['Value'] # 将Time和QuantityMeasured设为多级索引
.unstack() # 将QuantityMeasured从索引转换为列
)
print("\n使用set_index和unstack的结果:")
print(agg_df_unstack)
# 提取目标列表
list_of_time_unstack = agg_df_unstack.index.tolist()
list_of_A_unstack = agg_df_unstack['A'].tolist()
list_of_B_unstack = agg_df_unstack['B'].tolist()
list_of_C_unstack = agg_df_unstack['C'].tolist()
list_of_D_unstack = agg_df_unstack['D'].tolist()
print("\n提取的列表示例(set_index和unstack):")
print(f"Time: {list_of_time_unstack}")
print(f"A: {list_of_A_unstack}")性能考量: 尽管Pandas提供了强大的数据重构能力,但对于大规模数据集,纯Python/Pandas的性能提升往往存在瓶颈。期望将处理时间缩短一个数量级(例如从0.2秒到0.02秒)在Python环境中可能不切实际,尤其是在涉及约1.85万个数据点时。对于更显著的性能提升,应考虑将数据处理的重心转移到数据源端,即SQL数据库。
将数据透视操作在SQL查询阶段完成,是实现大幅性能提升的最佳策略。数据库系统通常针对这类聚合和重构操作进行了高度优化,并且避免了将大量原始数据传输到Python环境再进行处理的开销。
以下是一个在SQL中实现数据透视的示例查询:
SELECT Time, SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A, SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B, SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C, SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D FROM your_table_name -- 将 'your_table_name' 替换为实际的表名 GROUP BY Time ORDER BY Time; -- 可选:按时间排序
解释:
执行此SQL查询后,数据库将直接返回一个已经透视好的结果集,其结构与我们最终想要的DataFrame非常相似。之后,您只需将这个结果加载到Pandas DataFrame中,并简单地提取为列表即可,这会比在Python中进行复杂重构快得多。
# 假设您已经建立了数据库连接
# import sqlalchemy
# engine = sqlalchemy.create_engine("mysql+mysqlconnector://user:password@host/db")
# sql_query = """
# SELECT
# Time,
# SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
# SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
# SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
# SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
# FROM your_table_name
# GROUP BY Time
# ORDER BY Time;
# """
# pivoted_df_from_sql = pd.read_sql(sql_query, engine)
# # 从Pandas DataFrame中提取列表
# list_of_time_sql = pivoted_df_from_sql['Time'].tolist()
# list_of_A_sql = pivoted_df_from_sql['A'].tolist()
# list_of_B_sql = pivoted_df_from_sql['B'].tolist()
# list_of_C_sql = pivoted_df_from_sql['C'].tolist()
# list_of_D_sql = pivoted_df_from_sql['D'].tolist()在将长格式数据重构为宽格式列表的场景中,性能优化是关键。
选择哪种方法取决于您的具体需求、数据量以及对性能的要求。对于中小型数据集,Pandas的优化可能已足够;而对于大型数据集或对响应时间有严格要求的应用,SQL层面的重构无疑是更优的选择。
以上就是Pandas与SQL高效重构长格式数据为宽格式列表的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号