将带有 CASE 表达式的 SQL JOIN 查询转换为 Pandas

DDD

发布时间：2025-08-12 16:34:01

332人浏览过

来源于php中文网

原创

将带有 case 表达式的 sql join 查询转换为 pandas

本文介绍了如何将包含 CASE 表达式作为 JOIN 条件的 SQL 查询转换为 Pandas DataFrame 操作。核心思路是利用 Pandas 的 query() 方法预先过滤用于 JOIN 的 DataFrame，然后使用 merge() 方法进行连接。通过这种方式，可以有效地模拟 SQL 中 CASE WHEN 语句在 JOIN 条件中的行为，实现数据关联和筛选。

在 SQL 中，我们经常会遇到需要在 JOIN 条件中使用 CASE 表达式的情况，这允许我们根据不同的条件选择不同的连接键。当需要将这样的 SQL 查询转换为 Pandas 操作时，直接使用 pd.merge() 可能会遇到困难。以下介绍一种常用的方法，通过预先过滤 DataFrame 来模拟 CASE 表达式的行为。

问题描述

假设我们有以下 SQL 查询：

SELECT a.year, a.country, b.amount
FROM table_a a
LEFT JOIN table_b b
ON a.country=b.country
AND (CASE WHEN b.country = 'Europe' THEN b.year = 2022 ELSE b.year = 2023 END)

这个查询的目的是将 table_a 和 table_b 进行左连接，连接条件是 country 相等，并且当 table_b 的 country 是 'Europe' 时，table_b 的 year 必须是 2022，否则 table_b 的 year 必须是 2023。

解决方案

由于 Pandas 的 merge() 方法不直接支持 CASE 表达式，我们可以首先使用 query() 方法对 table_b 进行过滤，然后再进行 merge() 操作。

创建示例 DataFrame

首先，我们创建两个示例 DataFrame，模拟 table_a 和 table_b：

import pandas as pd

table_a = pd.DataFrame({
    'country': ['Europe', 'Europe', 'USA', 'Africa'],
    'year': [2022, 2020, 2023, 2021]
})
table_b = pd.DataFrame({
    'country': ['Europe', 'USA', 'Africa', 'USA', 'Europe'],
    'year': [2023, 2022, 2022, 2023, 2022],
    'amount': [10, 20, 30, 40, 50]
})

使用 query() 过滤 table_b

接下来，我们使用 query() 方法对 table_b 进行过滤，模拟 CASE 表达式的行为：

Viggle AI

Viggle AI是一个AI驱动的3D动画生成平台，可以帮助用户创建可控角色的3D动画视频。

下载

table_b_filtered = table_b.query("(country == 'Europe' and year == 2022) or (country != 'Europe' and year == 2023)")

这个 query() 表达式等价于 SQL 中的 CASE 表达式。它选择了 country 为 'Europe' 且 year 为 2022 的行，或者 country 不为 'Europe' 且 year 为 2023 的行。

使用 merge() 进行左连接

最后，我们使用 merge() 方法将 table_a 和过滤后的 table_b 进行左连接：

output = (
    table_a.merge(
        table_b_filtered, 
        on=['country'], how='left', suffixes=('', '_'))
    [['year', 'country', 'amount']]
)

print(output)

在 merge() 方法中，我们指定 on=['country'] 作为连接键，how='left' 表示进行左连接。suffixes=('', '_') 用于处理连接后相同列名的情况，这里我们只保留了 amount 列。最后，我们选择需要的列 [['year', 'country', 'amount']]。

完整代码示例

import pandas as pd

table_a = pd.DataFrame({
    'country': ['Europe', 'Europe', 'USA', 'Africa'],
    'year': [2022, 2020, 2023, 2021]
})
table_b = pd.DataFrame({
    'country': ['Europe', 'USA', 'Africa', 'USA', 'Europe'],
    'year': [2023, 2022, 2022, 2023, 2022],
    'amount': [10, 20, 30, 40, 50]
})

output = (
    table_a.merge(
        table_b.query("(country == 'Europe' and year == 2022) or (country != 'Europe' and year == 2023)"), 
        on=['country'], how='left', suffixes=('', '_'))
    [['country', 'year', 'amount']]
)

print(output)

输出结果

  country  year  amount
0  Europe  2022    50.0
1  Europe  2020    50.0
2     USA  2023    40.0
3  Africa  2021     NaN

总结

通过使用 query() 方法预先过滤 DataFrame，我们可以有效地模拟 SQL 中 CASE 表达式在 JOIN 条件中的行为。这种方法可以帮助我们将复杂的 SQL 查询转换为 Pandas 操作，从而更好地利用 Pandas 的数据处理能力。

注意事项

query() 方法的性能可能受到数据量大小的影响。对于大型 DataFrame，可以考虑使用其他优化方法，例如使用 np.where() 或自定义函数。
在复杂的 CASE 表达式中，query() 表达式可能会变得难以阅读和维护。建议将复杂的逻辑拆分成多个简单的步骤，以提高代码的可读性。
确保 query() 表达式的逻辑与 SQL 中的 CASE 表达式完全一致，以避免出现错误的结果。

Python中如何定义枚举类？

如何在 iMX 系列处理器上轻松安装和使用 Node-RED？

介绍 acolor：打印 ANSI 颜色代码的小实用程序

元组之谜：解锁 Python 中的隐藏功能

Python Tkinter 定制指南：打造独特的用户体验

相关标签:

red sql pandas

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python如何实现代码审查？pre-commit钩子下一篇：解决 Pandas DataFrame 高度碎片化警告：优化列插入操作

作者最新文章

市场监管总局：2025 年召回问题充电宝 139.77 万台

2026-01-21 16:51

Pandas：跨数据集复用分位数分箱规则对新数据进行分组标注

2026-01-21 16:52

如何高效地将S3中的PNG/JPEG图像流式编码为Base64（无需本地落盘）

2026-01-21 16:54

马航 MH370 航班客机残骸重启搜寻，尚无重大发现

2026-01-21 16:54

软银发布 AI 数据中心操作系统

2026-01-21 16:54

台积电产能已证实：苹果今年不发iPhone 18

2026-01-21 16:54

Firebase 字段名自动添加下划线前缀的解决方案

2026-01-21 16:55

如何在 Tomcat 中正确配置静态 PDF 文件以实现客户端下载

2026-01-21 16:58

如何安全地通过文本输入动态调用指定函数（PHP 教程）

2026-01-21 16:59

玩家认为《赛博朋克2077》不需要快速传送：没有意义！

2026-01-21 16:59

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

683

2023.10.12