Pandas数据处理：按自定义顺序（如月份）对分组数据进行排序

心靈之曲

发布时间：2025-11-10 11:37:01

563人浏览过

来源于php中文网

原创

pandas数据处理：按自定义顺序（如月份）对分组数据进行排序

本教程深入探讨了在Pandas中如何按照自定义顺序对数据进行排序和分组，尤其是在处理月份等需要特定逻辑顺序的场景。通过将目标列转换为有序的Categorical类型，我们可以轻松地实现非字母顺序的排序，确保数据按照预设的逻辑顺序（如月份的自然顺序）进行展示和分析，从而提高数据处理的准确性和效率。

引言：自定义排序的需求

在数据分析中，我们经常需要对数据进行排序以更好地理解和展示信息。Pandas的sort_values()函数默认按照字母顺序或数值大小进行排序。然而，对于像月份、星期几等具有特定逻辑顺序的字符串数据，简单的字母排序往往无法满足需求。例如，在字母顺序中，“April”会排在“February”之前，这与我们期望的日历顺序（一月、二月、三月、四月...）不符。当我们需要按这种自定义逻辑顺序对数据进行分组或排序时，就需要一种更灵活的方法。

解决方案：使用Pandas的Categorical类型

Pandas提供了Categorical数据类型，它允许我们定义一个固定的、有序的类别集合。通过将目标列转换为有序的Categorical类型，我们可以精确控制该列的排序行为，使其按照我们预设的逻辑顺序进行排序，而非默认的字母顺序。

步骤详解与示例

1. 准备初始数据

首先，我们创建一个包含月份和销售额的DataFrame作为示例数据，模拟需要自定义排序的场景：

import pandas as pd

month = ['January', 'February', 'March', 'April', 'January', 'February', 'March', 'April']
sales = [10, 100, 130, 145, 13409, 670, 560, 40]
data = {'month': month, 'sales': sales}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

输出：

原始DataFrame:
      month  sales
0   January     10
1  February    100
2     March    130
3     April    145
4   January  13409
5  February    670
6     March    560
7     April     40

2. 将月份列转换为有序的Categorical类型

这是实现自定义排序的关键步骤。我们首先定义月份的正确顺序，然后将其应用到DataFrame的month列：

# 定义月份的正确顺序（包含所有12个月份，以备将来扩展）
months_order = ['January', 'February', 'March', 'April', 'May', 'June', 
                'July', 'August', 'September', 'October', 'November', 'December']

# 将'month'列转换为有序的Categorical类型
# categories参数指定了类别的顺序
# ordered=True参数是必不可少的，它告诉Pandas这个Categorical类型是具有顺序的
df['month'] = pd.Categorical(df['month'], categories=months_order, ordered=True)

print("\n转换为Categorical类型后的DataFrame信息:")
print(df.info())

注意： 在categories列表中，我们通常会包含所有可能的类别值，即使当前数据中只出现了部分。这样做可以确保未来可能出现的新类别也能被正确排序。ordered=True参数至关重要，它明确指示Pandas该分类类型具有内在的顺序。

3. 执行排序操作

现在，我们可以直接对DataFrame的month列进行排序。Pandas会根据我们定义的Categorical顺序进行排序，而不是字母顺序：

VIVA

一个免费的AI创意视觉设计平台

下载

df_sorted = df.sort_values(by=['month'], ascending=True)

print("\n按月份顺序排序后的DataFrame:")
print(df_sorted)

输出：

按月份顺序排序后的DataFrame:
      month  sales
0   January     10
4   January  13409
1  February    100
5  February    670
2     March    130
6     March    560
3     April    145
7     April     40

从输出可以看出，数据已经按照“January”、“February”、“March”、“April”的自然月份顺序排列，成功实现了自定义排序。

4. 结合分组操作

一旦列被设置为有序的Categorical类型，后续的分组操作（如groupby()）也会自动尊重这个顺序。例如，计算每个月的平均销售额时，结果的索引将按月份的自然顺序排列：

monthly_avg_sales = df_sorted.groupby('month')['sales'].mean()

print("\n按月份顺序分组并计算平均销售额:")
print(monthly_avg_sales)

输出：

按月份顺序分组并计算平均销售额:
month
January      6709.5
February      385.0
March         345.0
April          92.5
May              NaN
June             NaN
July             NaN
August           NaN
September        NaN
October          NaN
November         NaN
December         NaN
Name: sales, dtype: float64

注意： 由于我们的categories列表包含了所有12个月份，而原始数据中只出现了4个月份，因此在分组结果中，未出现的月份（如May, June等）将显示为NaN，但它们的顺序仍然是正确的。如果只想显示数据中存在的月份，可以在分组后再进行筛选。

注意事项

ordered=True的重要性： 如果不设置ordered=True，Categorical类型将是无序的，sort_values()将不会按照自定义顺序进行排序，而是回退到其他默认排序规则（例如，按类别内部的哈希值或首次出现的顺序）。
categories列表的完整性： 确保categories列表包含了所有可能的值，并按照期望的顺序排列。如果数据中出现不在categories列表中的值，它们将被视为NaN。
内存效率： 对于具有重复字符串值的大型数据集，将列转换为Categorical类型可以显著提高内存效率，因为Pandas会存储一个唯一的类别列表和指向这些类别的整数代码，而不是重复存储整个字符串。
适用场景： 这种方法不仅适用于月份排序，还适用于任何需要自定义逻辑顺序的分类数据，例如星期几（Monday, Tuesday...）、教育程度（Primary, Secondary, University...）、产品等级（Bronze, Silver, Gold...）等。

总结

通过将Pandas DataFrame中的目标列转换为有序的Categorical类型，我们可以轻松实现对数据进行自定义顺序的排序和分组。这种方法不仅解决了传统字符串排序的局限性，确保了数据按照正确的逻辑顺序进行展示和分析，还提升了数据处理的准确性、可读性，并在某些情况下优化了内存使用。掌握这一技巧对于进行复杂的数据分析和报告生成至关重要。

Python中复杂字典结构的高效类型定义与数据验证：Pydantic实战指南

将字节流转换为 Go 语言中的 float32 数组

Go 语言：从字节数据高效还原 float32 数组的实践指南

Go语言中高效转换字节序列为Float32数组的指南

Go语言中将字节流转换为Float32数组的实用指南

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

298

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

216

2025.10.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

250

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

205

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1435

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

609

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

547

2024.03.22