使用 Pandas 将数值数据划分到指定分类区间

DDD

发布时间：2025-09-25 15:42:01

628人浏览过

来源于php中文网

原创

使用 pandas 将数值数据划分到指定分类区间

本文介绍了如何使用 Pandas 库将包含年龄信息的数值数据划分到预定义的分类区间中，例如 'unknown'、'17 and under'、'18-25' 等。重点讲解了处理缺失值和非数值数据，以及如何创建和排序分类变量，提供清晰的代码示例和解释，帮助读者掌握 Pandas 中 pd.cut 函数的灵活运用。

在数据分析中，经常需要将连续的数值数据转换为离散的分类数据，这有助于简化分析、提高模型的可解释性。 Pandas 提供了 pd.cut 函数，可以方便地实现这一目标。本教程将以年龄数据为例，演示如何使用 pd.cut 将年龄划分到不同的年龄段。

数据准备

首先，我们需要准备一些包含年龄数据的数据。为了演示，我们创建一个简单的 Pandas DataFrame：

import pandas as pd

data = {'age': ['45-55', '20', '56', '35', None, 'sixty-nine']}
df = pd.DataFrame(data)

print(df)

输出：

           age
0       45-55
1          20
2          56
3          35
4        None
5  sixty-nine

定义分类区间和标签

接下来，我们需要定义年龄段的分类区间和对应的标签。根据需求，我们将年龄划分为以下几个区间：

unknown
17 and under
18-25
26-35
36-45
46-55
56+

定义分类区间和标签的代码如下：

bins = [-float('inf'), -1, 17, 25, 35, 45, 55, float('inf')]
labels = ['unknown', '17 and under', '18-25', '26-35', '36-45', '46-55', '56+']

bins：定义了分类区间的边界。 -float('inf') 表示负无穷，float('inf') 表示正无穷。注意：增加一个-1作为边界，用于将无法转换成数字的年龄值划分到'unknown'。
labels：定义了每个分类区间对应的标签。

使用 pd.cut 进行分类

现在，我们可以使用 pd.cut 函数将年龄数据划分到指定的分类区间中：

网奇Eshop网络商城系统

网奇.NET网络商城系统是基于.Net平台开发的免费商城系统。功能强大，操作方便，设置简便。无需任何设置，上传到支持asp.net的主机空间即可使用。系统特色功能：1、同时支持Access和SqlServer数据库；2、支持多语言、多模板3、可定制缺货处理功能4、支持附件销售功能5、支持会员组批发功能6、提供页面设计API函数7、支持预付款功能8、配送价格分地区按数学公式计算9、商品支持多类别，可

下载

df['age_cat'] = pd.cut(pd.to_numeric(df['age'], errors='coerce'),
                       bins=bins, labels=labels)\
                  .fillna('unknown')

print(df)

输出：

           age    age_cat
0       45-55    unknown
1          20      18-25
2          56        56+
3          35      26-35
4        None    unknown
5  sixty-nine    unknown

pd.to_numeric(df['age'], errors='coerce')：将 age 列转换为数值类型。 errors='coerce' 表示如果遇到无法转换的值，则将其转换为 NaN。
pd.cut(...)：将数值型的年龄数据划分到指定的分类区间中，并使用定义的标签进行标记。
.fillna('unknown')：将所有 NaN 值（由于无法转换为数值或者超出区间范围）替换为 'unknown'。

调整分类变量的顺序

最后，如果需要调整分类变量的顺序，可以使用 pd.Categorical 函数：

df['age_cat'] = pd.Categorical(df['age_cat'], categories=['unknown', '17 and under', '18-25', '26-35', '36-45', '46-55', '56+'], ordered=False)

print(df['age_cat'].dtype)
print(df['age_cat'])

输出：

category
0    unknown
1      18-25
2        56+
3      26-35
4    unknown
5    unknown
Name: age_cat, dtype: category
Categories (7, object): ['unknown', '17 and under', '18-25', '26-35', '36-45', '46-55', '56+']