如何用 pandas 实现自定义边界（含右闭区间）的数值分箱

碧海醫心

发布时间：2026-01-27 10:11:06

379人浏览过

来源于php中文网

原创

如何用 pandas 实现自定义边界（含右闭区间）的数值分箱

本文介绍在 pandas 中对数值序列进行非均匀分箱时，如何精确控制最后一个区间的闭合性——特别是让 `[190, 200]` 成为右闭区间（包含 200），突破 `pd.cut` 默认左闭右开限制。

在数据分析中，pd.cut 是最常用的分箱工具，但它默认所有区间均为“左闭右开”（如 [a, b)），即使设置 right=False 也仅将整体改为“左开右闭”（如 (a, b]），无法实现混合区间类型（例如前四段为 [a, b)，最后一段为 [c, d]）。当业务逻辑要求某特定值（如 200）必须被明确归入某个桶（尤其是作为右端点闭合）时，需结合布尔掩码进行后处理。

以下是一个完整、可复现的解决方案：

import pandas as pd

# 构造示例数据：100.0 到 200.3 的等距浮点数（含精确的 200.0）
s = pd.Series(range(1000, 2004)).div(10)  # 100.0, 100.1, ..., 200.0, 200.1, ...

# 定义分箱边界（5 个间隔 → 6 个断点）
bins = [100, 135, 160, 175, 190, 200]
labels = ['[100, 135)', '[135, 160)', '[160, 175)', '[175, 190)', '[190, 200]']

# 第一步：用 pd.cut（left-closed, right-open）完成主体分箱
cut_result = pd.cut(s, bins=bins, labels=labels, right=False)

# 第二步：识别值恰好等于 200 的位置，并强制赋值为 '[190, 200]'
mask_200 = s == 200.0
out = cut_result.mask(mask_200, '[190, 200]')

print(out.iloc[998:1003])  # 查看关键位置（含 199.9, 200.0, 200.1）

输出片段：

Hugging Face

Hugging Face AI开源社区

下载

998    [190, 200]
999    [190, 200]
1000   [190, 200]   # ← 精确匹配 200.0，已正确归入闭区间
1001         NaN   # ← 超出最大边界，保持 NaN（合理）
1002         NaN

✅ 关键要点说明：

bins 必须严格递增，且长度比 labels 多 1；
right=False 确保前四段为 [a, b) 形式；
使用 .mask(condition, value) 是安全覆盖的推荐方式（比 .loc[condition] = value 更健壮，尤其对 category 类型）；
对于超出 bins 范围的值（如 200.1），pd.cut 默认返回 NaN，符合预期，无需额外处理；
若需将 200.0 映射为整数标签（如 4）而非字符串区间，可先用 pd.cut(..., retbins=False) 得到 codes，再单独修正 codes[s==200] = 4。

该方法简洁、高效、可扩展——若未来还需支持其他特殊点（如 100.0 强制归入首区间），只需增加对应布尔条件即可。

Go模块校验和的Python实现指南

使用 Pydantic 精确描述 Python 复杂字典结构

Python中复杂字典结构的高效类型定义与数据验证：Pydantic实战指南

将字节流转换为 Go 语言中的 float32 数组

Go 语言：从字节数据高效还原 float32 数组的实践指南

相关标签:

go 工具 pandas 字符串数据分析数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：asyncio.Semaphore 如何与限流装饰器结合限并发下一篇：暂无

作者最新文章

重现逮虾户名场面!《极限竞速：地平线6》将添加山路夜战模式

2026-01-24 14:12

内存将占成本40%之多 PC玩家苦日子长达3年半：没刚需就熬着

2026-01-24 14:30

Vitest 中 spyOn 必须在测试作用域内声明：原因与配置冲突详解

2026-01-24 14:39

光环助手如何发帖子

2026-01-24 15:18

如何在 Plotly 中为 3D 散点图自定义颜色与标记形状

2026-01-24 15:22

如何正确使用 XMLHttpRequest 发送异步 POST 请求并处理响应

2026-01-24 15:26

Go语言实现System V共享内存的完整教程

2026-01-24 15:26

JAX-RS @Provider 不生效的根源与修复方案

2026-01-24 15:50

如何修复下拉选择计算器中结果值被重置的问题

2026-01-24 16:05

《ARC Raiders》公布最新开发路线图新区域强敌以及任务

2026-01-24 16:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

298

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

212

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1498

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

623

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

592

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

587

2024.04.29

go语言字符串相关教程

本专题整合了go语言字符串相关教程，阅读专题下面的文章了解更多详细内容。

170

2025.07.29

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

热门下载

网站特效

网站源码

网站素材

前端模板