Pandas get_dummies：独热编码输出0和1而非布尔值的正确姿势

DDD

发布时间：2025-10-08 10:31:28

893人浏览过

来源于php中文网

原创

Pandas get_dummies：独热编码输出0和1而非布尔值的正确姿势

本文深入探讨了Pandas pd.get_dummies 在执行独热编码时，默认返回布尔值（True/False）而非二进制0和1的原因。通过介绍 dtype 参数，教程将指导用户如何简单地将输出强制转换为整数0和1，确保数据符合机器学习模型或其他数值处理的需求，从而避免常见的编码困惑。

在数据预处理阶段，独热编码（one-hot encoding）是处理分类特征的常用技术，它将类别变量转换为数值型，以便机器学习算法能够理解和处理。pandas库提供了 pd.get_dummies 函数，极大地简化了这一过程。然而，许多用户在使用时会发现，其默认输出是布尔值 true 和 false，而非期望的二进制 0 和 1，这在后续数据处理或模型训练中可能引发问题。

理解 pd.get_dummies 的默认行为

pd.get_dummies 函数的核心作用是将DataFrame中的分类列转换为独热编码表示。对于每个唯一的类别值，它会创建一个新的列，并在原始行中对应类别出现的位置标记为 True，其他位置为 False。这种设计在某些场景下是合理的，例如在需要布尔掩码或进行逻辑判断时。然而，当我们需要将这些编码后的特征作为数值输入（例如，许多机器学习模型期望数值型特征）时，True 和 False 的布尔值就显得不那么直观或方便了。

让我们通过一个简单的例子来观察这种默认行为：

import pandas as pd

# 原始DataFrame
data = {'category': ['A', 'B', 'A', 'C'],
        'value': [10, 20, 30, 40]}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

# 默认使用get_dummies进行独热编码
df_encoded_default = pd.get_dummies(df, columns=['category'])
print("\n默认get_dummies输出 (布尔值):")
print(df_encoded_default)
print("\n默认输出列的数据类型:")
print(df_encoded_default.dtypes)

运行上述代码，你会发现 category_A, category_B, category_C 等新生成的列的数据类型是 bool，并且值是 True 或 False。

强制输出0和1的解决方案：使用 dtype 参数

为了解决 pd.get_dummies 默认输出布尔值的问题，Pandas提供了一个名为 dtype 的参数。通过将 dtype 参数设置为 int 或 float，我们可以强制 pd.get_dummies 将生成的独热编码列的数据类型设置为整数或浮点数，从而将 True 转换为 1，False 转换为 0。

百度文心一格

百度推出的AI绘画作图工具

下载

这是修改后的代码示例：

import pandas as pd

# 原始DataFrame
data = {'category': ['A', 'B', 'A', 'C'],
        'value': [10, 20, 30, 40]}
df = pd.DataFrame(data)

# 使用dtype=int强制输出0和1
df_encoded_int = pd.get_dummies(df, columns=['category'], dtype=int)
print("\n使用dtype=int的get_dummies输出 (0和1):")
print(df_encoded_int)
print("\n强制输出0和1后列的数据类型:")
print(df_encoded_int.dtypes)

通过简单地添加 dtype=int 参数，我们可以清晰地看到 category_A, category_B, category_C 等列现在的数据类型是 int64，并且值是 0 或 1。

注意事项与最佳实践

dtype 参数的灵活性： 除了 int，你还可以将 dtype 设置为 float (例如 dtype=float)，这将使输出为 0.0 和 1.0。选择 int 还是 float 通常取决于下游任务的需求。对于大多数机器学习模型，int 类型的 0 和 1 已经足够。
默认行为的考量： Pandas之所以默认输出布尔值，可能是出于内存效率和某些内部操作的优化考虑。布尔值在内存中通常比整数占用更少的空间。然而，对于大多数数据分析和机器学习场景，转换为 int 或 float 的开销通常可以忽略不计。
何时需要0和1：
- 机器学习模型输入： 绝大多数机器学习库（如Scikit-learn、TensorFlow、PyTorch）在处理特征时期望数值型输入。布尔值虽然在Python中可以隐式转换为0/1，但显式地将其转换为整数可以避免潜在的类型不匹配问题，并提高代码的清晰度。
- 与其他数值数据合并： 当独热编码后的列需要与DataFrame中的其他数值列进行数学运算（如求和、乘积）或合并时，统一的数据类型会使操作更加顺畅。
- 数据导出： 在将数据导出到CSV或其他格式时，确保数值型输出可以避免在其他系统或软件中解析布尔值时可能出现的问题。

总结

pd.get_dummies 是Pandas中一个功能强大的独热编码工具。理解其默认输出布尔值的行为，并掌握如何通过 dtype=int 参数强制输出二进制 0 和 1，是数据预处理中的一个重要技能。通过这一简单的参数调整，可以确保独热编码后的数据类型符合后续分析和模型训练的需求，避免不必要的困惑和错误，从而提升数据处理的效率和准确性。在进行独热编码时，请务必根据你的具体应用场景，合理选择 dtype 参数。

Python模块搜索机制教程_sys.path原理解析

Elasticsearch Python 客户端中 KNN 搜索的正确用法详解

Python 中函数返回值的正确获取方式

如何正确从字典中通过键获取值：解析Python字符串字面量拼接与键格式陷阱

Python大模型入门教程_理解大语言模型工作原理

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

746

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

634

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1261

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

705

2023.08.11

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12

热门下载

网站特效

网站源码

网站素材

前端模板