使用 category_encoders 编码未见数据：避免目标列缺失问题

心靈之曲

发布时间：2025-08-01 17:04:16

496人浏览过

来源于php中文网

原创

使用 category_encoders 编码未见数据：避免目标列缺失问题

本文档旨在解决在使用 category_encoders 库时，如何正确编码不包含目标列的未见数据（如测试集）的问题。通过示例代码和详细解释，我们将演示如何训练编码器并将其应用于训练集和测试集，同时避免因目标列缺失而导致的错误，确保模型能够顺利进行预测。

在使用 category_encoders 库进行特征编码时，一个常见的挑战是如何处理不包含目标变量的未见数据，例如测试集。如果直接使用在包含目标变量的训练集上训练的编码器对测试集进行转换，可能会因为列数不匹配而导致错误。以下提供一种解决方案，确保能够正确地编码未见数据。

解决方案

核心思想是在训练编码器时，明确指定需要编码的列，从而避免编码器尝试处理目标列。以下是具体步骤和示例代码：

加载数据： 首先，加载训练集和测试集数据。

import category_encoders as ce
import pandas as pd

training_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")

分离特征和目标变量： 从训练集中分离出特征 (X_train) 和目标变量 (y_train)。
```
X_train = training_data.drop("target_column", axis=1)
y_train = training_data["target_column"]
```
创建并训练编码器： 创建 TargetEncoder 实例，并指定需要编码的列为 X_train 的列名。使用 fit_transform 方法在训练集上训练编码器。

Napkin AI
Napkin AI 可以将您的文本转换为图表、流程图、信息图、思维导图视觉效果，以便快速有效地分享您的想法。

下载
```
encoder = ce.TargetEncoder(cols=X_train.columns)
encoded_train = encoder.fit_transform(X_train, y_train)
```
- cols=X_train.columns 确保编码器只考虑训练集中的特征列，而忽略目标列。
编码测试集： 使用训练好的编码器对测试集进行转换。
```
encoded_test = encoder.transform(test_data)
```
- 由于编码器已经训练好，并且知道哪些列需要编码，因此可以安全地应用于不包含目标列的测试集。

完整示例代码

import category_encoders as ce
import pandas as pd

# 加载数据
training_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")

# 分离特征和目标变量
X_train = training_data.drop("target_column", axis=1)
y_train = training_data["target_column"]

# 创建并训练编码器
encoder = ce.TargetEncoder(cols=X_train.columns)
encoded_train = encoder.fit_transform(X_train, y_train)

# 编码测试集
encoded_test = encoder.transform(test_data)

# 打印编码后的数据
print("Encoded Training Data:")
print(encoded_train.head())
print("\nEncoded Test Data:")
print(encoded_test.head())

注意事项

确保训练集和测试集中的特征列名一致。如果列名不一致，需要进行相应的调整。
TargetEncoder 是一种有监督的编码方法，它利用目标变量的信息进行编码。因此，在测试集上使用 transform 方法时，不会使用测试集的目标变量（因为测试集通常没有目标变量）。
其他编码器，如 OneHotEncoder，如果训练时指定了需要编码的列，也可以用类似的方式处理未见数据。

总结

通过明确指定需要编码的列，可以避免 category_encoders 在处理不包含目标列的未见数据时出现列数不匹配的错误。这种方法确保了编码器能够正确地应用于训练集和测试集，为后续的模型训练和预测奠定基础。

PythonAI面试准备教程_核心问题与考察点

PythonAI项目学习法教程_通过实战掌握模型应用

PythonAI入门到进阶教程_完整成长路径解析

PythonAI学习资源教程_书籍课程工具选择

Python转人工智能路径教程_少走弯路的学习方法

相关标签:

ai transform

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Django模板中访问请求数据下一篇：使用 category_encoders 对未见数据进行编码：避免目标列缺失问题

作者最新文章

Go 项目中如何组织同包文件到不同子目录（如 models）

2026-01-15 15:43

国产像素《菲尔纳传说》登陆Steam 5年打造复古RPG

2026-01-15 15:45

如何让按钮在响应式布局中保持固定位置不随屏幕缩放偏移

2026-01-15 15:48

标题：使用 AspectJ 实现对带注解成员变量的读写访问拦截

2026-01-15 15:48

使用 Socket.IO 连接 Node.js 与 Go 服务端的潜在缺陷分析

2026-01-15 15:50

程序员笔记 CherryTree 1.6.3 发布

2026-01-15 15:52

搜打撤热门新游《ARC Raiders》Steam版现已封锁国区

2026-01-15 15:56

美团外卖开学季红包怎么领取

2026-01-15 15:59

Go 项目中如何正确组织多目录结构的同包代码

2026-01-15 16:02

标题：使用 AspectJ 实现基于字段注解的读写访问拦截教程

2026-01-15 16:06

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

公务员递补名单公布时间公务员递补要求

公务员递补名单公布时间不固定，通常在面试前，由招录单位（如国家知识产权局、海关等）发布，依据是原入围考生放弃资格，会按笔试成绩从高到低递补，递补考生需按公告要求限时确认并提交材料，及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料（确认书、资格复审材料）并准时参加面试。

2026.01.15

公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线，且考试类别相同。拟调剂职位设置了专业科目笔试条件的，专业科目笔试成绩还须同时达到合格分数线，且考试类别相同。 (三)未进入原报考职位面试人员名单。

2026.01.15

国考成绩查询入口国考分数公布时间2026

笔试成绩查询入口已开通，考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html，查询笔试成绩和合格分数线，点击“笔试成绩查询”按钮，凭借身份证及准考证进行查询。

2026.01.15