使用 Category Encoders 编码未见数据：避免目标列缺失问题

聖光之護

发布时间：2025-08-01 17:08:01

330人浏览过

来源于php中文网

原创

使用 category encoders 编码未见数据：避免目标列缺失问题

本文旨在解决在使用 Category Encoders 库时，如何对不包含目标列的未见数据（如测试集）进行编码的问题。重点在于训练编码器时明确排除目标列，从而确保在转换未见数据时列数匹配，避免因列数不一致导致的错误。通过示例代码演示了正确的编码流程，帮助读者理解并应用该方法。

在使用 category_encoders 库进行特征编码时，经常会遇到训练集包含目标列，而测试集（或其他未见数据）不包含目标列的情况。直接使用在训练集上训练的编码器转换测试集，可能会因为列数不匹配而报错。本文将介绍如何正确地处理这种情况，确保模型能够顺利地对未见数据进行预测。

核心思路：在训练编码器时排除目标列

问题的关键在于，在训练编码器时，要明确告知编码器哪些列是特征列，哪些列是目标列。通常，TargetEncoder 等编码器会自动识别目标列，但当我们需要对不包含目标列的数据集进行编码时，就需要在训练阶段显式地排除目标列。

示例代码

以下是一个完整的示例，展示了如何使用 TargetEncoder 对训练集和测试集进行编码，其中测试集不包含目标列：

豆包手机助手

豆包推出的手机系统服务级AI助手

下载

import category_encoders as ce
import pandas as pd

# 假设你已经读取了训练集和测试集
training_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")

# 将目标列从训练集中分离出来
X_train = training_data.drop("target_column", axis=1)
y_train = training_data["target_column"]

# 初始化 TargetEncoder，并指定要编码的列
# 这里使用 X_train.columns，确保只编码特征列
encoder = ce.TargetEncoder(cols=X_train.columns)

# 在训练集上训练编码器
encoded_train = encoder.fit_transform(X_train, y_train)

# 使用训练好的编码器转换测试集
encoded_test = encoder.transform(test_data)

# encoded_train 和 encoded_test 现在包含了编码后的数据
print("Encoded Training Data:")
print(encoded_train.head())
print("\nEncoded Test Data:")
print(encoded_test.head())

代码解释：

数据准备： 首先，使用 pandas 读取训练集和测试集。关键一步是使用 training_data.drop("target_column", axis=1) 将目标列从训练集中移除，并将目标列单独存储在 y_train 中。
编码器初始化： ce.TargetEncoder(cols=X_train.columns) 初始化 TargetEncoder，并使用 X_train.columns 指定要编码的列。这样可以确保只对特征列进行编码，避免将目标列包含在内。
训练和转换： encoder.fit_transform(X_train, y_train) 在训练集上训练编码器，并同时进行转换。 encoder.transform(test_data) 使用训练好的编码器转换测试集。由于编码器只对特征列进行了训练，因此可以顺利地对不包含目标列的测试集进行编码。

注意事项：

目标列名称： 确保代码中的 "target_column" 与实际目标列的名称一致。
列的顺序： 训练集和测试集的列顺序应该保持一致，除了目标列之外。否则，编码器可能会将错误的列进行编码。
缺失值处理： 如果数据中存在缺失值，需要在编码之前进行处理，例如使用 fillna() 填充缺失值。
其他编码器： 以上方法也适用于其他 category_encoders 中的编码器，例如 OneHotEncoder、OrdinalEncoder 等。只需要在初始化编码器时，指定要编码的列即可。

总结

通过在训练编码器时明确排除目标列，可以有效地解决对不包含目标列的未见数据进行编码的问题。这种方法可以确保编码器只对特征列进行训练，从而避免因列数不匹配而导致的错误，使得模型能够顺利地对未见数据进行预测。记住，数据准备阶段的列选择至关重要，它直接影响编码器的训练和转换结果。

PythonAI面试准备教程_核心问题与考察点

PythonAI项目学习法教程_通过实战掌握模型应用

PythonAI入门到进阶教程_完整成长路径解析

PythonAI学习资源教程_书籍课程工具选择

Python转人工智能路径教程_少走弯路的学习方法

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

公务员递补名单公布时间公务员递补要求

公务员递补名单公布时间不固定，通常在面试前，由招录单位（如国家知识产权局、海关等）发布，依据是原入围考生放弃资格，会按笔试成绩从高到低递补，递补考生需按公告要求限时确认并提交材料，及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料（确认书、资格复审材料）并准时参加面试。

2026.01.15

公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线，且考试类别相同。拟调剂职位设置了专业科目笔试条件的，专业科目笔试成绩还须同时达到合格分数线，且考试类别相同。 (三)未进入原报考职位面试人员名单。

2026.01.15

国考成绩查询入口国考分数公布时间2026

笔试成绩查询入口已开通，考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html，查询笔试成绩和合格分数线，点击“笔试成绩查询”按钮，凭借身份证及准考证进行查询。

2026.01.15