文本分类中不平衡数据的应对策略-Python教程-PHP中文网

文本分类中不平衡数据的应对策略

DDD

发布： 2025-10-14 09:27:28

原创

474人浏览过

文本分类中不平衡数据的应对策略

本文深入探讨文本分类中数据不平衡的挑战，尤其针对包含多数“无主题”类别的情况。文章提出了多项应对策略，包括利用分类器中的类别权重调整、选择对不平衡数据更鲁棒的模型（如决策树、随机森林），以及采用精确率、召回率、f1分数等评估指标。同时，文章也简要分析了过采样技术（如smote）在文本分类中的应用考量，旨在提供一套实用的方法论，以有效提升模型在不平衡数据集上的性能。

在文本分类任务中，数据不平衡是一个常见且极具挑战性的问题。当某些类别的样本数量远少于其他类别时，模型在训练过程中往往会偏向于多数类别，导致对少数类别的识别能力下降，并可能在多数类别上产生过多的假阳性预测。特别是在存在一个占主导地位的“无主题”或“其他”类别时，这种偏见会更加明显，使得模型难以准确区分少数但重要的主题。为了应对这一挑战，本文将介绍几种行之有效的方法。

策略一：利用类别权重调整模型偏好

许多机器学习分类器，包括支持向量机（SVM）和逻辑回归，都允许通过调整类别权重来处理数据不平衡问题。其核心思想是为少数类别分配更高的权重，使得模型在错误分类这些样本时受到更大的惩罚，从而促使模型更加关注少数类别。

在scikit-learn库中，可以通过设置分类器的class_weight参数来实现：

class_weight='balanced'：这是最简单也常用的方法。当设置为'balanced'时，分类器会自动根据训练数据中各类别样本的频率来调整权重，使得每个类别的总权重大致相等。具体来说，权重与类别频率的倒数成比例。
自定义权重：如果对特定类别的错误分类有更明确的优先级，可以手动通过字典为每个类别指定权重。例如，可以根据业务需求或领域知识来设定。

示例代码：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from collections import Counter

# 假设您的数据已加载到DataFrame中
# 示例数据（请替换为您的实际数据）
data = {
    'text': ["这是关于主题A的推文"] * 183 + ["这是关于主题B的推文"] * 171 +
            ["这是关于主题C的推文"] * 120 + ["这是关于主题D的推文"] * 110 +
            ["这是关于主题E的推文"] * 98 + ["这是无主题的推文"] * 964,
    'label': ['主题A'] * 183 + ['主题B'] * 171 +
             ['主题C'] * 120 + ['主题D'] * 110 +
             ['主题E'] * 98 + ['无主题'] * 964
}
df = pd.DataFrame(data)
X, y = df['text'], df['label']

# 文本特征提取 (TF-IDF)
vectorizer = TfidfVectorizer(max_features=2000) # 限制特征数量以避免维度灾难
X_vec = vectorizer.fit_transform(X)

# 划分训练集和测试集，使用stratify参数保持类别比例
X_train, X_test, y_train, y_test = train_test_split(X_vec, y, test_size=0.2, random_state=42, stratify=y)

print("训练集类别分布:", Counter(y_train))

# 1. 使用class_weight='balanced'的逻辑回归
print("\n--- 使用 class_weight='balanced' 的逻辑回归 ---")
lr_balanced = LogisticRegression(class_weight='balanced', solver='liblinear', max_iter=1000, random_state=42)
lr_balanced.fit(X_train, y_train)
print("逻辑回归 (class_weight='balanced') 训练完成。")

# 2. 使用自定义权重的SVM
print("\n--- 使用自定义权重的SVM ---")
# 可以根据类别频率的反比来设定自定义权重
class_counts = Counter(y_train)
total_samples = sum(class_counts.values())
# 简单的反比权重示例：权重 = 总样本数 / (类别数 * 该类别样本数)
# 这样可以确保稀有类别的权重更高
custom_weights = {cls: total_samples / (len(class_counts) * count) for cls, count in class_counts.items()}
print(f"自定义权重: {custom_weights}")

svm_custom = SVC(class_weight=custom_weights, random_state=42)
svm_custom.fit(X_train, y_train)
print("SVM (自定义权重) 训练完成。")

登录后复制

策略二：选择对不平衡数据更鲁棒的模型

某些机器学习模型在处理不平衡数据时天生就具有更好的鲁棒性。

Calliper 文档对比神器

文档内容对比神器

查看详情

决策树 (Decision Trees) 和随机森林 (Random Forests)：
- 这些基于树的模型能够通过创建复杂的决策边界来更好地隔离少数类别。它们不像线性模型那样容易受到多数类别的影响。
- 随机森林作为一种集成学习方法，通过训练多棵决策树并综合它们的预测结果，进一步降低了单棵决策树可能出现的过拟合风险，并提升了整体的泛化能力。
梯度提升模型 (Gradient Boosting Models)：
- 如XGBoost、LightGBM和CatBoost等，也常常被用于处理不平衡数据。它们通常提供了调整损失函数或样本权重的参数，允许模型在训练过程中更关注少数类别。

策略三：采用恰当的评估指标

在数据不平衡的情况下，仅仅依赖准确率（Accuracy）来评估模型性能是极具误导性的。一个模型即使将所有样本都预测为多数类别，也可能获得看似很高的准确率，但这并没有实际意义。因此，我们需要采用更具洞察力的评估指标：

精确率 (Precision)：衡量模型预测为正例的样本中，有多少是真正的正例。高精确率意味着模型在预测正例时犯的错误较少（即假阳性少）。
召回率 (Recall)：衡量所有真正的正例中，有多少被模型正确预测出来。高召回率意味着模型能够识别出大部分真正的正例（即假阴性少）。
F1 分数 (F1-Score)：精确率和召回率的调和平均值，它综合考虑了这两个指标，在精确率和召回率都重要时是一个很好的综合指标。
混淆矩阵 (Confusion Matrix)：直观地展示了模型在每个类别上的预测结果，包括真阳性、真阴性、假阳性和假阴性，是理解模型性能细节的关键工具。
ROC 曲线和 AUC 值 (Receiver Operating Characteristic & Area Under the Curve)：主要用于二分类问题，但在多分类中可以通过One-vs-Rest或One-vs-One策略进行扩展。AUC值衡量模型区分正负类的能力，值越高表示模型性能越好。

示例代码：

from sklearn.metrics import classification_report, roc_auc_score, confusion_matrix
import numpy as np

# 假设lr_balanced和svm_custom是前面训练好的模型
# 对逻辑回归模型进行评估
print("\n--- 逻辑回归模型评估报告 (class_weight='balanced') ---")
y_pred_lr = lr_balanced.predict(X_test)
print(classification_report(y_test, y_pred_lr, target_names=lr_balanced.classes_, zero_division=0))

print("\n混淆矩阵 (逻辑回归):")
print(confusion_matrix(y_test, y_pred_lr, labels=lr_balanced.classes_))

# 对于多分类AUC，通常需要使用One-vs-Rest策略
# 需要模型能够输出预测概率
try:
    y_prob_lr = lr_balanced.predict_proba(X_test)
    # 将类别标签映射为数字，以便roc_auc_score处理
    label_map = {label: i for i, label in enumerate(lr_balanced.classes_)}
    y_test_mapped = np.array([label_map[label] for label in y_test])

    if y_prob_lr.shape[1] == len(lr_balanced.classes_):
        # average='weighted' 考虑了每个类别的样本比例
        roc_auc_weighted = roc_auc_score(y_test_mapped, y_prob_lr, multi_class='ovr', average='weighted')
        print(f"ROC AUC (weighted): {roc_auc_weighted:.4f}")
    else:
        print("无法计算多分类ROC AUC，因为预测概率的列数与类别数不匹配。")
except AttributeError:
    print("逻辑回归模型不支持predict_proba，无法计算AUC。")


# 对SVM模型进行评估 (假设svm_custom已训练)
print("\n--- SVM模型评估报告 (自定义权重) ---")
y_pred_svm = svm_custom.predict(X_test)
print(classification_report(y_test, y_pred_svm, target_names=svm_custom.classes_, zero_division=0))

print("\n混淆矩阵 (SVM):")
print(confusion_matrix(y_test, y_pred_svm, labels=svm_custom.classes_))

登录后复制

关于过采样（Over-sampling）与SMOTE

过采样技术旨在通过增加少数类别的样本数量来平衡数据集。其中，SMOTE（Synthetic Minority Over-sampling Technique，合成少数类过采样技术）是一种广受欢迎的方法。

SMOTE原理：SMOTE不是简单地复制少数类样本，而是在特征空间中为少数类样本生成新的合成样本。它通过在少数类样本及其K个最近邻样本之间进行插值来创建新样本。
文本分类中的应用考量：
- 直接应用于原始文本困难：SMOTE通常不能直接应用于原始文本数据，因为它依赖于特征空间中的距离计算，而原始文本的“距离”概念不明确。
- 应用于特征向量：SMOTE通常在文本数据被转换成数值特征向量（如TF-IDF、词嵌入、BERT嵌入等）后才能应用。
- 潜在风险：
  - 过拟合：生成的大量合成样本可能过于接近原始少数类样本，导致模型在训练集上表现良好，但在未见过