AutoNLP实战：多类别分类与混合数据类型全面指南-人工智能-PHP中文网

在当今信息爆炸的时代，文本分类技术变得越来越重要。无论是分析客户反馈、组织文档，还是进行情感分析，有效的文本分类都能帮助我们从海量数据中提取有价值的信息。然而，现实世界的数据往往是复杂多样的，包含文本、数值、类别等多种类型。如何针对这些混合数据类型进行多类别分类，成为了一个重要的挑战。本文将介绍如何使用AutoNLP，一个强大的自动化机器学习工具，来应对这一挑战，并提供详细的步骤和案例。

核心要点

文本分类的核心概念：理解文本分类的基本原理和应用场景。

混合数据类型的处理：学习如何整合文本、数值、类别等多种数据类型。

AutoNLP 的优势：了解AutoNLP在自动化机器学习方面的强大功能。

NLP步骤详解：掌握文本预处理、特征提取和模型训练的关键步骤。

案例实战：通过实际案例，学习如何在混合数据类型上应用AutoNLP进行多类别分类。

AutoNLP：自动化多类别分类利器

什么是AutoNLP？

autonlp是一个自动化机器学习工具，旨在简化机器学习流程，让用户无需深入了解复杂的算法和参数，也能构建高性能的模型。在文本分类领域，autonlp 能够自动完成文本预处理、特征提取、模型选择和训练等步骤，极大地提高了工作效率。更重要的是，autonlp 能够有效处理混合数据类型，这意味着我们可以将文本数据与其他类型的特征结合起来，构建更强大的分类模型。

文本分类的挑战：混合数据类型

传统的文本分类方法通常只关注文本数据本身，例如，使用词袋模型、TF-IDF 或词嵌入等技术。然而，在许多实际应用中，除了文本数据，我们还需要考虑其他类型的特征，例如：

数值型特征：例如评论的点赞数、用户的年龄等。
类别型特征：例如商品的类别、用户的地理位置等。

这些混合数据类型可以提供额外的信息，帮助我们更准确地进行文本分类。例如，在情感分析中，如果一条评论包含负面情绪的文本，但用户的点赞数很高，那么我们可能需要重新评估这条评论的情感倾向。因此，如何有效地整合这些混合数据类型，成为了一个重要的挑战。

传统的解决方案通常需要手动进行特征工程，例如，将类别型特征进行独热编码，或者将数值型特征进行归一化。然而，这些手动操作不仅耗时费力，而且容易出错。AutoNLP 能够自动完成这些特征工程步骤，并选择最佳的模型和参数，从而大大简化了整个流程。

NLP步骤详解：AutoNLP文本分类流程

数据准备与加载

首先，我们需要准备包含文本数据和混合数据类型的训练数据集。AutoNLP 支持多种数据格式，例如 CSV、Excel 等。在本文的案例中，我们将使用TensorFlow Datasets中的Amazon Personal Care Appliances Reviews数据集。它使用TensorFlow数据集,使用常见的库，例如Numpy和Pandas。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AutoNLP实战：多类别分类与混合数据类型全面指南

该数据集包含以下字段：

review_body：评论的文本内容。
star_rating：评论的星级评分（1-5星）。
helpful_votes：评论收到的点赞数。
verified_purchase：是否为验证购买。

这些字段包含了文本、数值和类别等多种数据类型，非常适合用于演示如何在混合数据类型上应用AutoNLP进行多类别分类。

加载数据集的代码如下：

dataset, info = tfds.load('amazon_us_reviews/Personal_Care_Appliances_v1_00', with_info=True, batch_size=-1)
train_dataset = dataset['train']

登录后复制

数据探索与理解

在构建模型之前，我们需要对数据进行探索和理解，

AutoNLP实战：多类别分类与混合数据类型全面指南

以便更好地选择合适的模型和参数。例如，我们可以查看每个类别的样本数量，了解数据集的平衡程度。在本文的案例中，可以通过以下代码查看每个星级评分的评论数量：

rating_dataset=dataset['data']['star_rating']

登录后复制

了解数据集的特征分布和类别平衡情况，有助于我们更好地选择模型和评估指标。

数据转换与预处理

AutoNLP 能够自动完成文本预处理和特征工程步骤，但我们需要将数据集转换为 NumPy 数组，以便 AutoNLP 能够更好地处理。此外，还需要提取我们需要的特征列，例如评论文本、星级评分和点赞数。

代码如下：

dataset=tfds.as_numpy(train_dataset)
verified_purchase=dataset['data']['verified_purchase']
helpful_votes=dataset['data']['helpful_votes']
review_headline=dataset['data']['review_headline']
review_body=dataset['data']['review_body']
rating=dataset['data']['star_rating']

登录后复制

这些代码将数据集转换为 NumPy 数组，并提取了我们需要的特征列。接下来，就可以使用 AutoNLP 构建模型了。

构建与训练 AutoNLP 模型

AutoNLP 的核心在于其自动化的模型构建和训练能力。

AutoNLP实战：多类别分类与混合数据类型全面指南

用户只需指定训练数据、目标列和一些基本参数，AutoNLP 就能自动完成剩下的工作。

以下是构建和训练 AutoNLP 模型的代码：

JoyPix AI

轻松制作AI视频、AI数字人，支持文生视频、声音克隆

243

查看详情

from autoviml.Auto_ViML import Auto_ViML
model_variable='star_rating'

m, feats, trainm, testm = Auto_ViML(train,  target, test,sample_submission='', scoring_parameter=', KMeans_Featurizer=False, hyper_param='RS',feature_reduction=True, Boosting_Flag='Catboost', Binning_Flag=False, Add_Poly=0, Stacking_Flag=False,imbalanced_Flag=False, verbose=2)

登录后复制

在上述代码中：

train：训练数据集。
target：目标列，即星级评分。
test：测试数据集。
sample_submission：提交样本。

AutoNLP 会自动选择最佳的模型和参数，并进行交叉验证，以获得高性能的分类模型。 AutoNLP将自动执行以下操作：

确定数据集中每个变量的数据类型
执行特征选择
使用以下NLP策略转换文本：
- 清理文本数据
- 扩大文字
- 使用NLP Transformer生成新的特征
- 词条化
- 词向量
- TF-IDF（词频-逆文档频率）
- N-gram
然后它将选择最佳算法
优化模型以获得最佳性能

模型评估与解释

模型训练完成后，我们需要评估模型的性能，并对模型进行解释，

AutoNLP实战：多类别分类与混合数据类型全面指南

以便更好地理解模型的决策过程。AutoNLP 提供了丰富的评估指标和可视化工具，例如：

准确率：衡量模型正确分类的比例。
精确率：衡量模型预测为正例的样本中，真正为正例的比例。
召回率：衡量模型能够找到所有正例的比例。
F1-score：综合考虑精确率和召回率的指标。
混淆矩阵：展示模型在每个类别上的预测结果。
ROC曲线：展示模型在不同阈值下的真正例率和假正例率。

此外，AutoNLP 还可以提供特征重要性分析，帮助我们了解哪些特征对模型的预测结果影响最大。

以下是如何查看模型评估指标和特征重要性的代码：

plot_confusion_matrix(test[target].values,m.predict(test[feats]))

登录后复制

AutoNLP实战：操作步骤详解

步骤一：安装 AutoViml

首先，确保你已安装 AutoViml。可以使用 pip 命令进行安装：

pip install autoviml

登录后复制

如果安装过程中遇到问题，可以尝试更新 pip 或使用镜像源。

步骤二：导入必要的库

在 Python 脚本中，导入所需的库：

import tensorflow_datasets as tfds
import numpy as np
import pandas as pd
from autoviml.Auto_ViML import Auto_ViML

登录后复制

这些库将用于数据加载、处理和模型构建。

步骤三：加载数据集

使用 TensorFlow Datasets 加载 Amazon Personal Care Appliances Reviews 数据集：

dataset, info = tfds.load('amazon_us_reviews/Personal_Care_Appliances_v1_00', with_info=True, batch_size=-1)
train_dataset = dataset['train']

登录后复制

这将加载数据集并将其划分为训练集。

步骤四：数据预处理

将数据集转换为 NumPy 数组，并提取所需的特征列：

dataset=tfds.as_numpy(train_dataset)
verified_purchase=dataset['data']['verified_purchase']
helpful_votes=dataset['data']['helpful_votes']
review_headline=dataset['data']['review_headline']
review_body=dataset['data']['review_body']
rating=dataset['data']['star_rating']

登录后复制

步骤五：构建并训练 AutoNLP 模型

使用 Auto_ViML 函数构建和训练模型：

target = 'star_rating'
m, feats, trainm, testm = Auto_ViML(train, target, test, sample_submission='', scoring_parameter=', KMeans_Featurizer=False, hyper_param='RS', feature_reduction=True, Boosting_Flag='Catboost', Binning_Flag=False, Add_Poly=0, Stacking_Flag=False, imbalanced_Flag=False, verbose=2)

登录后复制

请注意，你需要将训练数据和测试数据传递给 Auto_ViML 函数。

步骤六：模型评估

使用 AutoNLP 提供的评估指标和可视化工具，评估模型的性能：

from autoviml.Auto_ViML import plot_confusion_matrix
plot_confusion_matrix(test[target].values, m.predict(test[feats]))

登录后复制

AutoNLP 定价

AutoViml

AutoViml 是一个免费的开源软件包。这意味着没有任何许可费用。不过，根据要处理的数据量，可能需要支付云提供商的费用，如谷歌Colab。

AutoNLP 的优缺点分析

? Pros

简化流程：自动化机器学习流程，无需深入了解算法和参数。

提高效率：自动完成文本预处理、特征工程、模型选择和训练。

混合数据类型支持：有效处理文本、数值、类别等多种数据类型。

可解释性：提供丰富的评估指标和可视化工具。

快速原型：能够快速生成一个不错的baseline模型

? Cons

参数调整有限：对于特定任务可能需要精细化调整模型。

资源消耗：需要大量的计算资源和时间。

依赖高质量数据：无法解决数据集本身的问题。

AutoNLP 核心功能

关键特性

混合数据类型： AutoViml可以检测数据集的变量数据类型是什么，并且可以同时处理数字、分类和文本类型的数据。 NLP：AutoViml使用优越的NLP转换技术和特性。 使用随机搜索进行超参数调整：将超参数调整与特征选择相结合是AutoViml的关键特性。 Stacking: AutoViml有堆叠集成技术。这意味着您将获得最好的模型。AutoViml还表明，单个模型比这个数据集的集成模型更好。 轻松解释： AutoViml输出易于理解的数据结果。