Pandas DataFrame长文本按句切分与定长处理教程-Python教程-PHP中文网

Pandas DataFrame长文本按句切分与定长处理教程

DDD

发布： 2025-09-27 10:34:30

原创

322人浏览过

pandas dataframe长文本按句切分与定长处理教程

本教程旨在解决Pandas DataFrame中长文本列的处理难题，特别是如何将超过预设长度的文本按完整句子进行智能切分，并分配到新的多列中。通过结合nltk库进行句子级分词和自定义函数实现长度限制，文章详细阐述了如何优雅地将冗长描述转换为结构化、易于导入和分析的短文本片段，确保每个片段都以完整的句子结束，并避免单个长句子被截断。

引言：长文本数据处理的挑战

在数据分析和处理中，我们经常会遇到包含长文本描述的DataFrame，例如产品详情、用户评论或文档内容。这些文本有时可能非常冗长，长度可能超过数千字符。当需要将这些数据导入到具有字符限制的数据库字段，或者为了后续的文本分析（如生成嵌入、关键词提取）而进行预处理时，直接处理这些长文本会带来挑战。常见的需求是将长文本列拆分成多个较短的列，同时确保拆分后的每个片段都具有语义完整性，即每个片段都以一个完整的句子结束，而不是在句子中间被截断。

本教程将提供一个结合了长度限制和句子完整性要求的解决方案，利用Python的pandas库和自然语言处理工具nltk来实现这一目标。

解决方案概述

核心思路是首先使用nltk库将长文本分解成独立的句子，然后通过一个自定义函数，将这些句子智能地组合成符合最大长度限制的文本块。每个文本块将作为DataFrame中的一个新列。

前提条件

在开始之前，请确保您的环境中已安装以下库：

pandas：用于数据处理和DataFrame操作。
nltk：用于自然语言处理，特别是句子分词。

如果尚未安装，可以通过pip进行安装：

pip install pandas nltk

登录后复制

此外，nltk的句子分词器需要下载其punkt模型：

Google Antigravity

谷歌推出的AI原生IDE，AI智能体协作开发

277

查看详情

import nltk
nltk.download('punkt')

登录后复制

实现步骤

我们将通过一个具体的Python函数来演示如何实现文本的按句定长切分。

1. 导入必要的库

首先，导入pandas和nltk库。

import pandas as pd
import nltk

登录后复制

2. 定义自定义切分函数

接下来，定义一个名为split_sentences_by_length的函数。该函数接收文本字符串、最大长度限制和新列的前缀作为参数。

def split_sentences_by_length(text, max_len=300, prefix='col'):
    """
    将长文本按句子切分，并组合成不超过max_len的文本块。
    每个文本块都以完整的句子结束。

    Args:
        text (str): 待切分的原始文本。
        max_len (int): 每个文本块的最大字符长度。
        prefix (str): 生成新列的名称前缀。

    Returns:
        pd.Series: 包含切分后文本块的Pandas Series，列名带有前缀和序号。
    """
    out = []  # 存储最终的文本块
    current_chunk_sentences = []  # 存储当前文本块中的句子
    current_chunk_length = 0  # 存储当前文本块的长度

    # 使用nltk进行句子分词
    sentences = nltk.sent_tokenize(text)

    for sentence in sentences:
        sentence_len = len(sentence)
        # 计算将当前句子添加到当前文本块后的潜在长度
        # 如果当前文本块非空，则需要加上一个空格的长度
        potential_new_length = current_chunk_length + sentence_len + (1 if current_chunk_length > 0 else 0)

        # 检查是否满足以下条件之一以开始一个新的文本块：
        # 1. 添加当前句子会使总长度超过max_len，且当前文本块中已有句子。
        #    在这种情况下，我们保存当前文本块，然后用当前句子开始新的文本块。
        # 2. 当前句子本身就超过了max_len。
        #    在这种情况下，我们将其作为一个独立的文本块（不拆分句子），
        #    并清空当前文本块以准备下一个。
        if potential_new_length > max_len and current_chunk_length > 0:
            out.append(' '.join(current_chunk_sentences))
            current_chunk_sentences = [sentence]
            current_chunk_length = sentence_len
        elif sentence_len > max_len:
            # 如果句子本身就太长，将其作为一个单独的块。
            # 先保存之前累积的任何句子（如果存在）。
            if current_chunk_sentences:
                out.append(' '.join(current_chunk_sentences))
            out.append(sentence) # 将过长的句子作为独立的块
            current_chunk_sentences = [] # 重置，为下一个块做准备
            current_chunk_length = 0
        else:
            # 否则，将句子添加到当前文本块
            current_chunk_sentences.append(sentence)
            current_chunk_length = potential_new_length

    # 添加循环结束后剩余的任何句子作为最后一个文本块
    if current_chunk_sentences:
        out.append(' '.join(current_chunk_sentences))

    # 将结果转换为Pandas Series，并使用前缀命名列
    return pd.Series(out).rename(lambda x: f'{prefix}_{x+1}')

登录后复制

函数逻辑详解：

初始化： out列表用于存储最终切分出的所有文本块。current_chunk_sentences存储正在构建的当前文本块中的句子，current_chunk_length记录其当前长度。
句子分词： nltk.sent_tokenize(text)将输入文本分解成一个句子列表。
迭代句子： 遍历每个句子：
- 计算将当前句子添加到current_chunk_sentences后，潜在的文本块总长度。这里会考虑句子之间添加的空格（1 if current_chunk_length > 0 else 0）。
- 条件判断：
  - 如果potential_new_length超过max_len，并且current_chunk_sentences中已经有句子（即current_chunk_length > 0），则表示当前文本块已满。此时，将current_chunk_sentences中的句子合并成一个字符串，添加到out中。然后，用当前句子开始一个新的文本块。
  - 如果当前句子sentence_len本身就超过了max_len，为了保证句子完整性，我们将其作为一个独立的文本块。如果current_chunk_sentences中还有未保存的句子，先保存它们。
  - 否则，当前句子可以安全地添加到current_chunk_sentences中，并更新current_chunk_length。
**处理