如何在Pandas中基于分组信息动态生成结构化文本列

心靈之曲

发布时间：2026-01-13 17:22:04

615人浏览过

来源于php中文网

原创

如何在Pandas中基于分组信息动态生成结构化文本列

本文介绍如何利用`groupby().apply()`配合自定义函数，将dataframe中按连续相同“head”分组的成员列表整合为自然语言格式的邀请消息，并自动排除与head同名的重复成员。

在实际数据分析中，常需将结构化数据（如分组后的多行记录）转换为可读性强的文本摘要。本例目标是：对连续出现的相同 head（如 "Abba As"）所对应的 members 列进行聚合，生成一条个性化邀请语句——其中首名成员（取 head 的姓氏部分）作为主宾称呼，其余成员用“and”连接，并保留原始 head 字符串用于入场标识。

关键难点在于：需按“head值连续出现”的逻辑分组（而非简单去重分组），因为同一 head 可能在后续再次出现（如示例中 "Abba As" 出现在索引 0–2 和 6–8），应视为两个独立邀请批次。

以下是完整实现方案：

import pandas as pd

# 构建示例数据
df = pd.DataFrame({
    'head': ['Abba As', 'Abba As', 'Abba As', 'Bella Bi', 'Bella Bi', 'Bella Bi', 'Abba As', 'Abba As', 'Abba As'],
    'members': ['Ally', 'Apo', 'Abba', 'Bella', 'Boo', 'Brian', 'Arra', 'Alya', 'Abba']
})

# 步骤1：识别连续分组（核心！）
group = df['head'].ne(df['head'].shift()).cumsum()

# 步骤2：定义生成message的函数
def generate_message(group_df):
    head_full = group_df.name[0]  # 获取当前组的head值（元组形式，取第一个元素）
    head_first_name = head_full.split()[0]  # 提取首名（如"Abba"）
    # 过滤掉与首名相同的成员（即本人），保留其余成员
    other_members = [m for m in group_df['members'] if m != head_first_name]
    # 用" and "连接其他成员
    others_str = ' and '.join(other_members)
    return f'Hi {head_first_name}, we invite you, {others_str}. Please use "{head_full}" when arriving.'

# 步骤3：分组应用 + 整理结果
result = (df.groupby(['head', group], sort=False)
          .apply(generate_message)
          .droplevel(1)  # 删除辅助分组层级
          .reset_index(name='message'))

✅ 输出结果严格匹配预期：

凡人网络购物系统jsp版(JspShop)

基于jsp+javabean+access(mysql)三层结构的动态购物网站，v1.2包含v1.0中未公开的数据库连接的java源文件一，网站前台功能：产品二级分类展示：一级分类－－二级分类－－产品列表－－详细介绍（名称，图片，市场价，会员价，是否推荐，功能介绍等）产品搜索：关键字模糊搜索定购产品：选择商品－－确认定购－－填写收货人信息－－选择付款方式－－订单号自动生成（限登录用户）

下载

       head                                                                       message
0   Abba As     Hi Abba, we invite you, Ally and Apo. Please use "Abba As" when arriving.
1  Bella Bi  Hi Bella, we invite you, Boo and Brian. Please use "Bella Bi" when arriving.
2   Abba As    Hi Abba, we invite you, Arra and Alya. Please use "Abba As" when arriving.

⚠️ 注意事项：

df['head'].ne(df['head'].shift()).cumsum() 是识别连续相同值区块的标准技巧，不可替换为 df.groupby('head')（否则会合并所有 "Abba As" 行，丢失批次语义）；
groupby(['head', group]) 中 group 是辅助序列号，确保相同 head 的不同连续段被区分开；
若某组内除首名外无其他成员（如仅含 ["Abba"]），others_str 将为空字符串，语句变为 "Hi Abba, we invite you, . Please..." —— 可根据业务需求在函数中增加空值判断（例如 if not other_members: others_str = "no one else"）；
此方法时间复杂度为 O(n)，适用于万级以内数据；超大数据量建议结合 numba 或预聚合优化。

该模式可灵活扩展：替换模板字符串、支持多语言、接入邮件/短信API，是构建自动化报告与通知系统的典型范式。

如何从 JSON 字符串数组中安全提取 cancellationDate 字段

标题：Pandas对比两个客户数据表并按区域分组统计变动明细（含姓名列表）

Pandas：按条件删除每组末尾连续的指定值行

Peewee MySQL 连接默认覆盖 SQL 模式导致严格模式失效问题详解

Python调试中“设断点正常、不设断点报错”的真相揭秘

相关标签:

vite 大数据 app 多语言 pandas if 字符串数据分析自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：标题：Pandas对比两个客户数据表并按区域层级汇总变动明细（含人员名单）下一篇：Peewee 覆盖 MySQL 默认 SQL 模式导致严格模式失效的解决方案

作者最新文章

如何找出两个DataFrame中键列相同但值列发生变化的行

2026-01-12 15:30

网易云音乐怎么更改歌曲缓存目录

2026-01-12 15:50

标题：如何识别并标记日期数组中被多次占用的同一天（如入住与退房重叠日）

2026-01-12 15:53

恶魔秘境角斗之王冒险打法攻略

2026-01-12 15:53

winrar如何关闭声音

2026-01-12 15:57

PHP 中对象赋值默认为引用：理解 clone 的必要性

2026-01-12 15:57

抖音企业号白名单怎么弄？有什么用途？

2026-01-12 16:03

实现下拉选项值自动填充到文本域

2026-01-12 16:06

陷阱大师陷阱类别介绍与搭配攻略

2026-01-12 16:09

外媒安利种田新游《星砂岛》定档2026 Q1：融合《动森》与《星露谷》要素主打动态社交

2026-01-12 16:10

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

734

2023.08.22

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

254

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

206

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1463

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

617

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

548

2024.03.22