讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

如何在 Pandas 中按行识别并提取重复值

碧海醫心

发布时间：2026-01-21 17:09:32

|

628人浏览过

|

来源于php中文网

原创

如何在 Pandas 中按行识别并提取重复值

本文介绍如何使用 `pandas.dataframe.apply()` 配合自定义逻辑，高效实现**逐行检测重复值**，并以字符串或集合形式返回每行中出现频次大于 1 的所有元素。

在 Pandas 中，默认的 duplicated() 方法作用于列（即纵向），常用于标记或筛选列方向上的重复行；但当需求变为横向识别每行内部的重复值（例如：某一行中 "bar" 出现两次，则提取 "bar"），就需要转向 apply(axis=1) 的行级操作。

核心思路是：对每一行（Series 对象），统计各元素出现次数，筛选出频次 > 1 的值，并去重汇总。以下是推荐的实现方式：

import pandas as pd

df2 = pd.DataFrame({
    "A": ["foo", "foo", "foo", "bar"],
    "B": [0, 1, 1, 1],
    "C": ["A", "foo", "B", "bar"],
    "D": ["bar", "bar", "B", "foo"],
    "E": ["bar", "bar", "B", "foo"]
})

# ✅ 推荐方案：返回 set（自动去重 + 无序），语义清晰且性能合理
df2["dup"] = df2.apply(
    lambda row: {val for val in row if row.tolist().count(val) > 1},
    axis=1
)

输出结果为：

     A  B    C    D    E         dup
0  foo  0    A  bar  bar       {bar}
1  foo  1  foo  bar  bar  {foo, bar}
2  foo  1    B    B    B         {B}
3  bar  1  bar  foo  foo  {foo, bar}

如需与示例中一致的逗号分隔字符串格式（如 "foo, bar"），可进一步转换：

燕雀Logo

为用户提供LOGO免费设计在线生成服务

下载

df2["dup"] = df2["dup"].apply(lambda s: ", ".join(sorted(map(str, s))) if s else "")

⚠️ 注意事项：

row.tolist().count(val) 在大数据集上效率较低（时间复杂度 O(n²)），若处理超万行数据，建议改用 collections.Counter 优化：
```
from collections import Counter
df2["dup"] = df2.apply(
    lambda row: {val for val, cnt in Counter(row).items() if cnt > 1},
    axis=1
)
```
混合数据类型（如 int 和 str）时，Counter 更健壮；而 == 比较在 NaN 存在时需额外处理（NaN != NaN），如含缺失值，建议先用 row.fillna("MISSING") 统一占位。
若需保留首次出现顺序，可用 dict.fromkeys(...) 去重后转 list，再过滤。

该方法灵活、可读性强，适用于探索性分析及清洗阶段的行级模式识别任务。

相关文章

PySpark 中实现累积滞后递归计算（如复利式列更新）

如何合法合规地访问 LoopNet 网站数据：避免爬虫封禁与合规替代方案

如何合法合规地访问 LoopNet 商业地产数据：避免请求被阻断的实践指南

如何合法合规地获取 LoopNet 商业地产数据：避免爬虫封禁与法律风险

如何合法合规地获取 LoopNet 商业地产数据：避免请求阻塞与法律风险

相关标签:

大数据 app pandas 数据类型 count 字符串 int 对象

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 协程切换时保存了哪些状态？下一篇：如何批量请求多个 URL 并将结果汇总保存为 CSV 文件

作者最新文章

如何在 PHP 中将多个复选框选择结果安全拼接并写入邮件正文

2026-01-21 14:58

可爱戴安娜！《识质存在》新实机展示

2026-01-21 14:59

Using a Global Variable Correctly in Go

2026-01-21 15:17

如何在隐藏必填字段未填写时将焦点移至自定义元素

2026-01-21 15:21

美国任天堂前总裁“库巴”履新！和前Xbox高管当同事

2026-01-21 15:27

显卡涨价潮杀到！微星率先调涨：华硕、技嘉紧随

2026-01-21 15:27

《零红蝶：重制版》新视频女鬼从天而降

2026-01-21 15:28

鹰角《明日方舟：终末地》M站开分79！首发卖相不错但需时间检验

2026-01-21 15:35

夸克怎么变成AI了

2026-01-21 15:40

如何使用 Gson 正确解析嵌套多层 JSON 文件（含对象与数组）

2026-01-21 16:00

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

Python 时间序列分析与预测

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

53

2025.12.04

数据类型有哪几种

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

306

2023.10.31

php数据类型

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

counta和count的区别

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2023.11.20

js 字符串转数组

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

258

2023.08.03

js截取字符串的方法

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

209

2023.09.04

java基础知识汇总

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1468

2023.10.24

字符串介绍

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

620

2023.11.24

Java编译相关教程合集

Java编译相关教程合集

本专题整合了Java编译相关教程，阅读专题下面的文章了解更多详细内容。

7

2026.01.21

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

CSS3 教程

CSS3 教程

共18课时 | 4.7万人学习

PostgreSQL 教程

PostgreSQL 教程

共48课时 | 7.5万人学习

Django 教程

Django 教程

共28课时 | 3.3万人学习

最新文章

更多

PySpark 中实现累积递归计算（如复利式列更新）

如何让类支持 pickle 序列化但排除某些敏感属性

如何高效地将S3中的PNG/JPEG图像流式编码为Base64（无需完整下载）

Python 默认参数与闭包一起使用的坑点

Python 网络超时是如何触发的？

getattr 和 getattribute 的执行顺序与无限递归陷阱

Python 多线程在 I/O 密集场景下为什么有效？

Pandas：跨数据集复用分位数分箱规则对目标数据进行分组标记

如何安全删除一个可能不存在的文件（不抛异常）

如何高效地在Python中检查多个姓名是否同时存在于字典的字符串字段中

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部