Python中如何处理缺失值？pandas数据清洗技巧

蓮花仙者

发布时间：2025-07-11 12:12:02

1103人浏览过

来源于php中文网

原创

处理缺失值的方法包括检查、删除、填充和标记。1. 使用isna()或isnull()检查缺失值，通过sum()统计每列缺失数量，或用any().any()判断整体是否存在缺失；2. 采用dropna()删除缺失比例高的行或列，subset参数指定检查范围，inplace=true直接修改原数据；3. 用fillna()填充缺失值，数值型可用均值、中位数，类别型用众数，时间序列可用前后值填充；4. 对于缺失本身含信息的情况，可新增列标记是否缺失，并将缺失作为特征使用，提升模型表现。

Python中如何处理缺失值？pandas数据清洗技巧

处理缺失值是数据分析中非常基础但也非常关键的一步，特别是在使用pandas进行数据清洗时。很多时候，原始数据中都会存在空值、NaN或者无效值，如果不做处理，会影响后续分析甚至导致错误结果。好在pandas提供了很多实用的方法，可以灵活应对这些情况。

1. 检查缺失值

在动手处理之前，首先要知道数据中哪些地方有缺失值。pandas提供了一个非常方便的函数：isna() 或者 isnull()，它可以标记出数据中的缺失值。

import pandas as pd

df = pd.read_csv('data.csv')
print(df.isna().sum())

这段代码会输出每一列中有多少个缺失值，帮助你快速定位问题所在。

立即学习“Python免费学习笔记（深入）”；

如果你只想看看整个DataFrame有没有缺失值，可以用：

df.isna().any().any()

这样就能知道是否需要进一步处理了。

2. 删除缺失值

如果某列或某行的缺失值比例非常高，比如超过70%，通常可以选择直接删除这部分数据。pandas中使用dropna()方法来实现这个操作。

df.dropna(subset=['列名'], inplace=True)

上面这行代码的意思是，在指定列中如果有缺失值，就删除对应的整行数据。如果不指定subset参数，默认会检查所有列。

喵记多

喵记多 - 自带助理的 AI 笔记

下载

小贴士：使用inplace=True可以直接修改原数据，而不是返回一个新对象。如果你不确定后果，建议先复制一份数据再操作。

不过要注意，这种方法虽然简单粗暴，但可能会损失大量有效信息，特别是当数据量本身就不大的时候。

3. 填充缺失值

相比直接删除，填充缺失值是一种更温和的做法，常见的方式包括用均值、中位数、众数或者前后值来填充。

数值型数据常用平均值或中位数：

df['列名'].fillna(df['列名'].mean(), inplace=True)

类别型数据更适合用众数（也就是出现次数最多的值）：

df['列名'].fillna(df['列名'].mode()[0], inplace=True)

如果是时间序列数据，可以用前一个或后一个非空值来填充：

df['列名'].fillna(method='ffill', inplace=True)  # 前向填充

这些方法可以根据数据类型和上下文灵活选择，有时候也可以组合使用。

4. 标记缺失值

有些时候，缺失本身也是一种信息。比如在用户填写问卷时，某些字段没填，可能意味着用户对该项不感兴趣或不了解。

这时候可以在填充的同时新增一列，用来标记该字段是否曾经缺失：

df['列名缺失'] = df['列名'].isna().astype(int)
df['列名'].fillna(0, inplace=True)

这样不仅保留了原始数据结构，还把“缺失”作为一个特征加入了模型训练中，有时反而能提升模型表现。

基本上就这些。处理缺失值看起来不复杂，但在实际项目中很容易被忽略细节，比如填充方式不合适、误删重要数据等。只要根据具体场景灵活选用合适的方法，就可以避免这些问题。

标题：Python 日志配置的动态合并：字典默认配置与外部文件覆盖的优雅实践

Python 中实现单实例应用并等待前一个实例完成的完整方案

Python 中实现单实例应用并等待前一个实例结束的完整方案

如何高效统计字符串中出现的唯一排列子串数量

如何修改 Python 中的元组元素？

相关标签:

python Python pandas 数据类型数据结构对象数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python中如何分析文本情绪—NLP情感分析实战下一篇：Python如何实现图像分割？UNet模型应用

作者最新文章

51动漫资源网官网 51动漫全集资源免费观看入口

2026-01-15 05:59

php远程访问文件怎么打开_phphttps远程文件安全打开法【注意】

2026-01-15 06:07

怎样让电脑开机不自动启动软件_开机自启程序管理方法

2026-01-15 07:09

我的花园世界免费秒玩网站我的花园世界抖音小游戏全屏畅玩

2026-01-15 08:06

HTML5如何加密IndexedDB存储数据_HTML5IndexedDB数据加密措施【锦囊】

2026-01-15 08:13

壹米滴答怎么使用网点自助打印_壹米滴答自助打单机操作方法【实操】

2026-01-15 08:37

iPhone17Pro录屏时怎么隐藏悬浮窗_iPhone17Pro隐藏录屏悬浮窗方法

2026-01-15 08:40

PHP怎样创建含枚举字段表_PHP枚举字段建表法【类型】

2026-01-15 08:51

支付宝2026五福活动什么时候开始-2026年集五福开启时间

2026-01-15 08:54

JetBrains发布DPAI Arena，或开启AI编码工具“跑分时代”

2026-01-15 09:03

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

755

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

759

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板