0

0

Python中如何处理缺失值?pandas数据清洗技巧

蓮花仙者

蓮花仙者

发布时间:2025-07-11 12:12:02

|

1103人浏览过

|

来源于php中文网

原创

处理缺失值的方法包括检查、删除、填充和标记。1. 使用isna()或isnull()检查缺失值,通过sum()统计每列缺失数量,或用any().any()判断整体是否存在缺失;2. 采用dropna()删除缺失比例高的行或列,subset参数指定检查范围,inplace=true直接修改原数据;3. 用fillna()填充缺失值,数值型可用均值、中位数,类别型用众数,时间序列可用前后值填充;4. 对于缺失本身含信息的情况,可新增列标记是否缺失,并将缺失作为特征使用,提升模型表现。

Python中如何处理缺失值?pandas数据清洗技巧

处理缺失值是数据分析中非常基础但也非常关键的一步,特别是在使用pandas进行数据清洗时。很多时候,原始数据中都会存在空值、NaN或者无效值,如果不做处理,会影响后续分析甚至导致错误结果。好在pandas提供了很多实用的方法,可以灵活应对这些情况。

Python中如何处理缺失值?pandas数据清洗技巧

1. 检查缺失值

在动手处理之前,首先要知道数据中哪些地方有缺失值。pandas提供了一个非常方便的函数:isna() 或者 isnull(),它可以标记出数据中的缺失值。

Python中如何处理缺失值?pandas数据清洗技巧
import pandas as pd

df = pd.read_csv('data.csv')
print(df.isna().sum())

这段代码会输出每一列中有多少个缺失值,帮助你快速定位问题所在。

立即学习Python免费学习笔记(深入)”;

如果你只想看看整个DataFrame有没有缺失值,可以用:

Python中如何处理缺失值?pandas数据清洗技巧
df.isna().any().any()

这样就能知道是否需要进一步处理了。

2. 删除缺失值

如果某列或某行的缺失值比例非常高,比如超过70%,通常可以选择直接删除这部分数据。pandas中使用dropna()方法来实现这个操作。

df.dropna(subset=['列名'], inplace=True)

上面这行代码的意思是,在指定列中如果有缺失值,就删除对应的整行数据。如果不指定subset参数,默认会检查所有列。

喵记多
喵记多

喵记多 - 自带助理的 AI 笔记

下载
小贴士: 使用inplace=True可以直接修改原数据,而不是返回一个新对象。如果你不确定后果,建议先复制一份数据再操作。

不过要注意,这种方法虽然简单粗暴,但可能会损失大量有效信息,特别是当数据量本身就不大的时候。

3. 填充缺失值

相比直接删除,填充缺失值是一种更温和的做法,常见的方式包括用均值、中位数、众数或者前后值来填充。

  • 数值型数据常用平均值或中位数:
df['列名'].fillna(df['列名'].mean(), inplace=True)
  • 类别型数据更适合用众数(也就是出现次数最多的值):
df['列名'].fillna(df['列名'].mode()[0], inplace=True)
  • 如果是时间序列数据,可以用前一个或后一个非空值来填充:
df['列名'].fillna(method='ffill', inplace=True)  # 前向填充

这些方法可以根据数据类型和上下文灵活选择,有时候也可以组合使用。

4. 标记缺失值

有些时候,缺失本身也是一种信息。比如在用户填写问卷时,某些字段没填,可能意味着用户对该项不感兴趣或不了解。

这时候可以在填充的同时新增一列,用来标记该字段是否曾经缺失:

df['列名缺失'] = df['列名'].isna().astype(int)
df['列名'].fillna(0, inplace=True)

这样不仅保留了原始数据结构,还把“缺失”作为一个特征加入了模型训练中,有时反而能提升模型表现。


基本上就这些。处理缺失值看起来不复杂,但在实际项目中很容易被忽略细节,比如填充方式不合适、误删重要数据等。只要根据具体场景灵活选用合适的方法,就可以避免这些问题。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

755

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

636

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

759

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.7万人学习

Django 教程
Django 教程

共28课时 | 3.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号