Pandas DataFrame 使用 dropna 导致数据集为空的解决方案

DDD

发布时间：2025-07-14 17:38:27

586人浏览过

来源于php中文网

原创

pandas dataframe 使用 dropna 导致数据集为空的解决方案

在数据分析和机器学习项目中，处理缺失值是至关重要的一步。Pandas 提供了 dropna() 方法来删除包含缺失值的行或列。然而，不当使用 dropna() 可能会导致整个数据集被清空，进而引发后续分析错误。本文将深入探讨 dropna() 导致数据集为空的原因，并提供一系列解决方案，帮助你有效地处理缺失值，避免数据丢失。

当使用 dropna() 后出现数据集为空的 ValueError: Found array with 0 sample(s) 错误，通常意味着 dropna() 移除了所有行。这通常发生在以下两种情况：

DataFrame 中所有行都包含缺失值： 默认情况下，dropna() 会删除包含任何缺失值的行。如果你的 DataFrame 中每一行都至少包含一个 NaN 值，那么 dropna() 就会删除所有行。
存在整列都是缺失值的情况： 默认的 dropna() 会删除包含任何缺失值的行，即使只有一列完全为空。

解决方案

以下是一些解决 dropna() 导致数据集为空问题的策略：

1. 检查缺失值情况

首先，需要详细了解 DataFrame 中缺失值的分布情况。使用 info() 方法可以快速查看每列的非空值数量和数据类型。

import pandas as pd

# 假设 historical_data 是你的 DataFrame
print(historical_data.info())

通过 info() 的输出，你可以确定哪些列包含大量的缺失值，甚至整列都是 NaN 值。

2. 选择性删除列

如果某些列包含大量缺失值，并且对后续分析影响不大，可以考虑直接删除这些列。

historical_data = historical_data.drop(columns=["foo", "bar"]) # foo 和 bar 是要删除的列名

注意： 在删除列之前，请务必仔细评估其对模型性能的影响。

3. 选择性删除行

如果只有少量行包含缺失值，并且删除这些行不会显著减少数据集的大小，可以使用 dropna() 删除这些行。

historical_data = historical_data.dropna()

然而，在你的场景中，直接使用 dropna() 导致数据集为空。因此，需要更精细地控制 dropna() 的行为。

新快购物系统

新快购物系统是集合目前网络所有购物系统为参考而开发，不管从速度还是安全我们都努力做到最好，此版虽为免费版但是功能齐全，无任何错误，特点有：专业的、全面的电子商务解决方案，使您可以轻松实现网上销售；自助式开放性的数据平台，为您提供充满个性化的设计空间；功能全面、操作简单的远程管理系统，让您在家中也可实现正常销售管理；严谨实用的全新商品数据库，便于查询搜索您的商品。

下载

4. 使用 subset 参数

dropna() 方法提供了 subset 参数，允许你指定只在某些列中查找缺失值。例如，如果你只想删除 'Close' 列中包含 NaN 值的行，可以这样做：

historical_data = historical_data.dropna(subset=['Close'])

5. 使用 thresh 参数

dropna() 方法提供了 thresh 参数，允许你指定一行中至少需要多少个非缺失值才会被保留。例如，如果你想保留至少包含 10 个非缺失值的行，可以这样做：

historical_data = historical_data.dropna(thresh=10)

6. 缺失值填充 (Imputation)

除了删除包含缺失值的行或列，还可以使用缺失值填充的方法。Pandas 提供了 fillna() 方法，Scikit-learn 提供了多种 Imputer 类，可以根据不同的策略填充缺失值。

a. 使用 fillna()

fillna() 方法允许你使用指定的值、均值、中位数等填充缺失值。

# 使用 0 填充 'column_with_nan' 列的缺失值
historical_data['column_with_nan'] = historical_data['column_with_nan'].fillna(value=0)

# 使用均值填充 'column_with_nan' 列的缺失值
historical_data['column_with_nan'] = historical_data['column_with_nan'].fillna(historical_data['column_with_nan'].mean())

b. 使用 Scikit-learn 的 Imputer

Scikit-learn 提供了多种 Imputer 类，例如 SimpleImputer，可以根据不同的策略填充缺失值。

from sklearn.impute import SimpleImputer
import numpy as np

# 使用均值填充缺失值
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
historical_data['column_with_nan'] = imputer.fit_transform(historical_data[['column_with_nan']])

7. 先删除列，后填充

如果存在整列都是缺失值的情况，可以先删除该列，然后对剩余的缺失值进行填充。

historical_data = historical_data.drop(columns=['column_with_all_nan']) # 删除整列都是 NaN 值的列
historical_data = historical_data.fillna(0) # 使用 0 填充剩余的缺失值

示例代码

以下是一个完整的示例，展示了如何结合使用 info()、drop() 和 fillna() 来处理包含缺失值的 DataFrame。

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# 创建一个包含缺失值的 DataFrame (模拟你的 historical_data)
data = {'Close': [10, 12, np.nan, 15, 18, np.nan],
        'Open': [9, 11, 13, 14, 17, 19],
        'High': [11, 13, 14, 16, 19, 20],
        'Low': [8, 10, 12, 13, 16, 18],
        'Volume': [100, 120, np.nan, 150, 180, 200],
        'All_NaN': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]}
historical_data = pd.DataFrame(data)

# 1. 查看缺失值情况
print("原始数据信息:")
print(historical_data.info())

# 2. 删除整列都是 NaN 值的列
historical_data = historical_data.drop(columns=['All_NaN'], errors='ignore') # errors='ignore' 防止列不存在时报错

# 3. 使用均值填充 'Volume' 列的缺失值
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
historical_data['Volume'] = imputer.fit_transform(historical_data[['Volume']])

# 4. 删除剩余的包含 NaN 值的行 (只在 'Close' 列中查找)
historical_data = historical_data.dropna(subset=['Close'])

# 5. 创建 'Next_Close' 列
historical_data = historical_data.assign(Next_Close=historical_data['Close'].shift(-1))
historical_data = historical_data.dropna()

# 6. 分割数据
training_size = int(len(historical_data) * 0.6)
train = historical_data.iloc[:training_size]
test = historical_data.iloc[training_size:]

features = ['Close', 'Open', 'High', 'Low', 'Volume']
X_train = train[features]
X_test = test[features]

y_train = train['Next_Close']
y_test = test['Next_Close']

# 7. 缩放特征
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n处理后的数据信息:")
print(historical_data.info())

print("\nX_train_scaled:")
print(X_train_scaled)

总结

dropna() 是一个强大的工具，但需要谨慎使用。在处理缺失值时，应该首先了解缺失值的分布情况，然后根据具体情况选择合适的策略。可以结合使用 info()、drop()、fillna() 和 Scikit-learn 的 Imputer，以避免数据丢失，并确保后续分析的准确性。记住，数据预处理是数据分析和机器学习流程中至关重要的一步，需要认真对待。

Python 异常链（exception chaining）是如何工作的？

Python 性能优化应该从哪里入手？

Python 函数注解能解决什么问题？

Python 文件缓冲区是如何工作的？

Python 自定义异常类的最佳实践