处理包含非数值数据的 CSV 文件中的数值列-Python教程-PHP中文网

处理包含非数值数据的 CSV 文件中的数值列

碧海醫心

发布： 2025-10-26 09:07:01

原创

929人浏览过

处理包含非数值数据的 csv 文件中的数值列

本文旨在解决 Pandas 读取 CSV 文件时，由于数值列中存在少量非数值数据导致整列被识别为字符串类型的问题。我们将介绍如何利用 `pd.to_numeric` 函数强制转换数据类型，并将无法转换为数值的数据设置为 `NaN`，从而确保数值列的正确处理和分析。

在使用 Pandas 处理 CSV 文件时，经常会遇到一些列的数据类型与预期不符的情况。例如，某一列本应是数值类型，但由于其中混入了少量的非数值数据（如字符串），导致 Pandas 将整列识别为 object 类型（Pandas 中表示字符串的类型）。这会给后续的数值计算和分析带来麻烦。

以下介绍如何解决这个问题，确保 Pandas 能正确识别和处理数值列。

问题分析

当 Pandas 在读取 CSV 文件时，会根据每一列的数据自动推断其数据类型。如果某一列中既包含数值，又包含非数值数据，Pandas 通常会将其识别为 object 类型，因为它无法确定一个统一的数值类型来表示该列的所有数据。

解决方案：使用 pd.to_numeric 函数

pd.to_numeric 函数是 Pandas 中专门用于将数据转换为数值类型的函数。它的一个重要参数是 errors，可以控制在转换过程中遇到无法转换的数据时的处理方式。

errors='raise' (默认值): 如果遇到无法转换的数据，会抛出异常。
errors='coerce' : 如果遇到无法转换的数据，将其设置为 NaN (Not a Number)。
errors='ignore' : 如果遇到无法转换的数据，保持原样。

在本例中，我们应该使用 errors='coerce'，将无法转换为数值的数据设置为 NaN。

示例代码

假设我们有一个名为 data.csv 的文件，其中包含以下数据：

即构数智人

即构数智人是由即构科技推出的AI虚拟数字人视频创作平台，支持数字人形象定制、短视频创作、数字人直播等。

查看详情

name,salary
Tom,50000
Anna,foo
Mike,60000

登录后复制

salary 列应该是一个数值列，但是由于 "Anna" 的薪水是 "foo" (字符串)，导致 Pandas 可能会将 salary 列识别为 object 类型。

以下代码演示了如何使用 pd.to_numeric 函数来解决这个问题：

import pandas as pd
import numpy as np

# 读取 CSV 文件
df = pd.read_csv("data.csv")

# 打印原始数据类型
print("原始数据类型：")
print(df.dtypes)

# 将 salary 列转换为数值类型，并将无法转换的数据设置为 NaN
df['salary'] = pd.to_numeric(df['salary'], errors='coerce')

# 打印转换后的数据类型
print("\n转换后的数据类型：")
print(df.dtypes)

# 打印处理后的 DataFrame
print("\n处理后的 DataFrame：")
print(df)

登录后复制

代码解释

import pandas as pd: 导入 Pandas 库。
import numpy as np: 导入 NumPy 库，因为 NaN 是 NumPy 中的一个特殊值。
df = pd.read_csv("data.csv"): 使用 pd.read_csv 函数读取 CSV 文件，并将其存储到 DataFrame df 中。
print(df.dtypes): 打印 DataFrame 中每一列的数据类型，以便我们了解哪些列需要进行类型转换。
df['salary'] = pd.to_numeric(df['salary'], errors='coerce'): 这是关键的一步。
- df['salary']：选择 salary 列。
- pd.to_numeric(df['salary'], errors='coerce')：将 salary 列中的数据转换为数值类型。errors='coerce' 表示如果遇到无法转换的数据，将其设置为 NaN。
- df['salary'] = ...：将转换后的数据重新赋值给 salary 列。
print(df.dtypes): 再次打印 DataFrame 中每一列的数据类型，以确认 salary 列是否已成功转换为数值类型。
print(df): 打印处理后的 DataFrame，可以看到 "Anna" 的薪水已经变成了 NaN。

输出结果

原始数据类型：
name      object
salary    object
dtype: object

转换后的数据类型：
name       object
salary    float64
dtype: object

处理后的 DataFrame：
   name   salary
0   Tom  50000.0
1  Anna      NaN
2  Mike  60000.0

登录后复制

可以看到，salary 列的数据类型已经成功转换为 float64，并且 "Anna" 的薪水变成了 NaN。

注意事项