比较Pandas DataFrame中含NaN浮点数列的差异计数

聖光之護

发布时间：2025-10-09 11:32:01

750人浏览过

来源于php中文网

原创

比较Pandas DataFrame中含NaN浮点数列的差异计数

本文旨在解决Pandas DataFrame中浮点数列比较时遇到的精度问题和NaN值处理难题。通过结合使用DataFrame.round()方法处理浮点数精度，并利用DataFrame.compare()方法高效识别并统计两列之间的差异行数，特别是当NaN值不应被视为差异时，提供了一种清晰且专业的解决方案。

浮点数比较与NaN值的挑战

在数据分析中，我们经常需要比较两个dataframe中特定列的值。当这些列包含浮点数时，直接使用==进行比较往往会因为浮点数的精度问题而导致不准确的结果。例如，0.1 + 0.2可能不严格等于0.3。此外，如果列中包含nan（not a number）值，默认情况下nan == nan的结果是false，这意味着两个dataframe中相同位置的nan值会被错误地计为差异，而这通常不是我们期望的行为。我们的目标是准确地找出那些数值上真正不同的行，同时忽略相同位置的nan值。

解决方案概述

为了克服这些挑战，我们将采用两步策略：

处理浮点数精度： 在比较之前，对浮点数列进行适当的四舍五入，以消除微小的精度差异。
高效比较与NaN处理： 使用Pandas提供的DataFrame.compare()方法来比较两个DataFrame，该方法能够智能地处理NaN值，默认情况下不会将相同位置的NaN视为差异。

处理浮点数精度

浮点数在计算机内部的表示方式决定了它们可能无法精确表示所有十进制小数。因此，即使逻辑上相等的两个浮点数，在直接比较时也可能被判定为不相等。解决这个问题最简单有效的方法是对浮点数进行四舍五入到相同的有效小数位数。

import pandas as pd

# 示例数据
d1 = {"col": [7.1, 2.0, 3.0, 4.0, None, 1.9, 1.3]}
d2 = {"col": [7.1, 2.5, 3.0, 4.0, None, 1.2, None]}

df1 = pd.DataFrame(d1)
df2 = pd.DataFrame(d2)

print("原始DataFrame 1:")
print(df1)
print("\n原始DataFrame 2:")
print(df2)

# 对浮点数列进行四舍五入，例如保留4位小数
df1["col"] = df1["col"].round(4)
df2["col"] = df2["col"].round(4)

print("\n四舍五入后的DataFrame 1:")
print(df1)
print("\n四舍五入后的DataFrame 2:")
print(df2)

通过round(decimal_places)方法，我们可以将浮点数调整到所需的精度。选择合适的精度至关重要，它应根据数据的特性和业务需求来确定。

使用DataFrame.compare()进行比较

pandas.DataFrame.compare()方法是比较两个DataFrame的强大工具。它返回一个DataFrame，其中只包含两个原始DataFrame中不同的行和列。更重要的是，它默认处理NaN值的方式正是我们所期望的：如果两个DataFrame在相同位置都包含NaN，compare()不会将其视为差异并包含在结果中。只有当一个位置的值在两个DataFrame中都存在且不相等，或者一个存在而另一个是NaN时，它才会被报告为差异。

晓语台

晓语台，是一款AI文本创作产品。创作能力主要围绕营销文本的AI创作，晓语台覆盖了品牌与市调、商业媒体、社交媒体、搜索营销、数字广告、职场办公共六类全营销文本

下载

# 使用 compare 方法找出差异
# 默认情况下，compare 会在两个值都为 NaN 时不报告差异
comparison = df1.compare(df2)

print("\n差异比较结果:")
print(comparison)

# 统计差异的行数
# comparison DataFrame 的每一行代表一个差异的行
different_rows_count = len(comparison)
print(f"\n不同的行数: {different_rows_count}")

输出示例:

   col      
  self other
1  2.0   2.5
5  1.9   1.2
6  1.3   NaN
不同的行数: 3

从输出结果可以看出：

第1行（索引为1）df1['col']为2.0，df2['col']为2.5，两者不同，被报告。
第5行（索引为5）df1['col']为1.9，df2['col']为1.2，两者不同，被报告。
第6行（索引为6）df1['col']为1.3，df2['col']为NaN，两者不同，被报告。
第4行（索引为4）df1['col']为NaN，df2['col']为NaN，两者相同，未被报告为差异，这正是我们期望的行为。

注意事项与总结

精度选择： round()方法中的小数位数应根据实际业务场景和数据特性仔细选择。过高的精度可能无法解决浮点数问题，过低的精度可能丢失有效信息。
compare()的灵活性： compare()方法还有其他参数，如align_axis和keep_equal，可以根据更复杂的比较需求进行调整。但对于本教程中的场景，默认行为已足够。
NaN处理： compare()方法在处理NaN值时表现出良好的行为，它将相同位置的NaN视为“无差异”，这避免了手动处理NaN的复杂性。如果需要将NaN与非NaN的比较也视为“无差异”，则需要更复杂的逻辑，例如先填充NaN。
性能考量： 对于非常大的DataFrame，compare()方法通常是高效的，因为它利用了Pandas底层的优化。

通过结合使用DataFrame.round()来标准化浮点数精度和DataFrame.compare()来智能地识别差异（包括对NaN值的正确处理），我们可以有效地解决DataFrame中浮点数列的比较难题，从而得到准确的差异行计数。这种方法既专业又易于实施，是处理此类数据比较任务的推荐实践。

Python构建智能客服知识库的语义匹配模型实现步骤【指导】

Python自动化生成可视化KPI指标的脚本与配置方法【指导】

Python如何做文本关键词提取_TF-IDF与TextRank实战【教学】

Python自动化生成企业可视化数据看板的脚本流程说明【指导】

Python为什么能扩展

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

447

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

257

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

716

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

498

2024.03.13

Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用，系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法，并结合数据可视化、销售分析、科研数据处理等实战案例，帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

2025.09.08

Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用，系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例（如销售数据分析、用户行为可视化、趋势图与热力图绘制），帮助学习者掌握从原始数据到可视化报告的完整分析能力。

2025.10.14