
在数据分析工作中,我们经常需要从庞大的数据集中提取符合特定条件的信息,并对其进行聚合统计。一个常见的场景是,我们需要识别数据中某些关键指标缺失(表示为nan)的记录,并进一步分析这些缺失值在不同维度上的分布情况。例如,在一个包含空间维度、时间维度和数值的数据集中,我们可能需要找出所有数值缺失的记录,然后统计每个空间维度和时间维度组合下有多少这样的记录。pandas库提供了强大而灵活的功能来高效完成此类任务。
为了演示,我们首先需要一个示例数据集。假设我们的数据存储在一个CSV文件中,名为space.csv,其内容如下:
Id,SpatialDimType,SpatialDim,TimeDim,Value,NumericValue,Low,High 32256659,COUNTRY,AND,2022,No data,,, 32256659,COUNTRY,AND,2022,No data,,, 32256659,COUNTRY,AND,2023,No data,,, 32256661,COUNTRY,ATG,2022,No data,,, 32256664,COUNTRY,AUS,2001,No data,,, 32256664,COUNTRY,AUS,2001,No data,,, 32256664,COUNTRY,AUS,2001,No data,,, 32256664,COUNTRY,AUS,2004,No data,,, 32256664,COUNTRY,AUS,2004,No data,,, 32256665,COUNTRY,AUT,2004,No data,,,
请注意,NumericValue列中存在缺失值,在CSV中表现为空白。Pandas在读取时会自动将其识别为NaN。
整个处理流程可以分为两个主要步骤:首先是筛选出NumericValue为NaN的行,然后是根据SpatialDim和TimeDim进行分组并计数。
我们使用pandas.read_csv函数加载数据。接着,利用布尔索引和isna()方法来筛选出NumericValue列中值为NaN的行。
import pandas as pd
import io
# 模拟从CSV文件读取数据
csv_data = """Id,SpatialDimType,SpatialDim,TimeDim,Value,NumericValue,Low,High
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2023,No data,,,
32256661,COUNTRY,ATG,2022,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256665,COUNTRY,AUT,2004,No data,,,
"""
df = pd.read_csv(io.StringIO(csv_data))
# 筛选出NumericValue为NaN的行
df_filtered = df[df['NumericValue'].isna()]
print("筛选出NumericValue为NaN的行:")
print(df_filtered)
print("\n" + "="*50 + "\n")上述代码中,df['NumericValue'].isna()会返回一个布尔Series,其中True表示对应位置的值为NaN,False则不是。将此布尔Series作为索引传递给DataFrame,即可选出所有NumericValue为NaN的行。
在筛选出目标行之后,我们需要根据SpatialDim和TimeDim两列进行分组,并计算每个分组的记录数量。
# 对筛选后的数据按'SpatialDim'和'TimeDim'进行分组,并计算每个组的大小
# .size() 方法返回每个组的行数(即计数)
# .reset_index(name='count') 将分组结果转换为DataFrame,并将计数列命名为'count'
result_df = df_filtered.groupby(
by=['SpatialDim', 'TimeDim']
).size().reset_index(name='count')
print("按SpatialDim和TimeDim分组后的计数结果:")
print(result_df)代码解释:
将上述两个步骤整合,得到完整的解决方案:
import pandas as pd
import io
# 模拟从CSV文件读取数据
csv_data = """Id,SpatialDimType,SpatialDim,TimeDim,Value,NumericValue,Low,High
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2022,No data,,,
32256659,COUNTRY,AND,2023,No data,,,
32256661,COUNTRY,ATG,2022,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2001,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256664,COUNTRY,AUS,2004,No data,,,
32256665,COUNTRY,AUT,2004,No data,,,
"""
# 使用io.StringIO模拟文件读取,实际应用中替换为 pd.read_csv('./space.csv')
df = pd.read_csv(io.StringIO(csv_data))
# 1. 筛选NumericValue为NaN的行
df_filtered = df[df['NumericValue'].isna()]
# 2. 按'SpatialDim'和'TimeDim'分组并计数
# .size() 返回每个组的元素数量
# .reset_index(name='count') 将分组结果的索引重置为列,并将计数列命名为'count'
final_counts = df_filtered.groupby(
by=['SpatialDim', 'TimeDim']
).size().reset_index(name='count')
print(final_counts)输出结果:
SpatialDim TimeDim count 0 AND 2022 2 1 AND 2023 1 2 ATG 2022 1 3 AUS 2001 3 4 AUS 2004 2 5 AUT 2004 1
这个结果清晰地展示了每个SpatialDim和TimeDim组合下,NumericValue为NaN的记录数量。
本文详细阐述了如何利用Pandas库在Python中进行条件数据筛选和多维度分组计数。通过结合isna()进行缺失值过滤和groupby().size().reset_index()进行分组统计,我们能够高效地从复杂数据中提取有价值的聚合信息。掌握这些Pandas核心操作对于数据清洗、探索性数据分析和报告生成至关重要。
以上就是使用Pandas高效筛选缺失值并进行多维度分组计数的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号