Pandas：统计DataFrame字典列中列表首个元素的非缺失值个数

霞舞

发布时间：2025-08-02 15:42:11

218人浏览过

来源于php中文网

原创

pandas：统计dataframe字典列中列表首个元素的非缺失值个数

本文介绍了如何使用 Pandas 统计 DataFrame 中字典列里，嵌套列表（特别是'list_A'）的首个元素（索引为0）的非缺失值（非Null值）的个数。通过示例代码，详细展示了两种实现方法，帮助读者理解并掌握在 Pandas 中处理复杂数据结构的技巧。

方法一：列表推导式与 pd.notna()

此方法利用列表推导式提取每个字典中 'list_A' 的第一个元素，然后使用 pd.notna() 函数判断是否为非缺失值，最后使用 sum() 函数统计 True 的个数。

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# Create a DataFrame with a column named "column_dic"
df = pd.DataFrame({"column_dic": [data]})


df['count_first_item'] = [pd.notna([y['list_A'][0] for y in x]).sum()
                          for x in df['column_dic']]
print(df)

代码解释：

[y['list_A'][0] for y in x]: 这是一个列表推导式，它遍历 df['column_dic'] 中的每个字典 x，然后从每个字典中提取 list_A 列表的第一个元素 y['list_A'][0]。
pd.notna(...): pd.notna() 函数用于检查列表中的每个元素是否为非缺失值（即不是 NaN 或 None）。它返回一个布尔值列表，True 表示非缺失值，False 表示缺失值。
.sum(): 由于 True 在数值上等同于 1，False 等同于 0，所以对布尔值列表求和，即可得到非缺失值的个数。
[... for x in df['column_dic']]: 外层的列表推导式确保我们对 df['column_dic'] 中的每个列表都执行上述操作。

方法二：Series.explode()、Series.str.get() 和 DataFrameGroupBy.count()

此方法首先使用 Series.explode() 将字典列表展开为单独的行，然后使用 Series.str.get() 获取 'list_A' 列表，再使用 str[0] 获取第一个元素，最后使用 DataFrameGroupBy.count() 统计每个分组（原始 DataFrame 的每一行）中非缺失值的个数。

ChartGen

AI快速生成专业数据图表

下载

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# Create a DataFrame with a column named "column_dic"
df = pd.DataFrame({"column_dic": [data]})

df['count_first_item'] = (df['column_dic'].explode().str.get('list_A').str[0]
                                          .groupby(level=0).count())
print(df)

代码解释：

df['column_dic'].explode(): 将 column_dic 列中的列表展开，每个元素变成单独的一行。
.str.get('list_A'): 对于展开后的每一行，使用 str.get('list_A') 获取字典中键为 'list_A' 的值（即列表）。
.str[0]: 获取列表中索引为 0 的元素。
.groupby(level=0): 按照原始 DataFrame 的索引进行分组，level=0 表示按照第一层索引分组。
.count(): 统计每个分组中非缺失值的个数。

总结

这两种方法都能够有效地统计 DataFrame 字典列中列表首个元素的非缺失值个数。第一种方法使用列表推导式，代码简洁易懂，但当数据量较大时，性能可能稍逊。第二种方法使用 Series.explode() 和 DataFrameGroupBy.count()，代码略微复杂，但通常在处理大数据集时效率更高。选择哪种方法取决于具体的数据规模和性能需求。

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

231

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

436

2024.03.01

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2023.11.20

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

534

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

公务员递补名单公布时间公务员递补要求

公务员递补名单公布时间不固定，通常在面试前，由招录单位（如国家知识产权局、海关等）发布，依据是原入围考生放弃资格，会按笔试成绩从高到低递补，递补考生需按公告要求限时确认并提交材料，及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料（确认书、资格复审材料）并准时参加面试。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板