使用Pandas高效统计DataFrame每列唯一值并转换为字典-Python教程-PHP中文网

使用Pandas高效统计DataFrame每列唯一值并转换为字典

心靈之曲

发布： 2025-10-27 08:06:11

原创

1018人浏览过

使用Pandas高效统计DataFrame每列唯一值并转换为字典

本教程旨在介绍如何利用pandas库高效地统计dataframe中每一列的唯一值及其出现次数，并将结果转换为一个嵌套字典，其中外层键为列名，内层键为唯一值，内层值为其计数。文章将提供一种简洁、无需显式循环的解决方案，避免了常见方法中可能引入`nan`值的缺陷。

引言：统计DataFrame列唯一值的需求

在数据分析和处理过程中，我们经常需要了解DataFrame中各列数据的分布情况，特别是统计每列中每个唯一值出现的频率。例如，对于一个包含多个类别或数值列的数据集，我们可能需要一个结构化的输出，能够清晰地展示每列的独特元素及其对应的计数。理想的输出形式是一个字典，其键是DataFrame的列名，值是另一个字典，该字典将列中的每个唯一元素映射到它的出现次数。

考虑以下示例DataFrame：

import pandas as pd

data = {'Col1': [1, 2, 2, 3, 1],
        'Col2': ['A', 'B', 'B', 'A', 'C']}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

登录后复制

我们期望得到的目标输出格式如下：

{'Col1': {1: 2, 2: 2, 3: 1},
 'Col2': {'A': 2, 'B': 2, 'C': 1}}

登录后复制

此任务的挑战在于，如何在不使用显式循环 (for循环)、apply或agg等方法的前提下，实现高效且简洁的转换。

常见尝试与遇到的问题

一些用户可能会尝试使用stack()、groupby()和unstack()的组合来解决此问题，例如：

# 尝试方法 (存在缺陷)
# count_matrix = df.stack().groupby(level=1).value_counts()
# count_matrix = count_matrix.unstack(0)
# count_matrix = count_matrix.to_dict()

登录后复制

这种方法虽然能进行计数，但在unstack()操作时，如果某些值在某些列中不存在，Pandas会用NaN值填充缺失的空白，这会导致最终的字典结构不符合预期，并且可能需要额外的清理步骤。因此，我们需要一种更直接、更“Pandas-idiomatic”的解决方案。

高效且简洁的解决方案

Pandas提供了一个非常方便的Series方法value_counts()，它可以直接统计Series中每个唯一值的出现次数，并返回一个新的Series，其索引是唯一值，值是对应的计数。结合Python的字典推导式（dictionary comprehension），我们可以以极高的效率和简洁性实现目标。

核心思想是：

CodeBuddy

腾讯云AI代码助手

805

查看详情

遍历DataFrame的每一列。
对于每一列（即一个Pandas Series），调用value_counts()方法获取其唯一值计数。
将value_counts()返回的Series进一步转换为字典 (.to_dict())。
使用字典推导式将这些结果组合成最终的嵌套字典。

以下是实现此功能的代码：

import pandas as pd

# 示例DataFrame
data = {'Col1': [1, 2, 2, 3, 1],
        'Col2': ['A', 'B', 'B', 'A', 'C']}
df = pd.DataFrame(data)

# 高效解决方案
result_dict = {col: df[col].value_counts().to_dict() for col in df}

print("\n生成的字典结果:")
print(result_dict)

登录后复制

代码解析：

for col in df: 这部分遍历了DataFrame df 的所有列名。
df[col]: 在每次迭代中，这会选择当前列 col 作为一个Pandas Series。
df[col].value_counts(): 对选定的Series调用value_counts()方法。例如，对于Col1，它会返回一个Series，内容为：
```
1    2
2    2
3    1
Name: Col1, dtype: int64
```
登录后复制
.to_dict(): 将value_counts()返回的Series转换为一个字典。例如，上述Series会变成{1: 2, 2: 2, 3: 1}。
{col: ...}: 字典推导式将列名 col 作为外层字典的键，将转换后的计数字典作为其对应的值。

运行结果

执行上述代码后，将得到以下输出：

{'Col1': {1: 2, 2: 2, 3: 1}, 'Col2': {'A': 2, 'B': 2, 'C': 1}}

登录后复制

这正是我们所期望的输出格式，完美地满足了需求。

总结与注意事项

这种方法充分利用了Pandas Series的value_counts()方法的强大功能，结合Python简洁的字典推导式，提供了一个高效、可读性强且避免了额外NaN值处理的解决方案。

主要优势：

高效性： value_counts()在底层是高度优化的C语言实现，对于大型数据集也能保持良好的性能。
简洁性： 一行代码即可完成复杂的转换逻辑。
Pandas-idiomatic： 符合Pandas库的设计哲学，易于理解和维护。
无副作用： 不会引入NaN值或其他不必要的中间数据结构。

在处理需要对DataFrame各列进行独立统计并聚合结果的场景时，这种模式是非常推荐的。它不仅适用于计数，也可以根据实际需求替换value_counts()为其他Series操作，以实现更多样化的列级统计与转换。

以上就是使用Pandas高效统计DataFrame每列唯一值并转换为字典的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

Python二进制文件怎么读写_bytes与bytearray讲解【教学】 Python变量命名规范如何做_可读性与风格讲解【指导】 Python使用统计检验处理业务数据异常的常见方法解析【指导】 Python编写多任务数据处理管线的完整工程化方案【教程】 Python脚本如何实现批量视频处理与自动转码方案【技巧】