
本文深入探讨如何利用pandas库对数据进行标签标准化。针对每个唯一id,教程将指导您如何识别并应用出现频率最高的标签作为标准,并在出现平局时优雅地回退到第一个观察值。文章详细介绍了基于`groupby().transform()`、`groupby().apply().map()`以及结合`value_counts()`的高效实现方法,旨在帮助数据分析师和工程师提升数据清洗效率和准确性。
在数据处理和分析中,我们经常会遇到同一实体在不同记录中具有多种表达形式的情况,例如“LA Metro”和“Los Angeles Metro”。为了保持数据的一致性和准确性,我们需要将这些变体标准化为一个统一的标签。本教程将详细介绍如何使用Pandas库高效地实现这一目标,具体策略是:对于每个ID,选择出现频率最高的标签作为其标准标签;如果存在多个标签出现频率相同(即平局),则选择该ID下的第一个观察值作为标准。
实现标签标准化的关键在于准确识别每个ID对应的标准标签。根据需求,我们需要找到每个ID下出现次数最多的标签。如果存在多个标签出现次数相同,则应选取该ID的第一个原始观察值。
Pandas的Series.mode()方法是解决此问题的理想工具。mode()方法会返回Series中出现频率最高的值。如果存在多个众数(即多个值具有相同的最高频率),mode()会按它们在Series中出现的顺序返回这些值。因此,mode()[0]将始终返回第一个众数,这完美符合我们“平局时取第一个观察值”的需求。
groupby().transform()方法非常适合这种场景,因为它可以在分组操作后返回一个与原始DataFrame具有相同索引的Series,从而可以直接赋值给新列。
import pandas as pd
def standardize_labels_transform(df: pd.DataFrame, id_col: str, label_col: str) -> pd.DataFrame:
"""
根据每个ID下最常见的标签(平局时取第一个观察值)标准化标签。
Args:
df (pd.DataFrame): 原始DataFrame。
id_col (str): 包含ID的列名。
label_col (str): 包含原始标签的列名。
Returns:
pd.DataFrame: 包含'standardized_label'新列的DataFrame。
"""
df['standardized_label'] = df.groupby(id_col)[label_col].transform(lambda x: x.mode()[0])
return df
# 示例数据
data = {
'ID': [222, 222, 222, 222, 222, 333, 333, 333, 444, 444],
'raw_label': ['LA Metro', 'LA Metro', 'Los Angeles Metro', 'LA Metro', 'Los Angeles Metro',
'Apple', 'Apple Inc.', 'Apple', 'Google', 'Alphabet']
}
df_example = pd.DataFrame(data)
print("原始DataFrame:")
print(df_example)
df_standardized = standardize_labels_transform(df_example.copy(), 'ID', 'raw_label')
print("\n使用 transform 标准化后的DataFrame:")
print(df_standardized)代码解析:
另一种常见的方法是使用groupby().apply()来计算每个组的标准标签,然后使用map()将这些标准标签映射回原始DataFrame。
import pandas as pd
def standardize_labels_apply_map(df: pd.DataFrame, id_col: str, label_col: str) -> pd.DataFrame:
"""
根据每个ID下最常见的标签(平局时取第一个观察值)标准化标签。
使用 groupby().apply() 和 map() 实现。
Args:
df (pd.DataFrame): 原始DataFrame。
id_col (str): 包含ID的列名。
label_col (str): 包含原始标签的列名。
Returns:
pd.DataFrame: 包含'standardized_label'新列的DataFrame。
"""
# 找到每个ID的标准标签
common_labels = df.groupby(id_col)[label_col].apply(lambda x: x.mode()[0])
# 将标准标签映射回原始DataFrame
df['standardized_label'] = df[id_col].map(common_labels)
return df
df_standardized_apply = standardize_labels_apply_map(df_example.copy(), 'ID', 'raw_label')
print("\n使用 apply 和 map 标准化后的DataFrame:")
print(df_standardized_apply)代码解析:
对于非常大的数据集或对性能有更高要求的场景,可以直接利用value_counts()的特性进行优化。这种方法避免了对每个分组单独调用mode(),而是通过一次性计算所有ID-标签组合的频率,然后进行筛选。
import pandas as pd
def standardize_labels_value_counts(df: pd.DataFrame, id_col: str, label_col: str) -> pd.DataFrame:
"""
根据每个ID下最常见的标签(平局时取第一个观察值)标准化标签。
使用 value_counts() 进行优化。
Args:
df (pd.DataFrame): 原始DataFrame。
id_col (str): 包含ID的列名。
label_col (str): 包含原始标签的列名。
Returns:
pd.DataFrame: 包含'standardized_label'新列的DataFrame。
"""
# 1. 计算每个 (ID, 标签) 组合的频率
# 默认按频率降序排列,ID和标签作为多级索引
labels_counts = df.value_counts([id_col, label_col])
# 2. 筛选出每个ID的第一个(即最常见)标签
# droplevel(label_col) 将索引降级,只保留 id_col
# ~labels_counts.droplevel(label_col).index.duplicated()
# 找到每个ID的第一次出现,因为 value_counts 已经按频率排序,
# 所以每个ID的第一次出现就是其最常见的标签(或平局中的第一个)
dup_idx_msk = ~labels_counts.droplevel(label_col).index.duplicated()
common_labels_series = labels_counts[dup_idx_msk]
# 3. 将结果转换为 ID -> 标签 的映射 Series
# reset_index(level=1) 将 label_col 从索引移回列
# 然后选择 label_col 列,此时索引是 id_col
common_labels_map = common_labels_series.reset_index(level=1)[label_col]
# 4. 映射回原始DataFrame
df['standardized_label'] = df[id_col].map(common_labels_map)
return df
df_standardized_vc = standardize_labels_value_counts(df_example.copy(), 'ID', 'raw_label')
print("\n使用 value_counts() 标准化后的DataFrame:")
print(df_standardized_vc)代码解析:
通过本教程,您应该掌握了使用Pandas对数据进行按ID标签标准化的多种高效策略。选择哪种方法取决于您的具体需求、数据集大小以及对代码可读性和性能的偏好。在实际应用中,建议从最简洁的transform方法开始,如果遇到性能瓶颈或需要更复杂的逻辑,再考虑apply或基于value_counts的优化方案。
以上就是Pandas数据清洗:高效实现按ID标签标准化策略的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号