
本文详细介绍了如何在polars中实现复杂的条件排序,以优化机器学习模型评估和错误分析流程。通过结合多个排序表达式,可以高效地将模型预测结果(如高置信度错误、低置信度正确)按照特定优先级进行排列,从而帮助用户快速识别并分析模型需要改进的区域,避免了传统的分组、排序和合并操作,提高了数据处理的优雅性和效率。
在机器学习模型的开发和评估过程中,除了整体性能指标外,深入分析模型的错误类型和置信度至关重要。特别是在二分类问题中,我们常常需要优先审查那些模型预测错误但置信度较高的样本,以及预测正确但置信度较低的样本。这种有针对性的审查有助于发现模型在特定场景下的弱点,指导后续的数据增强或模型改进。然而,在数据处理框架中实现这种复杂的条件排序,往往比简单的升序或降序排序更具挑战性。本文将以Polars为例,演示如何优雅地实现这种多条件、多优先级的排序逻辑。
假设我们有一个包含模型预测结果的Polars DataFrame,其中包含样本名称、真实标签、模型预测、预测置信度以及一个表示预测是否正确的辅助列。我们的目标是按照以下优先级对数据进行排序:
以下是用于演示的示例数据:
import polars as pl
df = pl.DataFrame({
"name": ["Alice", "Bob", "Caroline", "Dutch", "Emily", "Frank", "Gerald", "Henry", "Isabelle", "Jack"],
"truth": [1, 0, 1, 0, 1, 0, 0, 1, 1, 0],
"prediction": [1, 1, 1, 0, 0, 1, 0, 1, 1, 0],
"confidence": [0.343474, 0.298461, 0.420634, 0.125515, 0.772971, 0.646964, 0.833705, 0.837181, 0.790773, 0.144983]
}).with_columns(
(pl.col("truth") == pl.col("prediction")).alias("correct_prediction")
)
print(df)输出的DataFrame如下:
shape: (10, 5) ┌──────────┬───────┬────────────┬────────────┬────────────────────┐ │ name ┆ truth ┆ prediction ┆ confidence ┆ correct_prediction │ │ --- ┆ --- ┆ --- ┆ --- ┆ --- │ │ str ┆ i64 ┆ i64 ┆ f64 ┆ bool │ ╞══════════╪═══════╪════════════╪════════════╪════════════════════╡ │ Alice ┆ 1 ┆ 1 ┆ 0.343474 ┆ true │ │ Bob ┆ 0 ┆ 1 ┆ 0.298461 ┆ false │ │ Caroline ┆ 1 ┆ 1 ┆ 0.420634 ┆ true │ │ Dutch ┆ 0 ┆ 0 ┆ 0.125515 ┆ true │ │ Emily ┆ 1 ┆ 0 ┆ 0.772971 ┆ false │ │ Frank ┆ 0 ┆ 1 ┆ 0.646964 ┆ false │ │ Gerald ┆ 0 ┆ 0 ┆ 0.833705 ┆ true │ │ Henry ┆ 1 ┆ 1 ┆ 0.837181 ┆ true │ │ Isabelle ┆ 1 ┆ 1 ┆ 0.790773 ┆ true │ │ Jack ┆ 0 ┆ 0 ┆ 0.144983 ┆ true │ └──────────┴───────┴────────────┴────────────┴────────────────────┘
Polars的DataFrame.sort()方法接受一个表达式列表,这使得实现复杂的条件排序变得非常灵活。其核心思想是:排序会按照表达式列表中元素的顺序依次进行。当第一个表达式的值相同时,会使用第二个表达式进行排序,以此类推。
为了实现上述复杂的排序逻辑,我们将构造三个排序表达式:
将这三个表达式组合起来,即可实现所需的复杂条件排序。
sorted_df = df.sort([
pl.col('correct_prediction'),
(pl.col('correct_prediction') - 1) * pl.col('confidence'),
pl.col('confidence')
])
print(sorted_df)执行上述代码后,我们将得到如下排序结果:
shape: (10, 5) ┌──────────┬───────┬────────────┬────────────┬────────────────────┐ │ name ┆ truth ┆ prediction ┆ confidence ┆ correct_prediction │ │ --- ┆ --- ┆ --- ┆ --- ┆ --- │ │ str ┆ i64 ┆ i64 ┆ f64 ┆ bool │ ╞══════════╪═══════╪════════════╪════════════╪════════════════════╡ │ Emily ┆ 1 ┆ 0 ┆ 0.772971 ┆ false │ │ Frank ┆ 0 ┆ 1 ┆ 0.646964 ┆ false │ │ Bob ┆ 0 ┆ 1 ┆ 0.298461 ┆ false │ │ Dutch ┆ 0 ┆ 0 ┆ 0.125515 ┆ true │ │ Jack ┆ 0 ┆ 0 ┆ 0.144983 ┆ true │ │ Alice ┆ 1 ┆ 1 ┆ 0.343474 ┆ true │ │ Caroline ┆ 1 ┆ 1 ┆ 0.420634 ┆ true │ │ Isabelle ┆ 1 ┆ 1 ┆ 0.790773 ┆ true │ │ Gerald ┆ 0 ┆ 0 ┆ 0.833705 ┆ true │ │ Henry ┆ 1 ┆ 1 ┆ 0.837181 ┆ true │ └──────────┴───────┴────────────┴────────────┴────────────────────┘
从结果可以看出:
通过掌握Polars的这种高级排序技巧,数据科学家和工程师可以更有效地组织和分析数据,从而更快地从模型结果中获取洞察,并加速模型迭代过程。
以上就是使用Polars进行复杂条件排序:优化模型错误分析流程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号