0

0

PyArrow Decimal128 精度管理:避免数据损失的舍入策略

花韻仙語

花韻仙語

发布时间:2025-11-25 14:15:20

|

244人浏览过

|

来源于php中文网

原创

PyArrow Decimal128 精度管理:避免数据损失的舍入策略

本文深入探讨了在pandas与pyarrow `decimal128`类型操作中遇到的精度管理挑战。当执行涉及`decimal128`类型的计算时,pyarrow会自动扩展精度,导致直接类型转换可能引发数据损失异常。文章详细解释了这一机制,并提供了一种通过在类型转换前进行显式舍入来有效解决数据损失问题的方法,确保金融计算结果的准确性和一致性。

引言:PyArrow decimal128 类型在金融计算中的应用

在处理金融数据时,浮点数(float)由于其固有的精度限制,常常导致计算结果不准确,尤其是在涉及货金额的乘法和除法运算中。为了解决这一问题,Python标准库提供了decimal.Decimal类型,而PyArrow则引入了decimal128数据类型,与Pandas的ArrowDtype结合使用,为大规模数据集的精确十进制运算提供了高效且可靠的解决方案。decimal128类型允许用户定义数据的总位数(precision)和小数点后的位数(scale),例如decimal128(12, 2)表示总共12位数字,其中2位在小数点之后。

理解精度扩展与数据损失问题

在使用PyArrow decimal128类型进行数值运算时,一个常见的挑战是PyArrow在内部处理精度的方式。当两个decimal128类型(或一个decimal128与一个decimal.Decimal)进行乘法等运算时,为了保留计算的中间结果,PyArrow会自动扩展结果的精度和刻度。

例如,一个decimal128(12, 2)类型的数据乘以decimal.Decimal('0.04')(可以被视为具有隐式更高精度的十进制数),结果可能会自动提升为decimal128(15, 4)或其他更高的精度。这种行为旨在防止中间计算过程中的精度损失。

然而,当尝试将这种高精度结果直接强制转换回原始的低精度类型(例如,从decimal128(15, 4)转换回decimal128(12, 2))时,如果转换过程中存在小数位被截断的风险,PyArrow会抛出pyarrow.lib.ArrowInvalid: Rescaling Decimal128 value would cause data loss异常。这是因为PyArrow默认采用严格的类型转换策略,不会在没有明确指示的情况下进行舍入,以避免潜在的意外数据损失。用户明确的意图是舍入并截断,但PyArrow需要用户显式地表达这一意图。

此外,如果将decimal128类型与标准Python浮点数进行运算(例如df['Pay Rate'] * 0.04),结果可能会意外地转换为double[pyarrow]类型,这会丧失decimal128带来的精度优势。因此,在涉及decimal128的运算中,应尽量保持所有操作数的十进制类型一致性,例如使用decimal.Decimal而非float。

DeepL
DeepL

DeepL是一款强大的在线AI翻译工具,可以翻译31种不同语言的文本,并可以处理PDF、Word、PowerPoint等文档文件

下载

解决方案:显式舍入后再进行类型转换

解决ArrowInvalid: Rescaling Decimal128 value would cause data loss异常的关键在于,在执行类型转换(astype)之前,对数据进行显式的舍入操作。Pandas的Series对象提供了round()方法,可以指定需要保留的小数位数。通过先调用round()方法,我们明确告知系统按照预期的精度进行舍入,然后才能安全地将数据转换为目标decimal128类型。

示例代码

以下示例演示了如何通过显式舍入来管理decimal128的精度:

import pandas as pd
import pyarrow as pa
from decimal import Decimal

# 1. 准备示例数据
data = {
    'col1': {0: Decimal('39.60'), 1: Decimal('39.60'), 2: Decimal('21.60'), 3: Decimal('7.20'), 4: Decimal('18.00'), 5: Decimal('18.00'), 6: Decimal('72.00'), 7: Decimal('30.60'), 8: Decimal('36.00'), 9: Decimal('41.40')},
    'col2': {0: Decimal('0.98'), 1: Decimal('1.00'), 2: Decimal('0.97'), 3: Decimal('0.46'), 4: Decimal('0.52'), 5: Decimal('1.00'), 6: Decimal('1.00'), 7: Decimal('1.00'), 8: Decimal('1.00'), 9: Decimal('1.00')}
}

# 使用 PyArrow decimal128(12, 2) 类型创建 DataFrame
df = pd.DataFrame(data, dtype=pd.ArrowDtype(pa.decimal128(12, 2)))

print("原始 DataFrame 类型:")
print(df.dtypes)
print("\n原始 DataFrame 数据:")
print(df)

# 2. 执行乘法运算,观察精度扩展
# df['col1'] 是 decimal128(12, 2)
# df['col2'] 也是 decimal128(12, 2)
# 乘法结果的精度会自动扩展
df['col3'] = df['col1'] * df['col2']

print("\n乘法运算后 col3 的类型:")
print(df['col3'].dtype) # 结果可能是 decimal128(25, 4) 或类似更高的精度
print("\n乘法运算后 col3 的数据 (扩展精度):")
print(df['col3'])

# 3. 尝试直接进行类型转换(会导致数据损失异常)
# try:
#     df['col3_direct_cast'] = df['col3'].astype(pd.ArrowDtype(pa.decimal128(12, 2)))
# except Exception as e:
#     print(f"\n直接类型转换失败,引发异常: {e}")

# 4. 正确的解决方案:先舍入,再进行类型转换
# 假设我们希望将结果保留两位小数
df['col3_rounded_cast'] = df['col3'].round(2).astype(pd.ArrowDtype(pa.decimal128(12, 2)))

print("\n经过舍入并类型转换后 col3_rounded_cast 的类型:")
print(df['col3_rounded_cast'].dtype) # 结果为 decimal128(12, 2)
print("\n经过舍入并类型转换后 col3_rounded_cast 的数据:")
print(df['col3_rounded_cast'])

# 验证一个具体的例子: 9.94 * 0.04 = 0.3976,期望舍入为 0.40
# 如果 col1 或 col2 中有 9.94 和 0.04,我们可以观察
# 假设我们手动创建一个例子
test_df = pd.DataFrame({
    'amount': [Decimal('9.94')],
    'percentage': [Decimal('0.04')]
}, dtype=pd.ArrowDtype(pa.decimal128(12, 2)))

test_df['result'] = test_df['amount'] * test_df['percentage']
print(f"\n测试数据乘法结果类型: {test_df['result'].dtype}")
print(f"测试数据乘法结果: {test_df['result'].iloc[0]}") # 预期 0.3976

# 舍入并转换
test_df['final_result'] = test_df['result'].round(2).astype(pd.ArrowDtype(pa.decimal128(12, 2)))
print(f"测试数据舍入并转换后结果类型: {test_df['final_result'].dtype}")
print(f"测试数据舍入并转换后结果: {test_df['final_result'].iloc[0]}") # 预期 0.40

在上述代码中,df['col3'].round(2)首先将col3中的所有值按照四舍五入规则保留两位小数。之后,astype(pd.ArrowDtype(pa.decimal128(12, 2)))操作就可以顺利进行,因为数据已经满足了目标类型的精度要求,不再存在需要截断的额外小数位。

注意事项与最佳实践

  1. 始终显式舍入: 在进行任何可能改变精度并需要强制转换回较低精度的操作时,务必在astype之前使用round()方法。这不仅避免了错误,也明确了业务逻辑中的舍入行为。
  2. 选择合适的精度和刻度: 根据业务需求仔细选择decimal128(precision, scale)的参数。过高的精度可能导致不必要的存储和计算开销,而过低的精度则可能导致真正的业务数据损失。
  3. 避免浮点数混合运算: 尽量避免将decimal128类型与Python内置的float类型混合运算,因为这可能导致结果类型退化为浮点数,从而丧失decimal128带来的精度优势。如果需要与常数运算,请使用decimal.Decimal对象(例如decimal.Decimal('0.04'))而不是0.04。
  4. 理解舍入模式: Pandas的round()方法通常遵循“四舍五入到最近的偶数”(round half to even)的银行家舍入规则。在某些特定金融场景中,可能需要不同的舍入模式,此时需要额外实现或寻找支持特定舍入模式的库。
  5. 中间计算的精度: 在一系列复杂的计算中,如果中间结果的精度要求高于最终结果,可以允许中间结果保持扩展的精度,只在最终需要存储或输出时进行舍入和类型转换。

总结

PyArrow decimal128类型为Pandas用户提供了强大的精确十进制计算能力,特别适用于金融应用。然而,其严格的类型系统在处理精度变化时需要用户额外关注。通过理解PyArrow自动扩展精度的机制,并采用“先显式舍入,后类型转换”的策略,可以有效避免ArrowInvalid: Rescaling Decimal128 value would cause data loss异常,确保计算结果的准确性和数据完整性。遵循这些最佳实践,将有助于构建更健壮、更可靠的数据处理流程。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

753

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

636

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

4

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.7万人学习

Django 教程
Django 教程

共28课时 | 3.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号