
本文旨在帮助开发者解决在Python中从零实现线性回归时遇到的数值溢出问题。通过分析问题代码,我们将探讨导致溢出的原因,并提供有效的解决方案,确保模型能够稳定训练并获得合理的结果。核心在于数据预处理,特别是特征缩放,以避免计算过程中出现过大的数值。
在使用梯度下降法训练线性回归模型时,可能会遇到RuntimeWarning: overflow encountered 错误。这种错误通常是由于在计算过程中产生了过大的数值,超出了计算机所能表示的范围。具体来说,在计算假设函数、代价函数或更新参数时,如果特征值或目标值过大,就容易导致数值溢出。
原始代码中,特征值和目标值的范围较大(特征值从0到1000,目标值从0到200)。在计算hypothesis(假设函数)和cost_function(代价函数)时,这些较大的数值经过多次乘法和加法运算,很容易导致数值溢出。此外,在更新参数时,特征矩阵的转置与误差向量相乘,也可能加剧溢出问题。
解决数值溢出的关键在于对特征和目标值进行缩放,将其范围缩小到一个合适的区间,例如[0, 1]或[-1, 1]。常用的缩放方法包括:
归一化(Normalization): 将数据缩放到[0, 1]区间。
x_normalized = (x - x.min()) / (x.max() - x.min())
标准化(Standardization): 将数据缩放到均值为0,标准差为1的分布。
x_standardized = (x - x.mean()) / x.std()
在本例中,简单的除以最大值即可将数据缩放到0到1之间。
以下是修改后的代码,通过对特征和目标值进行缩放,有效避免了数值溢出:
import numpy as np
class LinearRegression:
def __init__(
self,
features: np.ndarray[np.float64],
targets: np.ndarray[np.float64],
) -> None:
self.features = np.concatenate((np.ones((features.shape[0], 1)), features), axis=1)
self.targets = targets
self.params = np.random.randn(features.shape[1] + 1)
self.num_samples = features.shape[0]
self.num_feats = features.shape[1]
self.costs = []
def hypothesis(self) -> np.ndarray[np.float64]:
return np.dot(self.features, self.params)
def cost_function(self) -> np.float64:
pred_vals = self.hypothesis()
return (1 / (2 * self.num_samples)) * np.dot((pred_vals - self.targets).T, pred_vals - self.targets)
def update(self, alpha: np.float64) -> None:
self.params = self.params - (alpha / self.num_samples) * (self.features.T @ (self.hypothesis() - self.targets))
def gradientDescent(self, alpha: np.float64, threshold: np.float64, max_iter: int) -> None:
converged = False
counter = 0
while not converged:
counter += 1
curr_cost = self.cost_function()
self.costs.append(curr_cost)
self.update(alpha)
new_cost = self.cost_function()
if abs(new_cost - curr_cost) < threshold:
converged = True
if counter > max_iter:
converged = True
# 使用缩放后的数据
regr = LinearRegression(features=np.linspace(0, 1000, 200, dtype=np.float64).reshape((20, 10))/1000, targets=np.linspace(0, 200, 20, dtype=np.float64)/1000)
regr.gradientDescent(0.1, 1e-3, 1e+3)
print(regr.cost_function())在实现线性回归时,数值溢出是一个常见的问题。通过对特征和目标值进行缩放,可以有效地避免数值溢出,保证模型的稳定训练。同时,需要注意选择合适的缩放方法,并对测试数据进行相同的缩放。此外,学习率的选择也需要根据具体情况进行调整。通过以上方法,可以成功解决线性回归实现中的数值溢出问题,并获得准确的预测结果。
以上就是解决线性回归实现中的数值溢出问题的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号