线性回归实现中的数值溢出问题及解决方案-Python教程-PHP中文网

线性回归实现中的数值溢出问题及解决方案

聖光之護

发布： 2025-08-20 22:42:22

原创

210人浏览过

线性回归实现中的数值溢出问题及解决方案

本文针对Python中从零实现线性回归时遇到的数值溢出问题，进行了深入分析并提供了有效的解决方案。通过缩放特征和目标变量，可以避免梯度爆炸和NaN值的出现，从而确保线性回归模型的稳定训练和准确预测。本文详细解释了数值溢出的原因，并提供了具体的代码示例，帮助读者更好地理解和解决类似问题。

在机器学习中，线性回归是一种基础且重要的算法。然而，在实际应用中，我们可能会遇到各种问题，例如数值溢出。当数值过大导致计算机无法精确表示时，就会发生数值溢出，这会导致模型训练失败或产生不准确的结果。本文将探讨线性回归实现中常见的数值溢出问题，并提供有效的解决方案。

数值溢出的原因

在梯度下降过程中，如果特征值或目标变量的范围过大，计算出的梯度也可能变得非常大。这会导致参数更新幅度过大，从而引发数值溢出。具体来说，以下几个方面可能导致数值溢出：

特征范围过大： 如果特征值的范围很大（例如，几百甚至几千），则在计算假设函数和成本函数时，可能会产生非常大的中间值。
目标变量范围过大： 类似地，如果目标变量的范围很大，也会导致成本函数的值非常大。
学习率过大： 如果学习率设置得过大，参数更新的幅度也会相应增大，从而加剧数值溢出的风险。

解决方案：特征缩放

解决数值溢出的一个常用方法是特征缩放。特征缩放是指将特征值缩放到一个较小的范围内，例如 [0, 1] 或 [-1, 1]。这样可以有效地减小梯度的大小，从而避免数值溢出。

以下是一些常用的特征缩放方法：

归一化 (Normalization)： 将特征值缩放到 [0, 1] 范围内。公式如下：

腾讯智影-AI数字人
基于AI数字人能力，实现7*24小时AI数字人直播带货，低成本实现直播业务快速增增，全天智能在线直播

73

查看详情
```
x_normalized = (x - x_min) / (x_max - x_min)
```
登录后复制
标准化 (Standardization)： 将特征值缩放到均值为 0，标准差为 1 的分布。公式如下：
```
x_standardized = (x - x_mean) / x_std
```
登录后复制

代码示例

以下代码示例展示了如何在Python中使用NumPy实现线性回归，并应用特征缩放来避免数值溢出：

import numpy as np

class LinearRegression:

    def __init__(
    self, 
    features: np.ndarray[np.float64],
    targets: np.ndarray[np.float64],
    ) -> None:
        # Feature Scaling
        self.features = features / np.max(features)  # 缩放特征到 [0, 1] 范围
        self.targets = targets / np.max(targets)    # 缩放目标变量到 [0, 1] 范围

        self.features = np.concatenate((np.ones((features.shape[0], 1)), self.features), axis=1)
        self.targets = self.targets
        self.params = np.random.randn(features.shape[1] + 1)
        self.num_samples = features.shape[0]
        self.num_feats = features.shape[1]
        self.costs = []

    def hypothesis(self) -> np.ndarray[np.float64]:
        return np.dot(self.features, self.params)

    def cost_function(self) -> np.float64:
        pred_vals = self.hypothesis()
        return (1 / (2 * self.num_samples)) * np.dot((pred_vals - self.targets).T, pred_vals - self.targets)

    def update(self, alpha: np.float64) -> None:
        self.params = self.params - (alpha / self.num_samples) * (self.features.T @ (self.hypothesis() - self.targets))

    def gradientDescent(self, alpha: np.float64, threshold: np.float64, max_iter: int) -> None:
        converged = False
        counter = 0
        while not converged:
            counter += 1
            curr_cost = self.cost_function()
            self.costs.append(curr_cost)
            self.update(alpha)
            new_cost = self.cost_function()
            if abs(new_cost - curr_cost) < threshold:
                converged = True
            if counter > max_iter:
                converged = True

# Example Usage
regr = LinearRegression(features=np.linspace(0, 1000, 200, dtype=np.float64).reshape((20, 10)), targets=np.linspace(0, 200, 20, dtype=np.float64))
regr.gradientDescent(0.1, 1e-3, 1e+3)
print(regr.cost_function())

登录后复制

在这个示例中，我们在 LinearRegression 类的初始化函数中，将特征和目标变量都除以它们的最大值，从而将它们缩放到 [0, 1] 范围内。