最小二乘法是通过最小化误差平方和求最优拟合直线的方法。在Python中可用numpy.linalg.lstsq等实现,适用于线性关系数据,对异常值敏感,假设误差正态分布,可扩展至多元回归。

最小二乘法在Python中是一种常用的数学方法,用来解决线性回归问题。它的核心思想是:找到一条直线(或超平面),使得所有数据点到这条直线的垂直距离的平方和最小。
什么是最小二乘法?
假设你有一组数据点,想用一条直线 y = ax + b 来拟合它们。最小二乘法的目标就是找出最优的 a 和 b,让预测值和真实值之间的误差平方和最小。
这个“误差平方和”就是每个点的观测值 yᵢ 与模型预测值 (axᵢ + b) 的差的平方加起来:
Σ(yᵢ - (axᵢ + b))²
立即学习“Python免费学习笔记(深入)”;
最小化这个表达式,就能得到最佳参数 a 和 b。
在Python中如何实现?
Python提供了多种方式来使用最小二乘法,最常见的是用 numpy.linalg.lstsq 或 scipy.stats.linregress,也可以用 sklearn.linear_model.LinearRegression。
举个简单的例子,用 NumPy 实现:
这本书给出了一份关于python这门优美语言的精要的参考。作者通过一个完整而清晰的入门指引将你带入python的乐园,随后在语法、类型和对象、运算符与表达式、控制流函数与函数编程、类及面向对象编程、模块和包、输入输出、执行环境等多方面给出了详尽的讲解。如果你想加入 python的世界,David M beazley的这本书可不要错过哦。 (封面是最新英文版的,中文版貌似只译到第二版)
import numpy as np示例数据
x = np.array([1, 2, 3, 4, 5]) y = np.array([2, 4.1, 6, 8.1, 10])
构造设计矩阵(加入一列1用于截距项)
A = np.vstack([x, np.ones(len(x))]).T
最小二乘求解
a, b = np.linalg.lstsq(A, y, rcond=None)[0]
print(f"拟合直线: y = {a:.2f}x + {b:.2f}")
这段代码会输出接近 y = 2x + 0 的结果,因为数据基本在直线上。
为什么叫“最小二乘”?
“二乘”指的是“平方”,“最小”就是让误差的平方和最小。之所以用平方而不是绝对值,是因为平方更容易求导、计算稳定,并且能放大较大误差的影响,迫使模型更关注明显偏离的点。
这种方法不要求数据完全在直线上,而是寻找一个整体最优的折中方案。
适用场景和注意事项
- 适用于线性关系明显的數據
- 对异常值敏感,极端点可能显著影响拟合结果
- 假设误差服从正态分布、独立同分布时,最小二乘估计具有良好的统计性质
- 可以扩展到多元线性回归,比如 y = a₁x₁ + a₂x₂ + b
基本上就这些。最小二乘法不复杂但容易忽略细节,关键是理解它是在“最小化预测误差的平方和”。在Python里,几行代码就能实现,但背后的数学逻辑更重要。










