最小二乘法：原理详解与公式推导

最小二乘法是一种数学优化技术，它通过最小化误差的平方和来寻找数据的最佳函数匹配。这种方法在数据分析、统计学和机器学习中被广泛使用，尤其是在线性回归模型中。

MrEsonance

8770人浏览 · 2025-03-26 11:26:25

MrEsonance · 2025-03-26 11:26:25 发布

最小二乘法是一种数学优化技术，它通过最小化误差的平方和来寻找数据的最佳函数匹配。这种方法在统计学、工程学和机器学习中被广泛使用，特别是在线性回归分析中。以下是最小二乘法的原理和详细推导。

原理

最小二乘法的基本思想是找到一组参数，使得模型预测值与实际观测值之间的差异（残差）的平方和最小。这种方法假设误差是随机的，并且服从正态分布，误差的期望值为零。

问题表述

假设我们有一组观测数据 $x_i,y_i)$ ，其中 i=1,2,…,n。我们想要找到一个模型（例如线性模型）来拟合这些数据。对于线性模型，我们可以表示为：

$y = a x + b$

其中，a 和 b 是我们想要估计的参数。

目标函数

我们定义目标函数（或损失函数）为残差的平方和：

$\sum_{i=1}^{n} (y_i - (ax_i + b))^2$

我们的目标是找到 a 和 b 的值，使得 S(a,b) 最小。

推导

为了找到 S(a,b) 的最小值，我们需要对 a 和 b 分别求偏导数，并令这些偏导数等于零。

对 a 求偏导数：

$\frac{\partial S}{\partial a} = -2 \sum_{i=1}^{n} x_i (y_i - (ax_i + b))$

对 b 求偏导数：

$\frac{\partial S}{\partial b} = -2 \sum_{i=1}^{n} (y_i - (ax_i + b))$

令这两个偏导数等于零，我们得到两个方程：

$\begin{align*} \sum_{i=1}^{n} x_i y_i - a \sum_{i=1}^{n} x_i^2 - b \sum_{i=1}^{n} x_i &= 0 \\ \sum_{i=1}^{n} y_i - a \sum_{i=1}^{n} x_i - nb &= 0 \end{align*}$

这是一个线性方程组，我们可以通过求解这个方程组来找到 a 和 b 的值。

解线性方程组

我们可以将这个方程组表示为矩阵形式：

$\begin{bmatrix} \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\ \sum_{i=1}^{n} x_i & n \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} \sum_{i=1}^{n} x_i y_i \\ \sum_{i=1}^{n} y_i \end{bmatrix}$

解这个方程组，我们得到：

$\begin{align*} a &= \frac{n \sum_{i=1}^{n} x_i y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i}{n \sum_{i=1}^{n} x_i^2 - \left(\sum_{i=1}^{n} x_i\right)^2} \\ b &= \frac{\sum_{i=1}^{n} x_i^2 \sum_{i=1}^{n} y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} x_i y_i}{n \sum_{i=1}^{n} x_i^2 - \left(\sum_{i=1}^{n} x_i\right)^2} \end{align*}$

这就是最小二乘法的解，它给出了使得残差平方和最小的参数 a 和 b 的值。

当我们使用最小二乘法拟合一个二次函数时，模型可以表示为：

$y=ax^2+bx+c$

其中，a、b 和 c 是我们想要估计的参数。

目标函数

我们定义目标函数（或损失函数）为残差的平方和：

$\sum_{i=1}^{n} (y_i - (ax_i^2 + bx_i + c))^2$

我们的目标是找到 a、b 和 c 的值，使得 S(a,b,c) 最小。

推导

为了找到 S(a,b,c) 的最小值，我们需要对 a、b 和 c 分别求偏导数，并令这些偏导数等于零。

对 a 求偏导数：

$\frac{\partial S}{\partial a} = -2 \sum_{i=1}^{n} x_i^2 (y_i - (ax_i^2 + bx_i + c)) = 0$

对 b 求偏导数：

$\frac{\partial S}{\partial b} = -2 \sum_{i=1}^{n} x_i (y_i - (ax_i^2 + bx_i + c)) = 0$

对 c 求偏导数：

$\frac{\partial S}{\partial c} = -2 \sum_{i=1}^{n} (y_i - (ax_i^2 + bx_i + c)) = 0$

这是一个线性方程组，我们可以通过求解这个方程组来找到 a、b 和 c 的值。

解线性方程组

我们可以将这个方程组表示为矩阵形式：

$\begin{bmatrix} \sum_{i=1}^{n} x_i^4 & \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 \\ \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\ \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i & n \end{bmatrix} \begin{bmatrix} a \\ b \\ c \end{bmatrix}= \begin{bmatrix} \sum_{i=1}^{n} x_i^2 y_i \\ \sum_{i=1}^{n} x_i y_i \\ \sum_{i=1}^{n} y_i \end{bmatrix}$

解这个方程组，我们得到 a、b 和 c 的值。

$\frac{\begin{vmatrix} \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\ \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i & n \\ \sum_{i=1}^{n} x_i^2 y_i & \sum_{i=1}^{n} x_i y_i & \sum_{i=1}^{n} y_i \end{vmatrix}}{\begin{vmatrix} \sum_{i=1}^{n} x_i^4 & \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 \\ \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\ \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i & n \end{vmatrix}} \\$

$\frac{\begin{vmatrix}\sum_{i=1}^{n} x_i^4 & \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 \\\sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\\sum_{i=1}^{n} x_i^3 y_i & \sum_{i=1}^{n} x_i^2 y_i & \sum_{i=1}^{n} x_i y_i\end{vmatrix}}{\begin{vmatrix}\sum_{i=1}^{n} x_i^4 & \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 \\\sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\\sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i & n\end{vmatrix}}$

$\frac{\begin{vmatrix}\sum_{i=1}^{n} x_i^4 & \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 \\\sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\\sum_{i=1}^{n} x_i^2 y_i & \sum_{i=1}^{n} x_i^1 y_i & \sum_{i=1}^{n} y_i\end{vmatrix}}{{\begin{vmatrix}\sum_{i=1}^{n} x_i^4 & \sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 \\\sum_{i=1}^{n} x_i^3 & \sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i \\\sum_{i=1}^{n} x_i^2 & \sum_{i=1}^{n} x_i & n\end{vmatrix}}}$

以上就是使用最小二乘法拟合二次函数的推导过程。这个过程与拟合线性函数类似，只是模型和方程的形式更复杂一些。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

CNSH通用翻译引擎 | 全语言互译+AI鉴定+来源追溯

《CNSH通用翻译引擎v1.0》摘要：该神经网络式翻译系统采用类脑架构设计，核心包含智能路由中枢（决策前额叶）和模块神经网络。具备多语言互译、AI伪代码识别、代码溯源三大功能，支持动态路径调整和双向反馈学习。系统通过特征感知、智能路由、并行处理实现高效翻译，并采用DNA追溯和三色审计确保可靠性。相比传统流水线架构，新设计具有神经网络的自适应优势，各模块可互相激活协作，实现更接近人类思维的翻译过程。