监督学习入门：线性回归与最小二乘法完全解读

在机器学习领域，线性回归堪称最基础、最重要的算法之一。自1805年勒让德首次提出最小二乘法以来，这一方法始终是数据分析的核心工具。根据Google Scholar统计，过去5年关于线性回归的研究论文引用量超过120万次，在Kaggle竞赛中，超过78%的baseline模型使用线性回归作为起点。本文将深入剖析一元线性回归的数学原理，揭示最小二乘法的本质，并通过Python代码实现完整的房价预测案例

WHCIS

1120人浏览 · 2025-02-15 15:09:29

WHCIS · 2025-02-15 15:09:29 发布

1. 引言：预测的艺术与科学

2. 线性回归的数学建模

2.1 基本形式与假设

一元线性回归模型描述自变量x与因变量y之间的线性关系：

$h_\theta(x) = \theta_0 + \theta_1x$

几何视角：在n维空间中寻找最佳拟合超平面，使得所有样本点到超平面的垂直距离平方和最小。对于一元情况，即在二维平面中寻找最佳直线。

2.2 误差项的正态性证明

假设真实关系为：
$\theta_0 + \theta_1x + \epsilon$
根据中心极限定理，当存在多个独立微小误差源时， $ϵ\epsilon$ 服从正态分布：

$\epsilon \sim N(0, \sigma^2)$

证明过程：

设总误差 $ϵ=∑i=1kϵi\epsilon = \sum_{i=1}^k \epsilon_i$ ，其中每个 $ϵi\epsilon_i$ 为独立误差源
根据Lindeberg-Feller中心极限定理
当 $\to \infty$ 时， $ϵ\epsilon$ 趋近正态分布

2.3 损失函数：均方误差

从极大似然估计角度推导MSE：

似然函数：
$L(\theta) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - (\theta_0 + \theta_1x^{(i)}))^2}{2\sigma^2}\right)$

对数似然：
$\log L(\theta) = -\frac{m}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^m (y^{(i)} - h_\theta(x^{(i)}))^2$

最大化对数似然等价于最小化MSE，由此建立概率解释。

3. 最小二乘法解析解推导

3.1 代数法求解

对损失函数分别求 $θ0\theta_0$ 和 $θ1\theta_1$ 的偏导：

详细推导步骤：

$\frac{\partial J}{\partial \theta_0} = \frac{1}{m}\sum_{i=1}^m (\theta_0 + \theta_1x^{(i)} - y^{(i)}) = 0 \\ \Rightarrow m\theta_0 + \theta_1\sum x^{(i)} = \sum y^{(i)} \quad (1)$

$\frac{\partial J}{\partial \theta_1} = \frac{1}{m}\sum_{i=1}^m (\theta_0 + \theta_1x^{(i)} - y^{(i)})x^{(i)} = 0 \\ \Rightarrow \theta_0\sum x^{(i)} + \theta_1\sum (x^{(i)})^2 = \sum x^{(i)}y^{(i)} \quad (2)$

联立方程(1)(2)，解得：

$\theta_1 = \frac{m\sum x^{(i)}y^{(i)} - \sum x^{(i)}\sum y^{(i)}}{m\sum (x^{(i)})^2 - (\sum x^{(i)})^2} \\ \theta_0 = \frac{\sum y^{(i)} - \theta_1\sum x^{(i)}}{m}$

3.2 矩阵形式解

将问题表示为矩阵形式：

$\mathbf{y} = \mathbf{X}\theta + \epsilon$

其中设计矩阵：
$\mathbf{X} = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_m \end{bmatrix}$

几何解释：在列空间寻找 $y\mathbf{y}$ 的投影，使得残差向量 $ϵ\epsilon$ 垂直于列空间。

严格推导：

投影矩阵： $P = X(X^TX)^{-1}X^T$
最优解： $y^=Py\hat{y} = P y$
参数估计： $θ^=(XTX)−1XTy\hat{\theta} = (X^TX)^{-1}X^T y$

3.3 数值稳定性分析

当 $X^TX$ 接近奇异矩阵时，解析解不稳定。解决方法：

添加正则化项： $(XTX+λI)−1(X^TX + \lambda I)^{-1}$
使用奇异值分解(SVD)： $U\Sigma V^T$
采用QR分解： $X = QR$

比较：

SVD计算复杂度 $O(mn^2)$
QR分解复杂度 $O(mn^2)$
Cholesky分解 $O(n^3/3)$

4. 解析解 vs 数值解：梯度下降对比

4.1 学习率的影响（可视化分析）

不同学习率下的收敛情况：

def plot_learning_rates():
    eta_values = [0.02, 0.1, 0.5]
    plt.figure(figsize=(12,8))
    
    for eta in eta_values:
        theta = np.random.randn(2,1)
        losses = []
        for _ in range(100):
            gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
            theta -= eta * gradients
            losses.append(np.mean((X_b.dot(theta) - y)**2))
        plt.plot(losses, label=f"η={eta}")

    plt.yscale('log')
    plt.legend()
    plt.show()

4.2 迭代过程三维可视化

from mpl_toolkits.mplot3d import Axes3D

# 生成参数网格
t0 = np.linspace(-5,5,100)
t1 = np.linspace(-5,5,100)
T0, T1 = np.meshgrid(t0, t1)
J = np.array([np.mean((X_b.dot([t0,t1]) - y)**2) for t0,t1 in zip(T0.ravel(), T1.ravel())])
J = J.reshape(T0.shape)

# 绘制3D曲面
fig = plt.figure(figsize=(12,8))
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(T0, T1, J, cmap='viridis')
ax.set_xlabel('θ0')
ax.set_ylabel('θ1')
ax.set_zlabel('Loss')
plt.show()

5. 房价预测实战案例

5.1 数据预处理

# 完整数据管道
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

preprocessing = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),  # 处理缺失值
    ('scaler', StandardScaler())  # 标准化
])

# 应用转换
X_processed = preprocessing.fit_transform(house_size)

5.2 正则化解析解（岭回归实现）

# 添加L2正则化
lambda_ = 0.1
I = np.eye(X_b.shape[1])
theta_ridge = np.linalg.inv(X_b.T.dot(X_b) + lambda_*I).dot(X_b.T).dot(y)

5.3 随机梯度下降（大规模数据优化）

from sklearn.linear_model import SGDRegressor

sgd_reg = SGDRegressor(
    max_iter=1000,
    penalty='l2',  # 正则化类型
    alpha=0.1,     # 正则化强度
    learning_rate='optimal'
)
sgd_reg.fit(X_processed, y.ravel())

6. 模型评估与优化

6.1 交叉验证评估

from sklearn.model_selection import cross_val_score

scores = cross_val_score(
    LinearRegression(),
    X_processed,
    y,
    scoring='neg_mean_squared_error',
    cv=5
)
rmse_scores = np.sqrt(-scores)
print(f"RMSE均值：{rmse_scores.mean():.2f} ± {rmse_scores.std():.2f}")

6.2 置信区间估计（Bootstrap）

n_bootstraps = 1000
theta_boot = []

for _ in range(n_bootstraps):
    indices = np.random.choice(len(X), len(X), replace=True)
    X_sample = X_b[indices]
    y_sample = y[indices]
    theta = np.linalg.inv(X_sample.T.dot(X_sample)).dot(X_sample.T).dot(y_sample)
    theta_boot.append(theta)

theta_boot = np.array(theta_boot)
print(f"θ0 95% CI: {np.percentile(theta_boot[:,0], [2.5, 97.5])}")
print(f"θ1 95% CI: {np.percentile(theta_boot[:,1], [2.5, 97.5])}")

7. 工业级应用技巧

7.1 特征工程最佳实践

非线性特征：添加 $x^2$ , $log⁡(x)\log(x)$ 等项
交互特征：当存在多个特征时考虑 $x1×x2x_1 \times x_2$
分箱处理：将连续变量离散化

7.2 在线学习实现

class OnlineLinearRegression:
    def __init__(self, n_features):
        self.n_features = n_features
        self.theta = np.zeros(n_features+1)
        self.XTX = np.zeros((n_features+1, n_features+1))
        self.XTy = np.zeros(n_features+1)
    
    def partial_fit(self, X, y):
        X_b = np.c_[np.ones((X.shape[0],1)), X]
        self.XTX += X_b.T.dot(X_b)
        self.XTy += X_b.T.dot(y)
        self.theta = np.linalg.pinv(self.XTX).dot(self.XTy)

7.3 模型解释性分析

系数显著性检验：t检验
$t=θj^SE(θj^) t = \frac{\hat{\theta_j}}{SE(\hat{\theta_j})}$
方差膨胀因子(VIF)检测多重共线性：
$VIF_i = \frac{1}{1 - R_i^2}$

8. 性能优化技巧（GPU加速）

# 使用CuPy进行GPU加速
import cupy as cp

X_gpu = cp.asarray(X_b)
y_gpu = cp.asarray(y)
theta_gpu = cp.linalg.inv(X_gpu.T.dot(X_gpu)).dot(X_gpu.T).dot(y_gpu)

附录：关键公式速查表

正规方程： $θ=(XTX)−1XTy\theta = (X^TX)^{-1}X^Ty$
岭回归解： $θ=(XTX+λI)−1XTy\theta = (X^TX + \lambda I)^{-1}X^Ty$
梯度更新： $θ(k+1)=θ(k)−ηXT(Xθ(k)−y)\theta^{(k+1)} = \theta^{(k)} - \eta X^T(X\theta^{(k)} - y)$
方差膨胀因子： $VIFi=11−Ri2VIF_i = \frac{1}{1 - R_i^2}$
贝叶斯后验分布： $p(θ∣X,y)∝N(θ∣μ,Σ)p(\theta|X,y) \propto \mathcal{N}(\theta|\mu, \Sigma)$

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

CNSH通用翻译引擎 | 全语言互译+AI鉴定+来源追溯

《CNSH通用翻译引擎v1.0》摘要：该神经网络式翻译系统采用类脑架构设计，核心包含智能路由中枢（决策前额叶）和模块神经网络。具备多语言互译、AI伪代码识别、代码溯源三大功能，支持动态路径调整和双向反馈学习。系统通过特征感知、智能路由、并行处理实现高效翻译，并采用DNA追溯和三色审计确保可靠性。相比传统流水线架构，新设计具有神经网络的自适应优势，各模块可互相激活协作，实现更接近人类思维的翻译过程。