逻辑回归模型

本文围绕储存在test.txt中的数据点，详细介绍了如何使用 Python 结合梯度上升法实现逻辑回归模型。从数据读取与预处理，到模型训练和预测，每一个步骤都进行了清晰的代码展示与原理说明。通过这种方式，我们不仅掌握了逻辑回归模型的实现过程，也加深了对梯度上升法这一优化算法的理解。在实际机器学习项目中，可根据具体需求对代码进行进一步的优化和扩展，例如调整超参数、处理更复杂的数据格式等。希望本文能为

perkz10086

1586人浏览 · 2025-05-19 20:52:53

perkz10086 · 2025-05-19 20:52:53 发布

利用 Python 实现逻辑回归模型：基于梯度上升法处理自定义数据集

在机器学习领域，逻辑回归作为经典的分类算法，凭借其简单高效的特点，被广泛应用于各类实际场景。在实际项目中，我们经常会遇到从文件中读取数据并进行模型训练的需求。本次，我们将针对储存在test.txt中的 100 个数据点，每个数据点包含x1和x2两个数值型特征，通过使用梯度上升法找到最佳回归系数，从而拟合出逻辑回归模型的最佳参数。接下来，让我们一步步深入探索实现过程。

一、逻辑回归与梯度上升法原理回顾

逻辑回归的核心是通过 Sigmoid 函数将线性回归的输出映射到 [0, 1] 区间，从而得到样本属于正类的概率。Sigmoid 函数的表达式为：

\(\sigma(z) = \frac{1}{1 + e^{-z}}\)

其中，\(z\)是线性回归的输出，即 \(z = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n\)，\(\theta_i\)为回归系数（模型参数），\(x_i\)为特征值。

在逻辑回归中，我们通常使用极大似然估计来求解模型参数。而梯度上升法是一种用于求解函数最大值的优化算法，它通过不断沿着函数梯度的方向更新参数，逐步逼近函数的最大值点。在逻辑回归中，我们可以利用梯度上升法来最大化对数似然函数，从而找到最佳的回归系数，使得模型对数据的拟合效果最优。

二、数据读取与预处理

首先，我们需要从test.txt文件中读取数据。假设test.txt文件中的数据格式为每行一个数据点，每个数据点的格式为x1 x2 y，其中x1和x2是特征值，y是标签（0 或 1）。以下是使用 Python 读取数据并进行简单预处理的代码：

import numpy as np

def load_data(file_path):

data = []

labels = []

with open(file_path, 'r') as file:

for line in file.readlines():

line = line.strip().split()

data.append([1.0] + [float(x) for x in line[:2]]) # 添加偏置项

labels.append(int(line[2]))

return np.array(data), np.array(labels)

# 假设test.txt在当前目录下，若不在请修改文件路径

file_path = 'test.txt'

X, y = load_data(file_path)

在上述代码中，我们定义了load_data函数，它逐行读取test.txt文件中的数据。在读取每个数据点时，我们在特征向量的开头添加了一个值为 1.0 的元素，用于表示线性回归中的偏置项。读取完成后，将数据和标签分别存储在numpy数组X和y中，方便后续处理。

三、实现逻辑回归模型与梯度上升法

接下来，我们实现逻辑回归模型，并使用梯度上升法来训练模型，找到最佳回归系数。

# Sigmoid函数

def sigmoid(z):

return 1 / (1 + np.exp(-z))

# 梯度上升法训练逻辑回归模型

def gradient_ascent(X, y, num_iterations=500, alpha=0.001):

num_features = X.shape[1]

weights = np.ones(num_features)

for _ in range(num_iterations):

h = sigmoid(np.dot(X, weights))

error = y - h

weights = weights + alpha * np.dot(X.T, error)

return weights

weights = gradient_ascent(X, y)

print("最佳回归系数：", weights)

在上述代码中，我们首先定义了Sigmoid函数，用于将线性组合的结果映射到概率值。然后，定义了gradient_ascent函数实现梯度上升法。在函数中，我们先初始化回归系数weights为全 1 的向量，接着在指定的迭代次数内，通过计算预测值h、误差error，并根据梯度上升的规则更新weights，最终返回训练得到的最佳回归系数。