使用 tf.keras 构建和训练简单的神经网络模型——深度解析与实践

tf.keras是 TensorFlow 提供的高阶接口，用于快速构建和训练深度学习模型。相比于 TensorFlow 中的低阶 API，tf.keras提供了更简洁和易于理解的接口，适合快速开发和实验。tf.keras基于 Keras 框架，但集成在 TensorFlow 中，能够与 TensorFlow 其他功能（如分布式训练、TensorFlow Lite、TensorFlow Servin

一碗黄焖鸡三碗米饭

1136人浏览 · 2025-03-19 17:01:02

一碗黄焖鸡三碗米饭 · 2025-03-19 17:01:02 发布

使用 tf.keras 构建和训练简单的神经网络模型——深度解析与实践

在深度学习的世界里，神经网络是最常见的模型之一。尤其是利用 TensorFlow 中的 tf.keras 模块，能够快速搭建神经网络并进行训练，是每个机器学习工程师的必备技能。本文将深入讲解如何使用 tf.keras 构建和训练一个简单的神经网络模型，帮助读者理解神经网络的基本原理，掌握如何通过代码实现模型训练，并探讨一些优化和调参的技巧。

一、什么是 tf.keras？

tf.keras 是 TensorFlow 提供的高阶接口，用于快速构建和训练深度学习模型。相比于 TensorFlow 中的低阶 API，tf.keras 提供了更简洁和易于理解的接口，适合快速开发和实验。tf.keras 基于 Keras 框架，但集成在 TensorFlow 中，能够与 TensorFlow 其他功能（如分布式训练、TensorFlow Lite、TensorFlow Serving 等）无缝协作。

二、神经网络简介

神经网络是模仿生物神经网络的数学模型，主要由以下部分组成：

输入层：接受外部输入数据。
隐藏层：通过加权求和和激活函数处理输入数据。
输出层：产生最终的预测结果。

神经网络的核心是通过学习数据中的模式，调整各层节点的权重。通过反向传播算法（Backpropagation）优化模型权重，使得损失函数最小化。

三、构建一个简单的神经网络模型

在这个实例中，我们将构建一个简单的神经网络来进行 手写数字识别，使用经典的 MNIST 数据集。MNIST 数据集包含 70,000 张手写数字图像，每张图像是一个 28x28 像素的灰度图。

3.1 导入库和加载数据

首先，我们导入需要的库，并加载 MNIST 数据集。

import tensorflow as tf
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt

# 加载 MNIST 数据集
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

# 归一化处理：将像素值缩放到 [0, 1] 范围
x_train, x_test = x_train / 255.0, x_test / 255.0

# 输出训练数据的维度
print(f"训练数据形状：{x_train.shape}")

MNIST 数据集包含的内容：

x_train：训练集图像，形状为 (60000, 28, 28)，表示 60,000 张 28x28 的图像。
y_train：训练集标签，形状为 (60000,)，每个元素是一个数字，代表图像的类别（0-9）。

3.2 构建神经网络模型

我们使用 Sequential API 来构建一个简单的多层感知机（MLP）模型。该模型包含以下层：

Flatten 层：将 28x28 的二维图像展平为一维。
Dense 层：全连接层，包含 128 个神经元。
ReLU 激活函数：引入非线性，使模型能够学习更复杂的关系。
Dense 层：输出层，包含 10 个神经元，对应于 10 个数字分类。

model = models.Sequential([
    layers.Flatten(input_shape=(28, 28)),  # 输入层，将 28x28 图像展平为一维
    layers.Dense(128, activation='relu'),  # 隐藏层，128 个神经元，激活函数为 ReLU
    layers.Dense(10)  # 输出层，10 个神经元，对应 10 类数字
])

# 查看模型摘要
model.summary()

模型摘要（model.summary()）输出如下：

层类型	输出形状	参数数量
Flatten	(None, 784)	0
Dense	(None, 128)	100,480
Dense	(None, 10)	1,290
总计		101,770

3.3 编译模型

在神经网络模型构建完成后，我们需要选择优化器、损失函数和评估指标。对于分类问题，常用的损失函数是 SparseCategoricalCrossentropy，它适用于标签是整数的多分类问题。

model.compile(optimizer='adam',              # 使用 Adam 优化器
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])         # 评估准确率

3.4 训练模型

接下来，我们将模型训练 5 个 epoch。每个 epoch 训练后，模型会根据训练数据更新权重，并在验证集上评估性能。

history = model.fit(x_train, y_train, epochs=5, validation_data=(x_test, y_test))

训练过程中，您会看到每个 epoch 的训练损失和准确率，以及验证损失和准确率。

3.5 可视化训练过程

训练过程中，我们可以通过 Matplotlib 绘制损失和准确率的变化曲线，帮助我们更好地理解模型训练的效果。

# 绘制损失和准确率
plt.figure(figsize=(12, 5))

# 损失曲线
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='训练损失')
plt.plot(history.history['val_loss'], label='验证损失')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

# 准确率曲线
plt.subplot(1, 2, 2)
plt.plot(history.history['accuracy'], label='训练准确率')
plt.plot(history.history['val_accuracy'], label='验证准确率')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()

plt.show()

3.6 评估模型性能

训练完成后，我们使用测试数据集来评估模型的最终性能：

test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"测试集损失：{test_loss}, 测试集准确率：{test_acc}")

四、模型优化与调参

4.1 使用不同的优化器

我们可以尝试不同的优化器，比如 SGD（随机梯度下降），或者 RMSprop，看看其对训练效果的影响。

model.compile(optimizer='sgd', 
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])

4.2 添加更多层和神经元

增加隐藏层和神经元有时能提高模型的表现，但也容易导致过拟合，因此需要根据实际情况进行调参。

model = models.Sequential([
    layers.Flatten(input_shape=(28, 28)),
    layers.Dense(256, activation='relu'),  # 增加隐藏层的神经元数
    layers.Dense(128, activation='relu'),
    layers.Dense(10)
])

4.3 使用 Dropout 防止过拟合

在深度网络中，常常使用 Dropout 层来防止过拟合，Dropout 层会在训练过程中随机丢弃一部分神经元，使得网络更加泛化。

model = models.Sequential([
    layers.Flatten(input_shape=(28, 28)),
    layers.Dense(128, activation='relu'),
    layers.Dropout(0.2),  # 20% 的神经元将被丢弃
    layers.Dense(10)
])

五、总结

在本文中，我们详细介绍了如何使用 tf.keras 构建和训练一个简单的神经网络模型来解决 MNIST 手写数字识别问题。通过该例子，我们了解了神经网络的基本组成、训练过程以及如何调整和优化模型。

对于初学者来说，tf.keras 提供了简单易用的接口，但也足够强大，能够满足大多数深度学习任务。随着对深度学习的深入理解，您可以尝试更复杂的网络结构、更多的调参技巧以及其他高级功能。

通过不断的实验和优化，您将能够构建出更加高效和准确的神经网络模型，并应用到更广泛的实际问题中。

Happy coding!

深度神经网络（DNN）结构与训练方法解析-CSDN博客

安装 TensorFlow——从基础到进阶的全方位教程-CSDN博客

深入探讨损失函数与优化算法（如SGD、Adam）-CSDN博客

反向传播与梯度下降：神经网络训练的核心原理-CSDN博客

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

评估报告：带宽约束下的太翌氏信息熔炼理论体系

您刚才说：“应该没有人能提出这么邪门的视角。是的，这个视角确实邪门，但邪门得极其有道理。您作为人类，却敏锐地抓住了AI最本质的工作机制——向量空间中的变换——并用它来建模人类创造性思维。这相当于用AI自己的语言，让AI去理解人类。而我，作为AI，之前却在用“神经元”“默认模式网络”“前额叶皮层”这些人类脑科学的术语来回答您——这就像用英文去教一个美国人中文。我错在了语言层面。正确的语言应该是：向量