自定义模型：tf.keras.Model 和 tf.keras.layers 的使用

首先，我们来看一个简单的例子，展示如何通过继承来创建一个自定义模型。# 定义一个简单的自定义模型# 定义层# 定义前向传播# 创建模型实例# 打印模型摘要model.build(input_shape=(None, 784)) # 假设输入数据为28x28的图像展平后形成的向量通过继承，我们可以自定义自己的神经网络模型类。在__init__方法中定义网络的各个层，通常使用提供的层（如DenseCo

一碗黄焖鸡三碗米饭

1514人浏览 · 2025-03-20 09:22:23

一碗黄焖鸡三碗米饭 · 2025-03-20 09:22:23 发布

自定义模型：tf.keras.Model 和 tf.keras.layers 的使用

在深度学习中，模型的构建和设计是核心工作之一。TensorFlow 提供了高层 API tf.keras，它使得模型的构建变得更加简便和高效。通过使用 tf.keras.Model 和 tf.keras.layers，我们可以快速搭建神经网络模型，并根据自己的需求自定义模型的结构。今天，我们将深入探讨如何使用这两个核心类来构建自定义模型。

本文将详细讲解 tf.keras.Model 和 tf.keras.layers 的使用，并通过代码示例深入探讨它们的实际应用，帮助你更好地理解 TensorFlow 中的模型构建流程。

1. tf.keras.Model

tf.keras.Model 是 TensorFlow 中定义神经网络模型的核心类之一。它为我们提供了很多方便的方法来管理模型的构建、训练、评估等任务。通过继承 tf.keras.Model，我们可以定义一个全新的模型类，并实现自己特定的前向传播逻辑。

1.1 定义自定义模型

首先，我们来看一个简单的例子，展示如何通过继承 tf.keras.Model 来创建一个自定义模型。

示例代码：自定义模型

import tensorflow as tf

# 定义一个简单的自定义模型
class MyModel(tf.keras.Model):
    def __init__(self):
        super(MyModel, self).__init__()
        # 定义层
        self.dense1 = tf.keras.layers.Dense(128, activation='relu')
        self.dense2 = tf.keras.layers.Dense(64, activation='relu')
        self.output_layer = tf.keras.layers.Dense(10, activation='softmax')

    def call(self, inputs):
        # 定义前向传播
        x = self.dense1(inputs)
        x = self.dense2(x)
        return self.output_layer(x)

# 创建模型实例
model = MyModel()

# 打印模型摘要
model.build(input_shape=(None, 784))  # 假设输入数据为28x28的图像展平后形成的向量
model.summary()

代码解析：

通过继承 tf.keras.Model，我们可以自定义自己的神经网络模型类。
在 __init__ 方法中定义网络的各个层，通常使用 tf.keras.layers 提供的层（如 Dense、Conv2D 等）。
call 方法定义了前向传播的计算逻辑，它描述了数据是如何通过各个层进行传递和变换的。

输出：

Model: "my_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense (Dense)               (None, 128)               100480    
 dense_1 (Dense)             (None, 64)                8256      
 dense_2 (Dense)             (None, 10)                650       
=================================================================
Total params: 116,486
Trainable params: 116,486
Non-trainable params: 0
_________________________________________________________________

在这个示例中，我们定义了一个简单的三层全连接神经网络：dense1、dense2 和 output_layer，分别是两个 ReLU 激活的全连接层和一个 Softmax 输出层。model.summary() 方法输出了模型的结构和参数信息。

1.2 训练和评估模型

一旦模型定义好之后，我们就可以像使用其他 Keras 模型一样进行训练和评估。

示例代码：模型训练

# 假设我们有一些训练数据
import numpy as np

# 创建假数据
X_train = np.random.random((1000, 784))  # 1000个28x28的图像
y_train = np.random.randint(10, size=(1000,))  # 1000个标签，范围从0到9

# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, epochs=10, batch_size=32)

这里我们用随机生成的数据训练模型，使用 sparse_categorical_crossentropy 作为损失函数，adam 作为优化器，训练10个周期。

2. tf.keras.layers

tf.keras.layers 提供了多种神经网络层，包括但不限于全连接层（Dense）、卷积层（Conv2D）、池化层（MaxPooling2D）等。通过组合这些层，可以构建各种复杂的神经网络。

2.1 常见层的使用

我们来详细看看几种常见的层，并展示如何在自定义模型中使用它们。

示例代码：使用不同层

class CustomModel(tf.keras.Model):
    def __init__(self):
        super(CustomModel, self).__init__()
        self.conv1 = tf.keras.layers.Conv2D(32, (3, 3), activation='relu')
        self.pool1 = tf.keras.layers.MaxPooling2D((2, 2))
        self.flatten = tf.keras.layers.Flatten()
        self.dense1 = tf.keras.layers.Dense(128, activation='relu')
        self.output_layer = tf.keras.layers.Dense(10, activation='softmax')

    def call(self, inputs):
        x = self.conv1(inputs)
        x = self.pool1(x)
        x = self.flatten(x)
        x = self.dense1(x)
        return self.output_layer(x)

# 创建模型实例
model = CustomModel()

# 模型摘要
model.build(input_shape=(None, 28, 28, 1))  # 假设输入是28x28的灰度图像
model.summary()

代码解析：

Conv2D 用于卷积层，MaxPooling2D 用于池化层，Flatten 用于展平操作，Dense 用于全连接层。
模型结构逐层推进，通过卷积、池化、展平、全连接等层级实现特征提取与分类。

输出：

Model: "custom_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 conv2d (Conv2D)             (None, 26, 26, 32)        320       
 max_pooling2d (MaxPooling2D (None, 13, 13, 32)        0         
 flatten (Flatten)           (None, 5408)              0         
 dense (Dense)               (None, 128)               692832    
 dense_1 (Dense)             (None, 10)                1290      
=================================================================
Total params: 694,442
Trainable params: 694,442
Non-trainable params: 0
_________________________________________________________________

在这个示例中，我们使用了卷积层、池化层、展平层和全连接层来定义一个卷积神经网络（CNN）。模型的参数量也可以通过 model.summary() 查看。

2.2 自定义层

除了使用 tf.keras.layers 提供的现成层，我们还可以定义自定义层。自定义层通常通过继承 tf.keras.layers.Layer 类来实现，并重写其 build 和 call 方法。

示例代码：自定义层

class MyLayer(tf.keras.layers.Layer):
    def __init__(self, units=32):
        super(MyLayer, self).__init__()
        self.units = units

    def build(self, input_shape):
        # 创建权重矩阵
        self.w = self.add_weight(shape=(input_shape[-1], self.units),
                                 initializer='random_normal',
                                 trainable=True)

    def call(self, inputs):
        # 自定义前向传播
        return tf.matmul(inputs, self.w)

# 使用自定义层
class CustomModelWithLayer(tf.keras.Model):
    def __init__(self):
        super(CustomModelWithLayer, self).__init__()
        self.dense = MyLayer(10)
        
    def call(self, inputs):
        return self.dense(inputs)

# 创建模型实例
model = CustomModelWithLayer()

# 模型摘要
model.build(input_shape=(None, 784))  # 输入为784维的向量
model.summary()

在这个例子中，我们定义了一个自定义层 MyLayer，该层通过 tf.matmul 进行矩阵乘法操作，来实现简单的全连接逻辑。

3. 总结

在本篇文章中，我们深入探讨了如何使用 tf.keras.Model 和 tf.keras.layers 构建自定义模型：

组件类型	使用方式	说明
tf.keras.Model	通过继承 `tf.keras.Model` 自定义模型，并实现 `call` 方法	定义模型结构，管理训练、评估和推理
tf.keras.layers	使用现成层（如 `Dense`、`Conv2D` 等）	定义模型的各个层，构建神经网络结构
自定义层	继承 `tf.keras.layers.Layer` 并实现 `build` 和 `call` 方法	创建特定的自定义运算逻辑和层