Actor-Critic方法详解：A2C算法从理论到代码实现

深度强化学习（Deep Reinforcement Learning）是人工智能领域的热门方向，而Actor-Critic方法作为其中的重要分支，结合了策略梯度和价值函数的优势，成为解决复杂决策问题的有效工具。本文将详细介绍Actor-Critic方法的核心原理，并以A2C（Advantage Actor-Critic）算法为例，从理论到代码实现全面解析其工作机制。## Actor-Criti

陶淑菲

1013人浏览 · 2026-04-23 12:21:56

陶淑菲 · 2026-04-23 12:21:56 发布

Actor-Critic方法详解：A2C算法从理论到代码实现

【免费下载链接】drl-zh Deep Reinforcement Learning: Zero to Hero! 项目地址: https://gitcode.com/gh_mirrors/dr/drl-zh

Actor-Critic方法的基本原理

Actor-Critic方法包含两个主要组件：Actor（策略网络） 和 Critic（价值网络）。Actor负责学习如何选择动作以最大化累积奖励，而Critic则评估Actor选择的动作好坏，为Actor提供改进方向。两者协同工作，实现策略的高效优化。

Actor与Critic的协作机制

Actor：以当前状态为输入，输出动作的概率分布，通过策略梯度更新参数，目标是提高高回报动作的选择概率。
Critic：以当前状态（或状态-动作对）为输入，输出状态的价值估计，通过时序差分（TD）误差更新参数，目标是准确评估状态价值。

Actor-Critic方法的优势在于：

相比纯策略梯度方法，利用Critic提供的价值估计减少了策略更新的方差
相比纯价值函数方法，能够直接优化策略，适用于连续动作空间

图：强化学习智能体与环境交互的基本框架，Actor-Critic方法遵循这一交互模式

A2C算法核心思想

A2C（Advantage Actor-Critic）是Actor-Critic方法的重要变种，其核心改进是引入了优势函数（Advantage Function），定义为：

A(s,a) = Q(s,a) - V(s)

其中Q(s,a)是动作价值函数，V(s)是状态价值函数。优势函数表示在状态s下选择动作a相比平均水平的优势，能够更有效地指导策略更新。

A2C的主要改进

优势估计：使用TD误差估计优势函数，减少方差
并行训练：通过多个并行环境收集经验，提高样本效率
n-step回报：考虑多步回报，平衡偏差和方差

图：策略梯度方法的基本原理，A2C在此基础上引入了优势函数估计

A2C算法实现步骤

1. 网络架构设计

A2C通常采用共享特征提取层的网络结构，包含：

共享卷积/全连接层：提取状态特征
Actor头：输出动作概率分布
Critic头：输出状态价值估计

在项目的solution/08_EXPL.ipynb中，实现了如下网络结构：

class ActorCritic(nn.Module):
    def __init__(self, action_dim, hidden_dim=64):
        super(ActorCritic, self).__init__()
        # 共享卷积层
        self.features = convolutional_embedding()
        # Actor头
        self.policy_head = nn.Sequential(
            nn.Linear(1024, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, action_dim),
        )
        # Critic头（外在奖励）
        self.value_extr_head = nn.Sequential(
            nn.Linear(1024, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, 1)
        )
        # Critic头（内在奖励）
        self.value_intr_head = nn.Sequential(
            nn.Linear(1024, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, 1)
        )

2. 经验收集与优势估计

A2C通过与环境交互收集轨迹数据，并计算优势函数。项目中的训练循环实现如下：

def train(env: gym.vector.VectorEnv, agent: BaseAgent, rollout_size=16,
          log_every = 100, solved_score=0.95):
    """The A2C training loop."""
    n_step = 0
    avg_score = 0.0
    obs, _ = env.reset()
    obs    = torch.Tensor(obs).to(DEVICE)
    while True:
        # 收集轨迹段
        segment = collect_trajectory_segment(env, agent, obs, rollout_size,
                                             with_intrinsic_values=True)
        # 学习更新
        stats = agent.learn(segment)
        # 更新状态
        obs = segment.next_start_obs
        # 日志与早停逻辑
        n_step += 1
        if n_step % log_every == 0:
            avg_score = np.mean(env.return_queue)
            print(f'Global step: {n_step*rollout_size}, Average Score: {avg_score:.5f}')
        if avg_score > solved_score:
            print(f'Environment solved with avg_score: {avg_score:.5f}')
            break

3. 损失函数与参数更新

A2C的损失函数由三部分组成：

策略损失：基于优势函数的策略梯度
价值损失：状态价值的均方误差
熵损失：鼓励探索，提高策略的随机性

在AgentA2C类的learn方法中实现了损失计算与参数更新：

class AgentA2C(BaseAgent):
    def __init__(self, env, gamma=0.99, lr=0.0001, vloss_coeff=0.5,
                 ent_coeff=0.01, max_grad_norm=0.5):
        self.env = env
        self.gamma = gamma
        self.vloss_coeff = vloss_coeff  # 价值损失系数
        self.ent_coeff = ent_coeff      # 熵损失系数
        self.model = ActorCritic(env.action_space[0].n).to(DEVICE)
        self.optimizer = optim.RMSprop(self.model.parameters(), lr=lr)

A2C算法实战应用

基本A2C实现

在项目中，我们可以通过以下代码初始化并训练A2C智能体：

agent_a2c = AgentA2C(env)
train(env, agent_a2c, rollout_size=16, log_every=100)

A2C与探索机制结合

为提高智能体的探索能力，项目中还实现了结合RND（Random Network Distillation）的A2C扩展版本：

class AgentA2CWithRND(BaseAgent):
    # 在A2C基础上增加RND探索机制
    def __init__(self, env, gamma=0.99, lr=0.0001, vloss_coeff=0.5,
                 ent_coeff=0.01, max_grad_norm=0.5, rnd_coeff=0.5):
        super().__init__()
        # ... RND相关初始化 ...

训练带RND探索的A2C智能体：

agent_rnd = AgentA2CWithRND(env)
train(env, agent_rnd, rollout_size=16, log_every=100)

图：使用TensorBoard可视化A2C训练过程，可直观监控奖励和损失变化

A2C算法优缺点分析

优点

样本效率高：相比纯策略梯度方法，利用价值函数减少了方差
训练稳定：优势函数估计提供了更可靠的策略更新方向
易于实现：网络结构简洁，适合快速原型开发

缺点

偏差-方差权衡：价值估计的偏差可能影响策略更新
超参数敏感：学习率、价值损失系数等超参数需要仔细调优
探索能力有限：需要额外机制（如RND）增强探索

总结与扩展

A2C作为Actor-Critic方法的典型代表，通过优势函数有效结合了策略梯度和价值函数的优势，成为深度强化学习的重要基础算法。项目中的实现展示了A2C在网格世界等环境中的应用，并通过RND等机制进一步提升了算法性能。

要深入学习A2C算法，建议参考项目中的完整实现：

A2C基础实现：solution/08_EXPL.ipynb
策略梯度方法：04_PG.ipynb
PPO算法（A2C的重要扩展）：06_PPO.ipynb

通过掌握A2C算法，你将为学习更复杂的深度强化学习算法（如PPO、SAC等）打下坚实基础，开启你的强化学习之旅！ 🚀

要开始使用本项目，可通过以下命令克隆仓库：

git clone https://gitcode.com/gh_mirrors/dr/drl-zh

【免费下载链接】drl-zh Deep Reinforcement Learning: Zero to Hero! 项目地址: https://gitcode.com/gh_mirrors/dr/drl-zh

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

Python实现生物启发的脉冲神经元模型

在类脑计算与神经形态工程实践中，与的平衡始终是核心挑战。主流深度学习框架（如 PyTorch/TensorFlow）虽能高效模拟人工神经网络，但对等关键生物机制支持薄弱。本文不走“黑盒拟合”路线，而是基于与，构建一个轻量、可调试、符合皮层微环路结构特征的脉冲神经元模块，并完整实现带空间约束的 STDP 学习规则。