强化学习玩转Pokemon Red：揭秘run_action_on_emulator函数与动作空间设计终极指南

想要让AI学会玩Pokemon Red游戏吗？🤖 今天我们将深入探索PokemonRedExperiments项目的核心实现，特别聚焦于run_action_on_emulator函数的设计原理和动作空间的巧妙构建。这个开源项目展示了如何通过强化学习训练智能体掌握经典Game Boy游戏Pokemon Red，实现从零开始的游戏通关。## 项目概述与强化学习环境搭建PokemonRedE

吴年前Myrtle

946人浏览 · 2026-03-19 15:25:38

吴年前Myrtle · 2026-03-19 15:25:38 发布

强化学习玩转Pokemon Red：揭秘run_action_on_emulator函数与动作空间设计终极指南

【免费下载链接】PokemonRedExperiments Playing Pokemon Red with Reinforcement Learning 项目地址: https://gitcode.com/gh_mirrors/po/PokemonRedExperiments

项目概述与强化学习环境搭建

PokemonRedExperiments是一个基于Python的强化学习项目，使用Stable Baselines3框架和PyBoy模拟器构建。项目通过创建自定义的Gym环境，让AI智能体能够与Pokemon Red游戏进行交互学习。核心代码位于baselines/red_gym_env.py和v2/red_gym_env_v2.py文件中。

动作空间设计：智能体的操作基础

基础动作定义

项目的动作空间设计非常精妙，将Game Boy的物理按键映射为强化学习的离散动作空间。在baselines/red_gym_env.py中，我们可以看到基础动作的定义：

self.valid_actions = [
    WindowEvent.PRESS_ARROW_DOWN,
    WindowEvent.PRESS_ARROW_LEFT,
    WindowEvent.PRESS_ARROW_RIGHT,
    WindowEvent.PRESS_ARROW_UP,
    WindowEvent.PRESS_BUTTON_A,
    WindowEvent.PRESS_BUTTON_B,
]

这6个基础动作对应了方向键的上下左右和A、B两个功能键，构成了智能体与游戏交互的核心指令集。

扩展动作选项

为了增加智能体的操作灵活性，项目还提供了额外的按钮选项：

if self.extra_buttons:
    self.valid_actions.extend([
        WindowEvent.PRESS_BUTTON_START,
        WindowEvent.PASS
    ])

这样，动作空间可以扩展到8个动作，包括START键和"什么都不做"的PASS动作，为智能体提供更丰富的策略选择。

run_action_on_emulator函数：动作执行的核心引擎

函数实现解析

run_action_on_emulator函数是连接强化学习智能体与游戏模拟器的桥梁。在baselines/red_gym_env.py的第233行，我们可以看到其核心实现：

def run_action_on_emulator(self, action):
    # 按下按钮并在若干步后释放
    self.pyboy.send_input(self.valid_actions[action])
    # 不需要渲染时禁用渲染
    if not self.save_video and self.headless:
        self.pyboy._rendering(False)
    for i in range(self.act_freq):
        # 释放动作，使其成为无状态操作
        if i == 8:
            if action < 4:
                # 释放方向键
                self.pyboy.send_input(self.release_arrow[action])
            if action > 3 and action < 6:
                # 释放按钮
                self.pyboy.send_input(self.release_button[action - 4])
            if self.valid_actions[action] == WindowEvent.PRESS_BUTTON_START:
                self.pyboy.send_input(WindowEvent.RELEASE_BUTTON_START)
        if self.save_video and not self.fast_video:
            self.add_video_frame()
        if i == self.act_freq-1:
            self.pyboy._rendering(True)
        self.pyboy.tick()
    if self.save_video and self.fast_video:
        self.add_video_frame()

关键设计特点

动作持续时间控制：通过act_freq参数控制每个动作的执行帧数
按键释放机制：在第8帧时释放按键，确保不会出现按键卡住的情况
渲染优化：在不需要视频记录时禁用渲染，提高训练速度
视频帧捕获：支持训练过程的可视化记录

强化学习训练流程与step函数

环境交互循环

在baselines/red_gym_env.py中，step函数负责执行智能体的动作并返回新的状态和奖励：

def step(self, action):
    self.run_action_on_emulator(action)
    # 处理奖励计算和状态更新
    return obs_memory, new_reward*0.1, False, step_limit_reached, {}

这个函数形成了强化学习的核心循环：动作执行→状态观察→奖励计算→策略更新。

奖励函数设计

项目的奖励系统考虑了多个因素：

探索奖励：鼓励智能体访问新的游戏区域
战斗奖励：基于宝可梦等级提升和经验获取
进度奖励：基于游戏剧情推进
惩罚机制：避免无效操作和死亡

实战训练：如何启动你的AI训练

环境配置步骤

安装依赖：进入baselines目录运行pip install -r requirements.txt
准备游戏ROM：将Pokemon Red ROM文件重命名为PokemonRed.gb
启动训练：运行python baseline_fast_minimal.py

训练脚本示例

查看baselines/baseline_fast_minimal.py文件，可以看到完整的训练流程：

from stable_baselines3 import PPO
from red_gym_env_minimal import PokeRedEnv

# 创建环境
env = PokeRedEnv(config=config)

# 创建PPO模型
model = PPO("CnnPolicy", env, verbose=1)

# 开始训练
model.learn(total_timesteps=1000000)

高级特性与优化技巧

V2版本的改进

在v2/red_gym_env_v2.py中，项目引入了多项优化：

坐标探索奖励：替代帧KNN，减少内存使用
更快的训练速度：优化了状态处理和奖励计算
默认流媒体支持：实时可视化训练过程

多环境并行训练

项目支持使用SubprocVecEnv进行并行训练，显著提高训练效率：

from stable_baselines3.common.vec_env import SubprocVecEnv

num_cpu = 24  # 设置并行环境数量
env = SubprocVecEnv([make_env(i) for i in range(num_cpu)])

可视化与监控

TensorBoard集成

项目内置了TensorBoard回调函数，方便监控训练进度：

from tensorboard_callback import TensorboardCallback

# 在训练脚本中添加回调
callbacks = [TensorboardCallback()]

实时地图可视化

通过baselines/stream_agent_wrapper.py可以将训练过程实时流式传输到共享地图，实现多用户协同可视化。

总结与展望

PokemonRedExperiments项目展示了强化学习在复杂游戏环境中的应用潜力。通过精心设计的run_action_on_emulator函数和动作空间，项目成功地将经典游戏Pokemon Red转化为强化学习训练环境。

核心收获：

动作空间设计需要考虑游戏的实际操作需求
run_action_on_emulator函数是连接AI与游戏的关键桥梁
合理的奖励函数设计对训练效果至关重要
可视化工具极大提升了训练过程的可解释性

无论你是强化学习初学者还是经验丰富的研究者，这个项目都为你提供了宝贵的实践案例。通过深入理解动作空间设计和run_action_on_emulator函数的实现，你可以更好地应用强化学习技术解决实际问题。

现在就开始你的Pokemon Red AI训练之旅吧！🎮 克隆仓库并按照指南设置环境，亲身体验强化学习的魅力。记得关注训练过程中的可视化结果，观察AI如何从零开始学习游戏策略，最终成为宝可梦大师！

【免费下载链接】PokemonRedExperiments Playing Pokemon Red with Reinforcement Learning 项目地址: https://gitcode.com/gh_mirrors/po/PokemonRedExperiments

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

YOLOv11【第四章：巅峰前沿与融合篇·第13节】生物计算与神经形态硬件：Spike 脉冲神经网络替换 YOLOv11！

脑启社区

EM-Core 创造者叙事：从牛角尖，到通用智能架构

脑启社区

天赐范式第44天：算子大全与API白皮书Tianci Paradigm Day 44: Complete Operator Compendium and Unified API White Paper

脑启社区

所有评论(0)

查看更多评论

吴年前Myrtle

@gitblog_00201

已为社区贡献10条内容

强化学习玩转Pokemon Red：揭秘run_action_on_emulator函数与动作空间设计终极指南

吴年前Myrtle

强化学习玩转Pokemon Red：揭秘run_action_on_emulator函数与动作空间设计终极指南

项目概述与强化学习环境搭建

动作空间设计：智能体的操作基础

基础动作定义

扩展动作选项

run_action_on_emulator函数：动作执行的核心引擎

函数实现解析

关键设计特点

强化学习训练流程与step函数

环境交互循环

奖励函数设计

实战训练：如何启动你的AI训练

环境配置步骤

训练脚本示例

高级特性与优化技巧

V2版本的改进

多环境并行训练

可视化与监控

TensorBoard集成

实时地图可视化

总结与展望

所有评论(0)

温馨提示：您尚未绑定手机号

吴年前Myrtle