news 2026/5/25 18:03:42

强化学习蒙特卡洛策略迭代方法求最优策略的代码实现(一)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习蒙特卡洛策略迭代方法求最优策略的代码实现(一)

基本思想:

MC_basic.py

注意:由于使用贪心策略,因此不支持stochastic策略。

from collections import defaultdict import numpy as np from env import GridWorldEnv from utils import drow_policy class MonteCarloPolicyIteration(object): def __init__(self, env: GridWorldEnv, gamma=0.9, samples=1): self.env = env self.action_space_size = self.env.num_actions # 上下左右原地 self.reward_space_size = self.env.reward_space_size # 执行每个动作的reward self.state_space_size = self.env.num_states self.reward_list = self.env.reward_list self.gamma = gamma self.samples=samples self.policy = np.zeros((self.state_space_size, self.action_space_size)) self.policy[:,0]=1.0 # 初始动作都是向上 self.action_value = np.zeros((self.state_space_size, self.action_space_size, self.samples)) # action value q(s,a) self.state_value= np.zeros((self.env.size,self.env.size)) def solve(self, iterations=20): for i in range(iterations): for s in range(self.state_space_size): for a in range(self.action_space_size): for k in range(self.samples): # 从(s,a)出发,遵循策略policy采样若干个episodes,并获得return的平均值 episodes = self.generate_episodes(s, a) returns = self.compute_returns(episodes) self.action_value[s,a,k]=returns qvalues = self.action_value.mean(axis=2) # k次采样的平均值 shape: [state_size, 5] best_a = np.argmax(qvalues, axis=1) # 每个state使得平均return最大的action index shape: [state_size] for s in range(self.state_space_size): if s in self.env.terminal: self.policy[s] = np.eye(self.action_space_size)[4] continue else: a_star = best_a[s] # 当前状态 s 的最优动作 index self.policy[s] = np.eye(self.action_space_size)[a_star] self.state_value = np.sum(self.policy * qvalues, axis=1).reshape(self.env.size,self.env.size) def generate_episodes(self, start_state, start_action, max_steps=200): ''' :param start_state: 当前状态的state_id :param start_action: 当前动作 :return: [(state_id, action,reward),(...)] ''' episode = [] state = start_state action = start_action for _ in range(max_steps): next_state, reward, done = self.env.step(state, action) episode.append((state, action, reward)) if done: break state = next_state action = np.random.choice(self.action_space_size, p=self.policy[state]) # 从[0,action_space_size)随机选一个,每个action的概率为policy[state] return episode def compute_returns(self, episodes): ''' :param episodes: 一条轨迹 [(state_id, action,reward),(...)] :return: 一条轨迹的累计return ''' G = 0 for (_, _, r) in reversed(episodes): G = r + self.gamma * G # 最后一步->第一步 return G if __name__ == '__main__': # transition_prob = { # "forward": 0.8, # "left": 0.05, # "right": 0.15 # } env = GridWorldEnv( size=5, forbidden=[(1, 2),(2,4)], terminal=[(4, 4)], r_boundary=-10, r_other=0, r_terminal=1, r_forbidden=-1 ) vi = MonteCarloPolicyIteration(env=env, gamma=0.9) vi.solve(iterations=20) print("\n state value: ") print(vi.state_value) print("\n 策略 π(s):") print(vi.policy) drow_policy(vi.policy, env)

env.py修改地方:

1. self.terminal和self.forbidden存储termina和forbiddenl对应的state_id,而不是传入的list。修改后要修改其他是用到self.terminal和self.forbidden的地方。

self.terminal = {self.state_id(x, y) for (x, y) in terminal} self.forbidden = {self.state_id(x, y) for (x, y) in forbidden} def build_reward_list(self): reward = set() reward.add(self.r_forbidden) reward.add(self.r_other) reward.add(self.r_terminal) reward.add(self.r_boundary) self.reward_list = sorted(list(reward)) self.reward_space_size = len(self.reward_list)

2. 分别为边界、其他、forbidden、terminal设置reward,而不是使用传入的list列表。

def __init__(self, size: int, terminal, forbidden, r_forbidden=-1, r_other=0, r_terminal=1, r_boundary=-1, transition_prob=None): ... self.r_forbidden = r_forbidden self.r_other = r_other self.r_terminal = r_terminal self.r_boundary = r_boundary ...

3. 新增step方法。

def step(self, state, action): ''' :param action: 当前所在的state_id :param action: 当前采取的动作 :return: state,reward,done 到达的下一个状态的state_id,获取的奖励,是否走到了终点 ''' if state in self.terminal: return state, self.r_terminal, True i, j = divmod(state, self.size) moves = { 0: (-1, 0), # 上 1: (0, 1), # 右 2: (1, 0), # 下 3: (0, -1), # 左 4: (0, 0) # 原地 } di, dj = moves[action] ni, nj = i + di, j + dj if not (0 <= ni < self.size and 0 <= nj < self.size): next_state = self.state_id(i,j) else: next_state = self.state_id(ni,nj) reward = self.reward_func(state, next_state, action) done = next_state in self.terminal return next_state, reward, done

相同配置下,policy iteration, value iteration与MC PI运行结果:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 7:18:04

数据结构:邻接矩阵

邻接矩阵 资料&#xff1a;https://pan.quark.cn/s/43d906ddfa1b、https://pan.quark.cn/s/90ad8fba8347、https://pan.quark.cn/s/d9d72152d3cf 一、邻接矩阵的定义 邻接矩阵是图的一种基础存储方式&#xff0c;通过一个二维数组来表示图中顶点之间的邻接关系。对于包含 n 个顶…

作者头像 李华
网站建设 2026/5/26 5:26:43

插件分享:将AI生成的数学公式无损导出为Word文档

对于经常使用DeepSeek、豆包等AI工具处理技术内容的小伙伴&#xff0c;一个常见的困扰是&#xff1a;生成的回答中包含的数学公式&#xff0c;复制到Word后往往变成难以编辑的代码或模糊图片&#xff0c;手动调整耗时费力。 本文将介绍解决此问题的技术方案和插件&#xff0c;…

作者头像 李华
网站建设 2026/5/26 7:20:37

Ubuntu 22.04 开发环境 CA 证书签发完整笔记(完整版)

Ubuntu 22.04 开发环境 CA 证书签发完整笔记 开发环境 前端: Vue3+TS+Vite+ESM 后端:NestJS 数据库:MySQL+Redis 虚拟机OS:Ubuntu 22.04 LTS 工作拓扑 开发环境参数(VS Code) 版本: 1.106.3 (Universal) Electron: 37.7.0 ElectronBuildId: 12781156 Chromium: 138.0.72…

作者头像 李华
网站建设 2026/5/24 19:44:57

Janus-Pro-1B终极指南:快速构建下一代多模态AI应用

Janus-Pro-1B是DeepSeek推出的革命性多模态模型&#xff0c;以其创新的视觉编码解耦架构重新定义了AI的理解与生成能力边界。这款仅需10亿参数的轻量级模型在图像生成与视觉理解任务上实现了对行业巨头的性能超越&#xff0c;为开发者提供了前所未有的技术接入门槛。 【免费下载…

作者头像 李华
网站建设 2026/5/24 6:04:52

手把手教你用JS正则表达式,轻松实现密码强度分步校验

在构建前端登录或注册功能时&#xff0c;密码强度的校验是保障用户账户安全的第一道防线。JavaScript正则表达式为此提供了高效、灵活的验证手段。本文将结合实际开发场景&#xff0c;探讨如何设计正则表达式来匹配符合常见安全策略的密码。 密码强度校验需要哪些核心规则 一个…

作者头像 李华
网站建设 2026/5/26 5:05:25

SenseVoice终极指南:快速掌握多语言音频理解核心技术

SenseVoice终极指南&#xff1a;快速掌握多语言音频理解核心技术 【免费下载链接】SenseVoice Multilingual Voice Understanding Model 项目地址: https://gitcode.com/gh_mirrors/se/SenseVoice SenseVoice是一个革命性的多语言音频理解基础模型&#xff0c;集成了语音…

作者头像 李华