news 2026/5/28 4:28:46

大模型学习基础(六) 强化学习(Reinforcement Learning,RL)初步1.2

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型学习基础(六) 强化学习(Reinforcement Learning,RL)初步1.2

我们已经知晓强化学习的基本要素有actor、environment、reward。强化学习的基本模型如下:

environment交给actor一个observation,即s;actor得到s向量以后给出动作action,即a;a、s输入reward模型,得到分数r,通过分数来衡量优势函数A的取值(上述例子直接用奖励r定义优势函数);损失函数通过交叉熵和A共同定义,通过减小损失函数,优化actor的参数

而实际上,每一个动作a会直接影响到后续的s和a,因此a之间并不是相互独立的。另外一个问题是,如果简单的用r来作为A的数值,会有一个问题,就是只有在做固定的action时A才会增加,这会导致actor只会选择固定的action,实际上的RL对A的定义有多种方法。

一种定义优势函数的方法是把动作a之后所有动作获得的r累计起来,作为该动作的优势函数。

优势函数,使用此优势函数将会使actor的action选择更加多样化,而不是只采用reward为正的动作,从而更可能从全局视角考虑问题的最优解。

但是上述定义优势函数的方法有一个问题,那就是奖励的值似乎并不直接受到动作的影响,或者说受到其影响较小,更合适的一种优势函数设定的方法是

可能存在一种情况,即所有的action对应的A都是大于零的,这样actor将会认为所有的action都是好的,这显然不对;所以还需要对A进行标准化。最简单的标准化方法是直接减去一个baseline,即,就是baseline,人为设定。

接下来介绍上述思想的程序逻辑:
1.actor是一个神经网络模型,首先需要初始化actor的参数

2.actor初始化之后,用其跟environment进行互动,得到一系列的

3.计算优势函数,用于评价对的得分

4.定义损失函数,如交叉熵

5.用优化器结合损失函数更新actor参数

这里有一个重要问题,actor在训练过程中所使用的训练集使它自己和环境交互产生的,这是RL显著区别于传统的监督学习的地方。

上述例子中,actor每和environment互动一次,产生一组{s,a},然后再计算价值函数A,接着计算出损失函数,更新actor的参数;在下一个循环中,actor已经是新的actor了,其和environment互动将产生新的{s,a},然后循环此过程。这意味着actor每次用来的训练的数据都是它自己产生的。这种训练用自己产生的数据训练自己的方法叫做on-policy。这种方法的局限在于收集资料的过程太过于漫长,而不能像监督学习一样直接使用现成的数据集。

对应的,自然有actor依赖别的actor所产生的数据进行训练的方法,叫做off-policy。一种经典的off-policy算法就是之前提到过的PPO(近端策略优化)。

在训练过程中,为了使得模型泛化能力更强,需要给actor增加一定的随机性,如在actor的参数上加一些noise或者扩大actor输出的交叉熵

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 6:30:08

AI 如何改变 IT 行业:从工具到伙伴的深刻变革

引言 在过去的几年里,人工智能(AI)已经从科幻概念迅速演变为 IT 行业的核心驱动力。2025 年,我们看到 AI 不再是锦上添花的功能,而是深度融入开发、运维、安全、数据等几乎所有领域的底层技术。AI 的广泛应用正在重塑 IT 从业者的日常工作,既带来了效率的飞跃,也改变了…

作者头像 李华
网站建设 2026/5/26 6:30:07

14、网络信息系统(NIS):原理、配置与应用详解

网络信息系统(NIS):原理、配置与应用详解 1. 引言 在局域网环境中,为用户提供透明的网络体验是一个重要目标。其中,确保关键数据(如用户账户信息)在所有主机间同步至关重要,这能让用户自由切换设备,无需记忆不同密码或复制数据。虽然域名系统(DNS)在互联网上用于特…

作者头像 李华
网站建设 2026/5/27 18:49:08

git迁移代码到其他仓库的方法 个人记录

克隆只包含指定分支的仓库 git clone --single-branch --branch <branch-name> <原仓库URL>如&#xff1a; git clone --single-branch --branch develop-重构1128 http://xxxllm_platform/test.gitcd <repo-directory>添加新的远程仓库 git remote add ne…

作者头像 李华
网站建设 2026/5/26 15:36:56

PPT排版又丑又慢怎么办?这个“AI生成PPT”功能,3秒拯救你的PPT

你是不是也遇到过这样的情况&#xff1a;明明内容都想好了&#xff0c;可一做PPT就头疼&#xff1f;调字体、对格式、找图片、排版面……折腾好几个小时&#xff0c;做出来的PPT还是不好看。更让人崩溃的是&#xff0c;有时候半夜还在改PPT格式&#xff0c;就为了第二天早上开会…

作者头像 李华
网站建设 2026/5/25 10:06:04

再次紧急修复,Flutter 针对 WebView 无法点击问题增加新的快速修复

前几天我们刚聊了 《Flutter 官方正式解决 WebView 在 iOS 26 上有点击问题》 &#xff0c;这是一个完整的底层重构修复&#xff0c;整个修复周期审核堪比“博士论文”&#xff0c;但是也带来了一个问题&#xff0c;它只修复了 Engine 和 Framework 层面问题&#xff0c;那插件…

作者头像 李华