OpenAI Gym学习(三):Mujoco训练REINFORCE(一种早期的策略梯度方法)
时间:2023-08-08 00:14:43 来源:哔哩哔哩
MuJoCo是一个免费开源的物理引擎,旨在促进机器人、生物力学、图形和动画以及其他需要快速准确模拟的领域的研究和开发。
(资料图片)
MuJoCo提供了速度、精度和建模能力的独特组合,但它不仅仅是一个更好的模拟器。相反,它是第一个从头开始设计的全功能模拟器,用于基于模型的优化,特别是通过接触进行优化。
MuJoCo使优化控制、物理一致状态估计、系统识别和自动机构设计等计算密集型技术得以扩展,并将其应用于具有丰富接触行为的复杂动力系统。它还具有更传统的应用,如在物理机器人上部署之前测试和验证控制方案、交互式科学可视化、虚拟环境、动画和游戏。
本教程有两个目的:
1、了解如何从零开始实现强化学习算法以解决Mujoco的倒立式InvertedPendulum-v4
2、利用Gymnasium +step()函数实现深度强化学习算法
我们将使用最早的策略梯度方法之一。与先学习一个价值函数,然后从中推导出一个策略不同,REINFORCE直接优化了策略。换句话说,它被训练为最大化蒙特卡洛回归的概率。稍后会详细介绍。
Inverted Pendulum倒立摆是Mujoco版本的cartpole,但现在由Mujoco物理模拟器驱动,该模拟器可以进行更复杂的实验(例如改变重力的影响)。这种环境包括一个可以线性移动的推车(Cart),一端固定一根杆子,另一端自由。推车(Cart)可以向左或向右推动,目的是通过在推车上施加力来平衡推车顶部的杆子。有关环境的更多信息,请访问/environments/mujoco/inverted_pendulum/
Training Objectives:平衡推车顶部的杆(倒立摆)
Action:agent采用1D矢量进行动作。动作空间是[-3,3]中的连续(动作),其中动作表示施加到推车上的数值力(大小表示力的大小,符号表示方向)
Approach,方法:我们使用PyTorch从头开始对REINFORCE进行编码,以训练掌握倒立摆的神经网络策略。
Gymnasium +()函数的一个解释
step(A)允许我们在当前环境“env”中执行操作“A”。然后,环境执行该操作并返回五个变量:
next_obs
: 这是代理在执行操作后将收到的观察结果。
reward
: 这是代理在执行操作后将收到的观察结果。
terminated
: 这是一个布尔变量,指示环境是否已终止
truncated
: 这是一个布尔变量,还指示事件是否以提前截断结束,即达到时间限制。
info
: 这是一个字典,可能包含有关环境的其他信息。
Policy Network
我们首先建立一个策略,代理将使用钢筋学习。策略是从当前环境观察到要采取的行动的概率分布的映射。教程中使用的策略由神经网络参数化。它由两个线性层组成,在预测平均值和标准差之间共享。此外,使用单个单独的线性层来估计平均值和标准偏差。Tanh被用作隐藏层之间的非线性算子。以下函数估计正态分布的平均值和标准偏差,从中对动作进行采样。因此,预计该政策将根据当前观察结果学习输出均值和标准差的适当权重。
Building an agent
既然我们已经完成了策略的制定,让我们开发增强型,为策略网络注入活力。REINFORCE的算法可以在上面找到。如前所述,REINFORCE旨在最大化蒙特卡洛回报。
有趣的事实:REINFOCE是“RE”ward“I increment”N on negative“F”actor times“O’ffset”R“inforcement times”C“haracteristic”E“igibility”的缩写
注意:超参数的选择是为了训练一个性能良好的agent。没有进行广泛的超参数调整。
现在让我们使用REINFORCE来训练策略来掌握倒立摆的任务。
以下是训练程序的概览
注意:在许多常见的用例中,Deep RL在随机种子方面相当脆弱(/en/latest/spinningup/)。因此,测试各种种子是很重要的,我们将要这样做。
Plot learning curve
References
[1] Williams, Ronald J.. “Simple statistical gradient-following algorithms for connectionist reinforcement learning.” Machine Learning 8 (2004): 229-256.
标签:
最新文章推荐
- OpenAI Gym学习(三):Mujoco训练REINFORCE(一种早期的策略梯度方法)
- 后世之谬其传而莫能名者的莫是什么意思 后世之谬其传而莫能名者
- 飞越万里逐梦大运会 佛得角运动员:在成都的每个时刻都很美好
- 古代书斋名
- 妙乐乐母婴 妙乐乐
- 周华健带妻游日本,沧桑如老太
- 长存YYDS!移速4TB固态硬盘仅999元:7450MB/s
- 涨停复盘:资金尾盘涌向超导概念,国缆检测“翻倍”!史上最强暑期档催热影视股,数据要素概念反复活跃
- 婴儿白癜风初发时要怎么治疗 脸上出现白癜风时要怎么办
- 西安银行(600928):西安银行股份有限公司关于股东股份质押
X 关闭
资讯中心
2022-10-09
2022-08-15
2022-05-20
2021-10-18
X 关闭
热点资讯
-
1
杏花绽放催热“赏花经济” 吸引了大量游客前来旅游
-
2
上海籍阳性夫妻内蒙古密接、次密接者出现初筛阳性情况
-
3
内蒙古二连浩特:市民非必要不出小区、不出城
-
4
重庆一名潜逃24年的持枪抢劫嫌犯落网
-
5
销售有毒、有害食品 郭美美获刑二年六个月
-
6
陕西新增6名确诊病例1名无症状感染者 西安全面开展排查管控
-
7
《加强建设中国风湿免疫病慢病管理》倡议书:建立基层医院独立风湿科
-
8
游客因未购物遭导游辱骂?九寨沟:相关部门已介入调查
-
9
郭美美再入狱!销售有毒有害食品获刑2年6个月
-
10
2020年黄河青海流域冰川面积和储量较十年前缩减
-
11
5名“摸金校尉”落网 内蒙古警方破获一起盗掘古墓葬案