泽宇

Last seen: 거의 2년 전 | 2024년부터 활동

Followers: 0 Following: 0

질문

When using the reinforcement learning toolbox, when training the agent, there will be a problem that action is the boundary.
我在用深matlab强化学习工具箱进行自定义环境智能体训练，在第一次训练时（未得到奖励时），智能体给出的action是action约束范围内的值，然而在第二次训练时（得到第一次训练的奖励后），智能体给出的action是action却是约束范围的边界值？并且...

2년 초과 전 | 답변 수: 0 | 0

답변

질문

TD3算法训练时动作总是输出边界值
我在使用TD3算法训练完成后，无论训练过程中奖励曲线是否收敛，动作总是输出边界值或者输出完全不正确。我的state的值在0-20000，动作边界在0-15000.是哪里出了问题，是自定义环境创建的不正确还是哪里？需要对输入输出进行归一化吗

2년 초과 전 | 답변 수: 1 | 0

답변