w

Last seen: 1년 초과 전 | 2024년부터 활동

Followers: 0 Following: 0

질문

为什么智能体重复进行惩罚很大的动作，我应该如何调整我的智能体或者在simulink中进行更改？
利用ppo算法进行强化学习解决调度问题，智能体的动作为流速例如假设储罐的上限为400，下限为0，已经利用Integrator模块对其进行限制上限为500，下限为-100 如图所示，蓝线和橙色的线直接超出最大值，绿线和紫线直接超出最小值，且其中没有...

1년 초과 전 | 답변 수: 0 | 0

답변

질문

matlab强化学习多维离散动作如何创建
action1_values = 0:1:40; action2_values = 0:1:40; [action1, action2] = ndgrid(action1_values, action2_values); discreteAction...

1년 초과 전 | 답변 수: 0 | 0

답변