強化学習デザイナーについて

Question

0 개 추천

強化学習デザイナーを用いて自作の環境インポートし、エージェントを作成させて学習させています。

しかし、私が望むデータが得られず困っています。そこ伺いたい事なんですが、強化学習デザイナーで作成するエージェントはcartpoleの環境に依存している物でしょうか？ただ私の作成した環境に問題があるのでしょうか？

参考までに私が作成した環境は正弦波を用いて振幅をの最大値を求めようとしたものです

よろしくお願いします

댓글 수: 0
이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

Answer 1

Hiro Yoshino 2024년 12월 2일

0 개 추천

"データが得られずに" の部分が良く理解できていませんが、アプリで作成するエージェントは特定の環境に異存している物では有りません。

環境の作成方法は色々ありまして、時間に沿ったシミュレーションを行う環境でしたら Simulink で作成したり、そうでなければ MATLAB で作成するなど様々んです。action を加えることができ、そこから報酬と状態を取り出すことが出来れば環境としては満足しています。

上手く動作しないのは、適当なアルゴリズムが選択できていない、適当な方策の表現方法が選択出来ていない、学習パラメータが適当に設定されていない、そして一番多いのが報酬が上手く設定されていない ... 色々と原因が考えられます。

報酬の設定で四苦八苦されるパターンが多く、この reward shaping が強化学習の鍵です