rlLinearBasisRepresentationを使用した自作エージェントの作成方法に関して

そのため，すでに用意されている，PGAgentの実装を参考に勾配の計算，パラメータの更新を行うコードを追わせていただいております．その際，rlLinearBasisRepresentationで勾配を求める際，質問に書かせていただいている，rl.internal.ad.modelのメソッドを呼び出しており，動作が追えないという状況です．（現状はメソッドの入出力および前後のコメントから動作を推測して使用しております）

> 勾配を求めないで話が済む強化学習にまずは取り組んでみるというのはどうでしょうか？

こちらに関しましては，すでにCustum Agentを継承するサンプルを参考にすでに行っております．

また，現在研究で使用させていただいていることもあり，別の強化学習器を使用することは困難です．

よろしくお願いいたします．

Hiro Yoshino 2020년 3월 5일

まず、ごめんなさい：

https://jp.mathworks.com/help/reinforcement-learning/ug/custom-agents.html

を読んでいたら、方策勾配法以外の部分も有りますね。失礼しました。Q学習もカスタム出来そうです。

そして、ごめんなさい2: 回答はすぐ出ません。そのうえで私の知っている事と、想像を書きます：

custom agentを使った方法は、ちょっと直ぐには答えが私からは出てきませんが、少し目先を変えます。

まず、勾配の部分ですが線形基底関数での近似なので、ひょっとしたら勾配くらいは解析的に求められるのでは無いですか？そうしたら、組み込まなくても良いですよね？外で計算ができるはずです。

二点目ですが、ニューラルネットワークでQを近似したものの勾配は解析的に求められないので、誤差逆伝搬法というややこしいアルゴリズムで関節的に計算します。DLを使った強化学習での「勾配計算」はこの逆伝搬をやってくれるというもので、上記のような所謂勾配計算とはまた別のモノだと思われます。DLを想定している場所に、数値的には直ぐにできるユーザー定義のQ関数の勾配計算を組み込むのは....変な気がします。

従って、ご意見を見ている限りですが、教科書の初めに出てくるようなTD-Qを連続量でやられたいのかな？と思いました。それはカスタムというか、Qの関数表現を定義するだけの話なのでは？

https://jp.mathworks.com/help/reinforcement-learning/ug/create-policy-and-value-function-representations.html

にQの近似の方法が書いてありそうです。普通にQ学習のエージェントクラスから、そのメンバとしてQの設計をするという流れなような気がします。

こちらに

https://jp.mathworks.com/help/reinforcement-learning/ug/q-agents.html

"Q-learning agent maintains a critic Q(S,A), which is a table or function approximator."

なんて記述が有ります。恐らくテーブル以外の表現（つまり関数近似)ができるのでは？と思います。

Teppei Iwata 2020년 3월 19일

返信が遅くなり申し訳ございません。

> 教科書の初めに出てくるようなTD-Qを連続量でやられたいのかな？と思いました。それはカスタムというか、Qの関数表現を定義するだけの話なのでは？

状態価値に関しては，関数近似Q-learning(SARSA)などと同じことを行っています．

しかし現在，連続行動を取り扱おうとしており，用意されているAgentは使用できませんでした．

MATLAB2020aでのサンプルコードに勾配を使用した学習のサンプルが提示されておりましたのでこちらを参考に勧めてみたいと思います．

https://jp.mathworks.com/help/reinforcement-learning/ug/train-reinforcement-learning-policy-using-custom-training.html

ご回答ありがとうございました．

댓글을 달려면 로그인하십시오.

rlLinearBasisRepresentationを使用した自作エージェントの作成方法に関して

댓글 수: 0
이전 댓글 -2개 표시이전 댓글 -2개 숨기기

채택된 답변

댓글 수: 5
이전 댓글 3개 표시이전 댓글 3개 숨기기

추가 답변 (0개)

참고 항목

카테고리

태그

제품

릴리스

Community Treasure Hunt

rlLinearBa​sisReprese​ntationを使用​した自作エージェント​の作成方法に関して

댓글 수: 0 이전 댓글 -2개 표시이전 댓글 -2개 숨기기

채택된 답변

댓글 수: 5 이전 댓글 3개 표시이전 댓글 3개 숨기기

추가 답변 (0개)

참고 항목

카테고리

태그

제품

릴리스

Community Treasure Hunt

rlLinearBasisRepresentationを使用した自作エージェントの作成方法に関して

댓글 수: 0
이전 댓글 -2개 표시이전 댓글 -2개 숨기기

댓글 수: 5
이전 댓글 3개 표시이전 댓글 3개 숨기기