離散行動を複数持つQ関数の作成

Question

MATLAB Online에서 열기

0 개 추천

rlFiniteSetSpec を使い、複数の離散行動を持つQ関数を作成したいのですが、

InputとDimensionの数が合わずエラーが返されてしまいます。

現在コードは下記のようにしているのですが、

DimensionをInputの数に合わせる方法はないでしょうか。

初歩的な質問となってしまいますが、

教えていただけますと幸いです。

%Actionに関するコード抜粋
NA = 5;
actInfo =rlFiniteSetSpec(NA);
actPath = [
    featureInputLayer(NA,'Normalization','none','Name','action')  
    fullyConnectedLayer(50,'Name','CA1')]

댓글 수: 0
이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

댓글을 달려면 로그인하십시오.

이 질문에 답변하려면 로그인하십시오.

Follow Question

Answer 1

Hiro Yoshino 2020년 10월 20일

0 개 추천

rlFiniteSetSPec の引数はInputの数では無く、実際に取り得る値を指定します

actionが1つならば、それが取り得る離散値をベクトルで渡します

actionが複数ならば、cellを使ってあり得る組み合わせのベクトルを渡します

https://jp.mathworks.com/help/reinforcement-learning/ref/rl.util.rlfinitesetspec.html#mw_68f70adf-d6a9-4cbe-846c-a7d0823c0774_sep_mw_770a16f8-3eaf-4f06-80ca-87296824fb89

このあたりに詳細が書いてあります

댓글 수: 3
이전 댓글 1개 표시 이전 댓글 1개 숨기기

Y. M 2020년 10월 21일

MATLAB Online에서 열기

現在このように書き換えてみました。

criticOpts＝...までは実行可能なのですが、やはりcritic=...で、

エラー: rl.representation.rlAbstractRepresentation/validateModelInputDimension (行 557)

Model input sizes must match the dimensions specified in the corresponding observation and action info specifications.

が返されてしまいます。

NS=4;
selectable_actions={1,2,3,4,5};
Ts = 0.05;
obsInfo =rlNumericSpec(NS);
obsInfo.Name = 'observation';
obsInfo.Description = '温度、絶対湿度、代表点壁面温度' ;    %状態に関する情報の説明（別になくてもいい）
actInfo =rlFiniteSetSpec(selectable_actions);
actInfo.Name = 'AirVolume' ;
NA = numel(actInfo.Elements);
    
obsPath = [
   featureInputLayer(NS,'Normalization','none','Name','state')   
    fullyConnectedLayer(50,'Name','CS1')             
actPath = [
    featureInputLayer(NA,'Normalization','none','Name','action')  
    fullyConnectedLayer(50,'Name','CA1')];
comPath=[   
    additionLayer(2,'Name','add')
    reluLayer('Name','CriticCommonRelu') 
    fullyConnectedLayer(1,'Name','output')];
    
dnn = layerGraph();
dnn = addLayers(dnn,obsPath);
dnn = addLayers(dnn,actPath);
dnn = addLayers(dnn,comPath);
dnn = connectLayers(dnn,'CS1','add/in1');
dnn = connectLayers(dnn,'CA1','add/in2');
figure
plot(layerGraph(dnn))
criticOpts = rlRepresentationOptions('LearnRate',0.001,'Optimizer',"rmsprop");
critic = rlQValueRepresentation(dnn,obsInfo,actInfo,'Observation',{'state'},'Action',{'action'},criticOpts);

Hiro Yoshino 2020년 10월 21일

MATLAB Online에서 열기

cellの扱い等を理解が怪しいのでMATLAB入門を受講されることをおススメします：

https://matlabacademy.mathworks.com/jp

selectable_actions=[1,2,3,4,5];

上のようにするのがドキュメンテーション通りです（恐らく、セルを使っても動作はしますが)

observationの数が3つっぽいのですが、NS = 4?そのあたりは大丈夫ですか？

obsInfo =rlNumericSpec([4 1]);

かなと思います。

いずれにしても、ドキュメンテーションに書いてありますので、よく読まれる事をおススメします。

https://jp.mathworks.com/help/reinforcement-learning/ref/rl.util.rlnumericspec.html#mw_dd97f7de-8690-4904-9211-08eb0123352b

Y. M 2020년 10월 21일

始めたばかりとはいえ、

初歩的なことで詰まってしまっていることがお恥ずかしいばかりです。

多くの助言を頂き、誠にありがとうございます。

댓글을 달려면 로그인하십시오.

離散行動を複数持つQ関数の作成

댓글 수: 0
이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

채택된 답변

댓글 수: 3
이전 댓글 1개 표시 이전 댓글 1개 숨기기

추가 답변 (0개)

카테고리

태그

Community Treasure Hunt

離散行動を複数持つQ関数の作成

댓글 수: 0 이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

채택된 답변

댓글 수: 3 이전 댓글 1개 표시 이전 댓글 1개 숨기기

추가 답변 (0개)

카테고리

태그

참고 항목

Community Treasure Hunt

댓글 수: 0
이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

댓글 수: 3
이전 댓글 1개 표시 이전 댓글 1개 숨기기