Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

MATLAB 환경

MATLAB®을 사용하여 강화 학습 환경 동특성 모델링하기

강화 학습 시나리오에서 환경은 에이전트가 상호 작용하는 동특성을 모델링합니다. 환경은 다음을 수행합니다.

  1. 에이전트로부터 행동을 받음

  2. 환경 모델의 동적 동작의 결과로 생성되는 관측값을 출력

  3. 특정 행동이 임무 달성에 얼마나 기여하는지 측정하는 보상을 생성

MATLAB에서 미리 정의된 환경과 사용자 지정 환경을 만들 수 있습니다. 자세한 내용은 MATLAB 강화 학습 환경 만들기 항목을 참조하십시오.

함수

모두 확장

rlPredefinedEnv미리 정의된 강화 학습 환경 만들기
rlFunctionEnv함수를 사용하여 사용자 지정된 강화 학습 환경 동특성 지정
rlCreateEnvTemplate사용자 지정 강화 학습 환경 템플릿 만들기
rlMDPEnv강화 학습을 위한 마르코프 결정 과정 환경 만들기
createMDP마르코프 결정 과정 모델 만들기
createGridWorld강화 학습을 위한 2차원 그리드 월드 만들기
validateEnvironmentValidate custom reinforcement learning environment
generateRewardFunctionGenerate a reward function from control specifications to train a reinforcement learning agent
exteriorPenaltyExterior penalty value for a point with respect to a bounded region
hyperbolicPenaltyHyperbolic penalty value for a point with respect to a bounded region
barrierPenalty경계가 지정된 영역에 대한 점의 로그 장벽 벌점 값
rlNeuralNetworkEnvironmentEnvironment model with deep neural network transition models
rlContinuousDeterministicTransitionFunctionDeterministic transition function approximator object for neural network-based environment
rlContinuousGaussianTransitionFunctionStochastic Gaussian transition function approximator object for neural network-based environment
rlContinuousDeterministicRewardFunctionDeterministic reward function approximator object for neural network-based environment
rlContinuousGaussianRewardFunctionStochastic Gaussian reward function approximator object for neural network-based environment
rlIsDoneFunctionIs-done function approximator object for neural network-based environment
predictPredict next observation, next reward, or episode termination given observation and action input data
evaluateEvaluate function approximator object given observation (or observation-action) input data
accelerate신경망에 기반한 근사기 객체의 기울기 계산 속도를 높이는 옵션
rlFiniteSetSpec강화 학습 환경에 대한 이산 행동 또는 관측값 데이터 사양 만들기
rlNumericSpec강화 학습 환경에 대한 연속 행동 또는 관측값 데이터 사양 만들기
getActionInfo강화 학습 환경, 에이전트 또는 경험 버퍼에서 행동 데이터 사양 가져오기
getObservationInfo강화 학습 환경, 에이전트 또는 경험 버퍼에서 관측값 데이터 사양 가져오기
resetReset environment, agent, experience buffer, or policy object
setupSet up reinforcement learning environment or initialize data logger object
cleanupClean up reinforcement learning environment or data logger object

도움말 항목