이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
제어 시스템 응용 사례를 위한 강화 학습
강화 학습 정책의 동작, 즉 정책이 환경을 관측하고 행동을 생성하여 최적의 방식으로 작업을 완료하는 방법은 제어 시스템에서의 제어기의 작업과 비슷합니다. 강화 학습은 다음의 매핑을 사용하여 제어 시스템 표현으로 변환될 수 있습니다.
강화 학습 | 제어 시스템 |
---|---|
정책 | 제어기 |
환경 | 제어기가 아닌 모든 것 — 이전 다이어그램에서 환경은 플랜트, 기준 신호, 오차 계산을 포함합니다. 일반적으로, 환경은 다음과 같은 추가 요소를 포함할 수도 있습니다.
|
관측값 | 에이전트가 볼 수 있는 환경에서 측정 가능한 값 — 이전 다이어그램에서 제어기는 환경으로부터의 오차 신호를 볼 수 있습니다. 또한, 기준 신호, 측정 신호, 측정 신호의 변화 속도 등을 관측하는 에이전트도 생성할 수 있습니다. |
행동 | 조작 변수 또는 제어 행동 |
보상 | 측정, 오차 신호 또는 기타 몇 가지 성능 메트릭의 함수 — 예를 들어, 제어 노력을 최소화하는 동시에 정상 상태 오차를 최소화하는 보상 함수를 구현할 수 있습니다. 비용 함수 및 제약 조건 함수와 같은 제어 사양을 사용할 수 있는 경우 generateRewardFunction 을 사용하여 MPC 객체 또는 모델 검증 블록에서 보상 함수를 생성할 수 있습니다. 그런 다음, 가중치 또는 벌점 함수를 변경하는 등의 방법을 통해 생성된 보상 함수를 보상 설계의 시작점으로 사용할 수 있습니다. |
학습 알고리즘 | 적응형 제어기의 적응 메커니즘 |
로보틱스 및 자율 주행과 같은 분야에서 맞닥뜨리는 수많은 제어 문제의 경우 복잡한 비선형 제어 아키텍처가 필요합니다. 이득 스케줄링, 강인 제어, 비선형 모델 예측 제어(MPC)와 같은 기법을 이러한 문제에 사용할 수 있으나, 제어 엔지니어의 심층적인 분야별 전문 지식이 필요한 경우가 많습니다. 예를 들어, 이득과 파라미터는 조정하기가 어렵습니다. 결과로 생성되는 제어기는 비선형 MPC의 계산 강도와 같은 구현 문제를 야기할 수 있습니다.
강화 학습을 사용하여 훈련시킨 심층 신경망을 사용하여 이처럼 복잡한 제어기를 구현할 수 있습니다. 이러한 시스템은 전문적인 제어 엔지니어의 개입 없이도 스스로 학습할 수 있습니다. 또한, 시스템을 훈련시킨 후에는 효율적인 계산 방식으로 강화 학습 정책을 배포할 수 있습니다.
강화 학습을 사용하여 이미지와 같은 원시 데이터에서 바로 행동을 생성하는 종단간 제어기를 생성할 수도 있습니다. 이러한 접근법은 자율 주행과 같이 비디오 정보가 많은 응용 사례에 유용합니다. 이미지 특징을 수동으로 정의하고 선택할 필요가 없기 때문입니다.