Main Content

제어 시스템 응용 사례를 위한 강화 학습

강화 학습 정책의 동작, 즉 정책이 환경을 관측하고 행동을 생성하여 최적의 방식으로 작업을 완료하는 방법은 제어 시스템에서의 제어기의 작업과 비슷합니다. 강화 학습은 다음의 매핑을 사용하여 제어 시스템 표현으로 변환될 수 있습니다.

Diagram showing an agent that interacts with its environment. The observation signal goes from the environment to the agent, and the action signal goes from the agent to the environment. The reward signal goes from the environment to the reinforcement learning algorithm inside the agent. The reinforcement learning algorithm uses the available information to update a policy. The agent uses a policy to map an observation to an action. This is similar to a control diagram, shown below, in which a controller senses an error between a desired reference and a plant output and uses the error to acts on a plant input.

강화 학습제어 시스템
정책제어기
환경

제어기가 아닌 모든 것 — 이전 다이어그램에서 환경은 플랜트, 기준 신호, 오차 계산을 포함합니다. 일반적으로, 환경은 다음과 같은 추가 요소를 포함할 수도 있습니다.

  • 측정 잡음

  • 외란 신호

  • 필터

  • 아날로그-디지털 및 디지털-아날로그 변환기

관측값

에이전트가 볼 수 있는 환경에서 측정 가능한 값 — 이전 다이어그램에서 제어기는 환경으로부터의 오차 신호를 볼 수 있습니다. 또한, 기준 신호, 측정 신호, 측정 신호의 변화 속도 등을 관측하는 에이전트도 생성할 수 있습니다.

행동조작 변수 또는 제어 행동
보상측정, 오차 신호 또는 기타 몇 가지 성능 메트릭의 함수 — 예를 들어, 제어 노력을 최소화하는 동시에 정상 상태 오차를 최소화하는 보상 함수를 구현할 수 있습니다. 비용 함수 및 제약 조건 함수와 같은 제어 사양을 사용할 수 있는 경우 generateRewardFunction을 사용하여 MPC 객체 또는 모델 검증 블록에서 보상 함수를 생성할 수 있습니다. 그런 다음, 가중치 또는 벌점 함수를 변경하는 등의 방법을 통해 생성된 보상 함수를 보상 설계의 시작점으로 사용할 수 있습니다.
학습 알고리즘적응형 제어기의 적응 메커니즘

로보틱스 및 자율 주행과 같은 분야에서 맞닥뜨리는 수많은 제어 문제의 경우 복잡한 비선형 제어 아키텍처가 필요합니다. 이득 스케줄링, 강인 제어, 비선형 모델 예측 제어(MPC)와 같은 기법을 이러한 문제에 사용할 수 있으나, 제어 엔지니어의 심층적인 분야별 전문 지식이 필요한 경우가 많습니다. 예를 들어, 이득과 파라미터는 조정하기가 어렵습니다. 결과로 생성되는 제어기는 비선형 MPC의 계산 강도와 같은 구현 문제를 야기할 수 있습니다.

강화 학습을 사용하여 훈련시킨 심층 신경망을 사용하여 이처럼 복잡한 제어기를 구현할 수 있습니다. 이러한 시스템은 전문적인 제어 엔지니어의 개입 없이도 스스로 학습할 수 있습니다. 또한, 시스템을 훈련시킨 후에는 효율적인 계산 방식으로 강화 학습 정책을 배포할 수 있습니다.

강화 학습을 사용하여 이미지와 같은 원시 데이터에서 바로 행동을 생성하는 종단간 제어기를 생성할 수도 있습니다. 이러한 접근법은 자율 주행과 같이 비디오 정보가 많은 응용 사례에 유용합니다. 이미지 특징을 수동으로 정의하고 선택할 필요가 없기 때문입니다.

관련 항목