본문 바로가기

SW/강화학습

01. 강화 학습 개요 강화학습 주어진 어떤 상황에서 보상을 최대화할 수 있는 행동에 대해 학습하는 것입니다. 학습 주체가 상황에 가장 적합한 행동을 찾기까지 수많은 시행 착오가 필요합니다. 즉, 학습 주체는 문제의 구조를 모르는 상태에서 학습을 한다고 할 수 있습니다. 지금 선택한 행동이 미래의 순차적 보상에 영향을 미치는 것입니다. 현재의 의사 결정이 미래에 영향을 미치는 것으로 이해하면 좋습니다. 지도학습 레이블이라는 정답 데이터가 주어진 상황에서 학습이 이루어 지는 것을 뜻합니다. 이러한 잘 정의된 데이터로부터 즉각적인 피드백을 받으며 학습을 진행합니다. 현재 데이터들을 바탕으로 미래를 예측합니다. 또는 정답이 있는 결과를 맞추는 데 목적이 있습니다. 비지도 학습 정답에 해당하는 레이블이 존재 하지 않습니다. 즉각적인 ..
강화학습 : GYM과 Stable Baselines를 사용하는 이유와 배경 왜 GYM인가? 강화 학습 (RL)은 의사 결정 및 운동 제어와 관련된 기계 학습의 하위 필드입니다. 에이전트는 복잡하고 불확실한 환경에서 목표를 달성하는 방법을 배우는 방법을 연구합니다. 다음 두 가지 이유로 흥미 롭습니다. - RL은 로봇 모터를 제어하여 실행 및 점프가 가능하며 가격 및 재고 관리와 같은 비즈니스 결정을 내리거나 비디오 게임 및 보드 게임을하는 등 일련의 결정을 내리는 것과 관련된 모든 문제를 포괄하는 매우 일반적인 문제를 해결합니다. RL은 순차 또는 구조화 된 출력의지도 학습 문제에 적용될 수 있습니다. - RL 알고리즘은 많은 어려운 환경에서 좋은 결과를 얻기 시작했습니다. RL은 오랜 역사를 가지고 있지만 최근 딥 러닝이 발전 할 때까지 많은 문제에 엔지니어링이 필요했습니다...