반응형
강화학습
주어진 어떤 상황에서 보상을 최대화할 수 있는 행동에 대해 학습하는 것입니다.
학습 주체가 상황에 가장 적합한 행동을 찾기까지 수많은 시행 착오가 필요합니다.
즉, 학습 주체는 문제의 구조를 모르는 상태에서 학습을 한다고 할 수 있습니다.
지금 선택한 행동이 미래의 순차적 보상에 영향을 미치는 것입니다.
현재의 의사 결정이 미래에 영향을 미치는 것으로 이해하면 좋습니다.
지도학습
레이블이라는 정답 데이터가 주어진 상황에서 학습이 이루어 지는 것을 뜻합니다.
이러한 잘 정의된 데이터로부터 즉각적인 피드백을 받으며 학습을 진행합니다.
현재 데이터들을 바탕으로 미래를 예측합니다. 또는 정답이 있는 결과를 맞추는 데 목적이 있습니다.
비지도 학습
정답에 해당하는 레이블이 존재 하지 않습니다. 즉각적인 피드백을 받을 수 없습니다.
주로 데이터 자체에 내재되어 있는 성질을 찾는 것에 목적을 둡니다.
강화학습
잘 정의된 데이터가 아닌 환경과의 상호 작용을 통합니다.
이러한 상호 작용을 통해 얻은 보상으로 부터 학습을 진행합니다.
학습 데이터는 환경과의 상호작용을 통해 취득합니다.
강화학습의 예시
관리자의 개입 없이 데이터 센터 에너지 관리가 AI 에이전트에 의해 자동으로 제어됩니다.
40% 에너지 사용량 절감이 있다고 보고되었습니다.
이 외에도 로봇 제어, 주식 트레이딩, 온라인 추천 시스템, 자연어 처리 등이 있습니다.
반응형
'SW > 강화학습' 카테고리의 다른 글
강화학습 : GYM과 Stable Baselines를 사용하는 이유와 배경 (0) | 2020.05.22 |
---|