강화학습 주어진 어떤 상황에서 보상을 최대화할 수 있는 행동에 대해 학습하는 것입니다. 학습 주체가 상황에 가장 적합한 행동을 찾기까지 수많은 시행 착오가 필요합니다. 즉, 학습 주체는 문제의 구조를 모르는 상태에서 학습을 한다고 할 수 있습니다. 지금 선택한 행동이 미래의 순차적 보상에 영향을 미치는 것입니다. 현재의 의사 결정이 미래에 영향을 미치는 것으로 이해하면 좋습니다. 지도학습 레이블이라는 정답 데이터가 주어진 상황에서 학습이 이루어 지는 것을 뜻합니다. 이러한 잘 정의된 데이터로부터 즉각적인 피드백을 받으며 학습을 진행합니다. 현재 데이터들을 바탕으로 미래를 예측합니다. 또는 정답이 있는 결과를 맞추는 데 목적이 있습니다. 비지도 학습 정답에 해당하는 레이블이 존재 하지 않습니다. 즉각적인 ..