SW/강화학습

강화학습 : GYM과 Stable Baselines를 사용하는 이유와 배경

얇은생각 2020. 5. 22. 19:30
반응형

강화학습 : GYM과 Stable Baselines를 사용하는 이유와 배경

 

왜 GYM인가?

강화 학습 (RL)은 의사 결정 및 운동 제어와 관련된 기계 학습의 하위 필드입니다. 에이전트는 복잡하고 불확실한 환경에서 목표를 달성하는 방법을 배우는 방법을 연구합니다. 다음 두 가지 이유로 흥미 롭습니다.

- RL은 로봇 모터를 제어하여 실행 및 점프가 가능하며 가격 및 재고 관리와 같은 비즈니스 결정을 내리거나 비디오 게임 및 보드 게임을하는 등 일련의 결정을 내리는 것과 관련된 모든 문제를 포괄하는 매우 일반적인 문제를 해결합니다. RL은 순차 또는 구조화 된 출력의지도 학습 문제에 적용될 수 있습니다.

- RL 알고리즘은 많은 어려운 환경에서 좋은 결과를 얻기 시작했습니다. RL은 오랜 역사를 가지고 있지만 최근 딥 러닝이 발전 할 때까지 많은 문제에 엔지니어링이 필요했습니다. DeepMind의 Atari 결과, Pieter Abbeel 그룹의 BRETT 및 AlphaGo는 모두 환경에 대해 너무 많은 가정을하지 않은 딥 RL 알고리즘을 사용하여 다른 설정에 적용할 수 있습니다.

그러나 RL 연구는 두 가지 요소로 인해 느려졌습니다.

- 더 나은 벤치 마크가 필요합니다. 지도 학습에서는 ImageNet과 같은 큰 레이블이 지정된 데이터 세트가 진전을 주도했습니다. RL에서 가장 주요한것은 크고 다양한 환경 모음입니다. 그러나 기존의 오픈 소스 RL 환경 모음은 다양성이 충분하지 않으며 설정 및 사용조차 어려운 경우가 많습니다.

- 논문에 사용된 환경의 표준화 부족합니다. 보상 기능이나 일련의 행동과 같은 문제 정의의 미묘한 차이는 작업의 어려움을 크게 만듭니다. 이 문제는 출판된 연구를 재현하고 다른 논문의 결과를 비교하기 어렵게 만듭니다.

GYM은 두 가지 문제를 해결기 위해 나온 것입니다.

 

 

왜 Stable Baselines인가?

Stable Baselines은 OpenAI Baselines을 기반으로 한 강화 학습 알고리즘의 구현체입니다.

이러한 알고리즘을 통해 연구 커뮤니티 및 산업계는 새로운 아이디어를보다 쉽게 복제, 개선 및 식별 할 수 있으며 프로젝트를 구축하기위한 좋은 기준을 만들 수 있습니다. 이 도구들이 새로운 아이디어를 추가 할 수있는 기반으로, 그리고 기존 접근법과 새로운 접근법을 비교하기위한 도구로 사용될 것으로 기대합니다. 또한 이러한 도구의 단순성으로 인해 초보자가 구현 세부 사항에 묻히지 않고도 고급 도구 세트를 실험 할 수 있습니다.

사용의 단순성에도 불구하고 SB (Stable Baselines)는 RL (Reinforcement Learning)에 대한 지식이 있다고 가정합니다. 연습없이 이 라이브러리를 사용하기 어렵습니다. 

 
반응형

'SW > 강화학습' 카테고리의 다른 글

01. 강화 학습 개요  (0) 2021.05.25