반응형

SW/강화학습 4

Gradient Boosting in Reinforcement Learning: 새로운 시각

먼저 Reinforcement Learning (RL)과 Gradient Boosting이 뭔지 간단하게 설명해 볼게요. 그리고 이번 논문에서 제안한 프레임워크가 실제로 어떻게 작동하는지 이야기하고, 그 알고리즘의 깊은 내용도 다뤄보겠습니다. 마지막으로 실험 결과를 통해 이 방법이 얼마나 효과적이었는지, 또 어떤 점에서 힘들었는지까지 함께 살펴볼 거예요. 솔직히 이 과정에서 약간 어려운 부분도 있었지만, 그만큼 배운 것도 많았어요. Reinforcement Learning (RL) 기본 개념 RL이란 에이전트가 환경에서 행동을 통해 학습하는 방식Deep RL은 Neural Network를 사용해 에이전트를 더 똑똑하게 만드는 것 자, 그럼 Reinforcement Learning, 줄여서 RL에 대해 간..

SW/강화학습 2025.02.08

Double Gumbel Q-Learning: 강화 학습의 새로운 접근법

Double Gumbel Q-Learning 소개 Q-learning의 한계를 해결하기 위한 신선한 접근법을 제시한 2023년의 논문강화 학습의 중요한 문제를 다룸 안녕하세요, AI와 기술에 관심 있는 여러분! 오늘은 조금 흥미로운 이야기를 나누려고 합니다. 바로 2023년에 발표된 "Double Gumbel Q-Learning"이라는 논문에 대한 이야기예요. 요즘 강화 학습 분야가 빠르게 발전하고 있는데, 이 논문은 기존의 Q-learning에 신선한 변화를 추가한 작품이에요. 이걸 통해 강화 학습의 중요한 문제를 어떻게 풀어나가는지 알 수 있죠.오늘은 주요 아이디어, 기존 Q-learning의 한계, 그리고 저자들이 Double Gumbel Q-Learning으로 어떻게 그 문제를 해결했는지 간단하게..

SW/강화학습 2025.02.05

01. 강화 학습 개요

강화학습 주어진 어떤 상황에서 보상을 최대화할 수 있는 행동에 대해 학습하는 것입니다. 학습 주체가 상황에 가장 적합한 행동을 찾기까지 수많은 시행 착오가 필요합니다. 즉, 학습 주체는 문제의 구조를 모르는 상태에서 학습을 한다고 할 수 있습니다. 지금 선택한 행동이 미래의 순차적 보상에 영향을 미치는 것입니다. 현재의 의사 결정이 미래에 영향을 미치는 것으로 이해하면 좋습니다. 지도학습 레이블이라는 정답 데이터가 주어진 상황에서 학습이 이루어 지는 것을 뜻합니다. 이러한 잘 정의된 데이터로부터 즉각적인 피드백을 받으며 학습을 진행합니다. 현재 데이터들을 바탕으로 미래를 예측합니다. 또는 정답이 있는 결과를 맞추는 데 목적이 있습니다. 비지도 학습 정답에 해당하는 레이블이 존재 하지 않습니다. 즉각적인 ..

SW/강화학습 2021.05.25

강화학습 : GYM과 Stable Baselines를 사용하는 이유와 배경

왜 GYM인가? 강화 학습 (RL)은 의사 결정 및 운동 제어와 관련된 기계 학습의 하위 필드입니다. 에이전트는 복잡하고 불확실한 환경에서 목표를 달성하는 방법을 배우는 방법을 연구합니다. 다음 두 가지 이유로 흥미 롭습니다. - RL은 로봇 모터를 제어하여 실행 및 점프가 가능하며 가격 및 재고 관리와 같은 비즈니스 결정을 내리거나 비디오 게임 및 보드 게임을하는 등 일련의 결정을 내리는 것과 관련된 모든 문제를 포괄하는 매우 일반적인 문제를 해결합니다. RL은 순차 또는 구조화 된 출력의지도 학습 문제에 적용될 수 있습니다. - RL 알고리즘은 많은 어려운 환경에서 좋은 결과를 얻기 시작했습니다. RL은 오랜 역사를 가지고 있지만 최근 딥 러닝이 발전 할 때까지 많은 문제에 엔지니어링이 필요했습니다...

SW/강화학습 2020.05.22
반응형