일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- canny edge detection
- 그래프 이론
- edge detection
- 인공지능
- classification
- Reinforcement Learning
- Python
- TD
- machine learning
- DP
- 백준
- sklearn
- MySQL
- opencv
- exists
- C++
- BFS
- dfs
- 머신러닝
- object detection
- 강화학습
- MinHeap
- Mask Processing
- IN
- SIFT
- image processing
- 딥러닝
- dynamic programming
- AlexNet
- clustering
- Today
- Total
JINWOOJUNG
Reinforcement Learning 본문
본 게시글은 인하대학교 유상조 교수님의 Reinforcement Learning Tutorial Seminar
수강 후 정리를 위한 포스팅입니다.
모든 포스팅의 저작관은 유상조 교수님에게 있음을 사전 공지합니다.
Reinforcement Learning
강화학습은 Machine Learning의 subfield이다.
Machine Learning Tasks로는 크게 Supervised/Unsupervised/Reinforcement learning으로 분류할 수 있다.
- Supervised Learning(지도학습)
: labeled dataset으로 학습이 진행되며, classification/regression task에 사용된다. - Unsupervised Learning(비지도 학습)
: label이 존재하지 않는 dataset을 기계 스스로 학습하여 비슷한 부류를 clustering하는 학습이다. - Reinforcement Learning(강화 학습)
: 그 결과가 목표에 유사한지 말해주는것 없이 특정한 목표를 달성하기 위해 동적 환경에서 상호작용 하는 학습이다.
강화학습은 {$s_t, A_t, R_t, s_{t+1}$} data로부터 학습한다.
강화학습은 machine, program 처럼 어떠한 행동(Action)을 취하는 Agent, 행동에 의해 변화하는(Dynamic) Environment의 상호작용으로 표현할 수 있다.
강화학습을 예를 통해 자세히 알아보자. 본 학습의 목표는 pole이 쓰러지지 않도록 하는 것이다. 물론 해당 목표를 알려주지는 않는다.
$A_t$ : Agent가 하는 행동(Action)으로 여기서는 카트의 움직임으로 표현된다
$s_t$ : $A_t$로 인해 발생가능한 Environment의 모든 상황(state)를 의미하며, 여기서는 $s_t$의 상황에서 $A_t$로 인해 변화되는 pole의 위치($s_{t+1}$)로 표현된다
$r_t$ : $A_t$로 인해 state가 변화되면서 Agent가 얻는 보상(Reward)로, 이를 통해 학습의 목표는 주어지지 않지만 이를 학습 해 가면서 목표를 달성하기 위한 상호작용을 학습하는 것이 강화학습이다.
강화학습의 특징을 2가지로 정리할 수 있다.
- $A_t$의 결과로 항상 $R_t,s_{t+1}$이 되는 것은 아니다.
위 예시로 이어서 설명하면,
$A_t$를 보라색으로 표현한 방향으로 카트를 미는 Action이라고 하자. 그리고 $\theta$만큼 pole의 각도가 변화($s_{t+1}$)가 발생하였다고 하자.
만약 바람이 왼쪽에서 오른쪽으로 분다고 가정하면 똫같은 $A_t$가 발생했다고 하더라도, 파란색 $\theta$로 표현된 것 처럼 다른 $s_{t+1}$이 발생될 수 있다.
- 단순히 한 순간의 $A_t$에 대한 $R_t$로 해당 Action이 좋다(목표에 부합하다)고 판단할 수 없다.
$s_t$에서 $A_t$로 인해 State가 ${s_{t+1}}^{1}$, ${s_{t+1}}^{2}$ 로 변화되었고, Reward는 각각 50,100이라 하자. $A_t$ 에 의한 Reward로는 ${s_{t+1}}^{2}$ 로 변화할 때 Reward가 더 크기 때문에 더 좋다고 판단할 수 있지만, 추후 변화되는 State의 Reward를 보면 ${s_{t+1}}^{1}$ 이 더 좋음을 알 수 있다.
이처럼 특정한 Action에 따른 Environment의 변화는 다양한데, 하나의 $s_{t+1}$ 만 발생하는 경우를 Deterministic, 다양한 state와 reward가 발생하는 것을 Stochastic하다라고 표현한다.
'Reinforcement Learning' 카테고리의 다른 글
Bellman Optimality Equation (0) | 2023.12.30 |
---|---|
Markov Decision Process(MDP) (1) | 2023.12.29 |
Markov Reward Process(MRP) (1) | 2023.12.29 |
K-armed Bandit(2) (0) | 2023.12.28 |
K-armed Bandit(1) (0) | 2023.12.27 |