My Dev & Engineering Repository

강화 학습 (Reinforcement Learning) 이란?

강화 학습은 에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동 정책을 학습하는 방법입니다.

에이전트는 주어진 환경에서 최적의 행동을 학습하여 장기적으로 누적 보상을 최대화하는 것을 목표로 합니다.

https://www.kdnuggets.com/2022/05/reinforcement-learning-newbies.html

강화 학습의 목적

최적의 행동 정책 학습: 에이전트가 주어진 환경에서 최적의 행동을 선택하여 누적 보상을 최대화하는 정책을 학습하는 것이 목적입니다.

Q-learning

강화학습에서, Q-learning이라는 방법이 있습니다. 한번 자세히 알아보겠습니다.

Q-learning은 상태-행동 가치 함수(Q-함수)를 학습하여 최적의 정책을 찾는 강화 학습 방법 중 하나입니다.

이 방법은 주어진 상태에서 어떤 행동을 취해야 하는지를 결정하는 데 사용됩니다.

Q-learning의 원리

초기화
- 모든 상태-행동 쌍의 Q-값을 초기화합니다. 일반적으로 Q-값은 0으로 초기화됩니다.
에이전트-환경 상호작용
- 에이전트는 현재 상태에서 행동을 선택하고, 그에 따른 환경의 반응(즉, 보상과 다음 상태)을 관찰합니다.
Q-함수 업데이트
- Q-함수는 다음과 같은 수식으로 업데이트됩니다.

https://towardsdatascience.com/a-beginners-guide-to-q-learning-c3e2a30a653c

여기서:
- s는 현재 상태
- a는 선택한 행동
- r은 받은 보상
- s′는 다음 상태
- α는 학습률
- 는 할인 인자입니다.
정책 업데이트
- Q-함수가 업데이트된 후, 에이전트는 새로운 Q-함수에 따라 다음 행동을 선택합니다.
반복
- 이 과정을 여러 에피소드 또는 시간 단계에 걸쳐 반복하여 Q-함수를 최적화하고 수렴시킵니다.

Q-learning의 주요 구성 요소

학습률 (Learning Rate, )
- Q-값 업데이트의 비율을 결정합니다. 학습률이 높을수록 Q-값이 더 빠르게 업데이트됩니다. 0 < α ≤ 1 의 범위를 가집니다.
할인 인자 (Discount Factor, )
- 미래 보상의 현재 가치를 결정합니다. 할인 인자가 클수록 미래 보상을 더 중요하게 고려합니다. 0 ≤ γ ≤ 1의 범위를 가집니다.
탐험과 활용 (Exploration vs. Exploitation)
- 탐험(Exploration): 새로운 행동을 시도하여 더 많은 정보를 얻는 과정입니다.
- 활용(Exploitation): 현재 알고 있는 최적의 행동을 선택하는 과정입니다.
- -탐욕 정책 (ϵ-greedy policy): 확률 ϵ(epsilon)로 탐험하고, 1 − ϵ(epsilon) 의 확률로 최적의 행동을 선택하는 방법입니다.

Q-learning의 장, 단점

https://www.researchgate.net/figure/Q-Learning-vs-Deep-Q-Learning_fig1_351884746

Q-learning의 장점

단순성: 알고리즘이 단순하고 구현이 용이합니다.
오프라인 학습: 환경의 모델이 필요 없으며, 실제 환경에서 직접 상호작용 없이도 학습이 가능합니다.
보편성: 다양한 강화 학습 문제에 적용할 수 있습니다.

Q-learning의 단점

큰 상태 공간: 상태 공간이 클 경우, Q-테이블의 크기가 커져서 메모리와 계산 비용이 크게 증가합니다.
연속적인 상태 및 행동 공간: Q-learning은 이산적인 상태 및 행동 공간에 적합하며, 연속적인 상태 및 행동 공간에서는 효율적이지 않습니다.
탐험-활용 균형: 적절한 ϵ\epsilon 값을 선택하는 것이 중요합니다. 너무 낮거나 높으면 학습이 비효율적일 수 있습니다.

Q-learning Example Code

# 필요한 라이브러리 임포트
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 그리드월드 환경 정의
class GridWorld:
    def __init__(self, size):
        # 그리드의 크기를 설정합니다.
        self.size = size
        # 초기 상태를 (0, 0)으로 설정합니다.
        self.state = (0, 0)
        # 목표 상태를 그리드의 오른쪽 아래 모서리로 설정합니다.
        self.goal = (size-1, size-1)

    def reset(self):
        # 상태를 초기 상태로 리셋합니다.
        self.state = (0, 0)
        return self.state

    def step(self, action):
        # 현재 상태의 x, y 좌표를 가져옵니다.
        x, y = self.state
        # 행동에 따라 새로운 상태를 결정합니다.
        if action == 0:
            x = max(0, x - 1)  # 위로 이동
        elif action == 1:
            x = min(self.size - 1, x + 1)  # 아래로 이동
        elif action == 2:
            y = max(0, y - 1)  # 왼쪽으로 이동
        elif action == 3:
            y = min(self.size - 1, y + 1)  # 오른쪽으로 이동

        # 새로운 상태를 설정합니다.
        self.state = (x, y)
        # 새로운 상태가 목표 상태인지 확인합니다.
        reward = 1 if self.state == self.goal else -0.1
        done = self.state == self.goal
        # 새로운 상태, 보상, 완료 여부를 반환합니다.
        return self.state, reward, done

# Q-learning 파라미터 설정
size = 5  # 그리드의 크기
env = GridWorld(size)  # 그리드월드 환경 생성
q_table = np.zeros((size, size, 4))  # Q-테이블 초기화 (상태-행동 가치 함수)
alpha = 0.1  # 학습률
gamma = 0.9  # 할인 인자
epsilon = 0.1  # 탐험 확률
episodes = 1000  # 학습 에피소드 수

# Q-learning 알고리즘
for episode in range(episodes):
    state = env.reset()  # 에피소드 시작 시 상태를 초기화
    done = False  # 에피소드가 끝났는지 여부

    while not done:
        if np.random.rand() < epsilon:
            action = np.random.choice(4)  # 탐험: 무작위로 행동 선택
        else:
            action = np.argmax(q_table[state[0], state[1]])  # 활용: Q-값이 최대인 행동 선택

        next_state, reward, done = env.step(action)  # 환경에서 행동 수행
        q_value = q_table[state[0], state[1], action]  # 현재 상태의 Q-값
        best_next_q_value = np.max(q_table[next_state[0], next_state[1]])  # 다음 상태에서의 최대 Q-값

        # Q-테이블 업데이트
        q_table[state[0], state[1], action] = q_value + alpha * (reward + gamma * best_next_q_value - q_value)

        state = next_state  # 상태 업데이트

# Q-테이블 시각화
# Q-learning 알고리즘에서 사용하는 상태-행동 가치 함수(State-Action Value Function)를 저장하는 테이블
# Q-테이블의 각 항목은 특정 상태에서 특정 행동을 취했을 때의 기대 보상을 나타냄
plt.figure(figsize=(10, 7))
sns.heatmap(np.max(q_table, axis=2), annot=True, cmap='viridis')
plt.title('Q-Table')
plt.xlabel('State (y)')
plt.ylabel('State (x)')
plt.show()

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

[ML] Hyperparameter Tuning (하이퍼 파라미터 튜닝) (0)	2024.08.29
[ML] Recommender System (추천시스템) (0)	2024.08.26
[ML] Emsemble Methods (앙상블 기법) (0)	2024.08.23
[ML] 연관 규칙 학습 (Association Rule Learning) (0)	2024.08.22
[ML] t-SNE (t-Distributed Stochastic Neighbor Embedding) (0)	2024.08.20

Notice

강화 학습 (Reinforcement Learning) 이란?

강화 학습의 목적

Q-learning

Q-learning의 원리

Q-learning의 주요 구성 요소

Q-learning의 장, 단점

Q-learning의 장점

Q-learning의 단점

Q-learning Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

강화 학습 (Reinforcement Learning) 이란?

강화 학습의 목적

Q-learning

Q-learning의 원리

Q-learning의 주요 구성 요소

Q-learning의 장, 단점

Q-learning의 장점

Q-learning의 단점

Q-learning Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바