My Dev & Engineering Repository

⚠️ 본 내용은 PyTorch Korea의 공식 문서에 기반하여 공부한 내용을 적은것이니 양해바랍니다!

모델 매개변수 최적화하기

파이토치(PyTorch) 기본 익히기|| 빠른 시작|| 텐서(Tensor)|| Dataset과 Dataloader|| 변형(Transform)|| 신경망 모델 구성하기|| Autograd|| 최적화(Optimization)|| 모델 저장하고 불러오기 이제 모델과 데이터가 준비

tutorials.pytorch.kr

Model 매개변수 최적화 하기

이번에는 준비된 모델과 데이터로, 데이터에 매개변수를 최적화 하여 모델을 학습, 검증, 테스트를 해보겠습니다.

모델을 학습하는 과정은 반복적인 과정을 거칩니다.
각 반복 단계에서 모델은 출력을 추측하고, 추측과 정답 사이의 오류(손실(loss))를 계산하고, 매개변수에 대한 오류의 도함수(derivative)를 수집한 뒤, 경사하강법을 사용하여 이 파라미터들을 최적화(optimize)합니다.
이 과정에 대한 자세한 설명은 아래 링크에 3Blue1Brown의 Backpropagation(역전파)영상을 참고하세요.

3Blue1Brown의 Backpropagation(역전파)영상 링크 입니다.

Pre-requisite Code (기본 코드)

전에 공부했던 내용에서 Dataset, Dataloader 부분과 신경망 모델 구성하기 부분에서 코드를 가져왔습니다.

import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor()
)

test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

train_dataloader = DataLoader(training_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

class NeuralNetwork(nn.Module):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 512),
            nn.ReLU(),
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10),
        )

    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits

model = NeuralNetwork()

Hyperparameter (하이퍼파라미터)

하이퍼파라미터(Hyperparameter)는 모델 최적화 과정을 제어할 수 있는 조절 가능한 매개변수입니다.

서로 다른 하이퍼파라미터 값은 모델 학습과 수렴율(convergence rate)에 영향을 미칠 수 있습니다.
Hyperparameter에 데한 공식문서 입니다. 이 부분에 데하여 공부한 내용은 나중에 올리도록 하겠습니다.

Ray Tune을 사용한 하이퍼파라미터 튜닝

번역: 심형준 하이퍼파라미터 튜닝은 보통의 모델과 매우 정확한 모델간의 차이를 만들어 낼 수 있습니다. 종종 다른 학습률(Learnig rate)을 선택하거나 layer size를 변경하는 것과 같은 간단한 작업

tutorials.pytorch.kr

모델을 학습할때, 일반적으로 다음과 같은 Hyperparameter를 정의합니다.
에폭(epoch) 수 - 데이터셋을 반복하는 횟수
배치 크기(batch size) - 매개변수가 갱신되기 전 신경망을 통해 전파된 데이터 샘플의 수
학습률(learning rate) - 각 배치/에폭에서 모델의 매개변수를 조절하는 비율. 값이 작을수록 학습 속도가 느려지고, 값이 크면 학습 중 예측할 수 없는 동작이 발생할 수 있습니다.

learning_rate = 1e-3
batch_size = 64
epochs = 5

최적화 단계(Optimization Loop)

하이퍼파라미터를 설정한 뒤에는 최적화 단계를 통해 모델을 학습하고 최적화할 수 있습니다.
최적화 단계의 각 반복(iteration)을 Epoch(에폭) 이라고 부릅니다

하나의 에폭은 두가지로 구성됩니다
- 학습 단계(train loop) - 학습용 데이터셋을 반복(iterate)하고 최적의 매개변수로 수렴합니다.
- 검증 / 테스트 단계(validation / test loop) - 모델 성능이 개선되고 있는지를 확인하기 위해 테스트 데이터셋을 반복(iterate)합니다.
그러면 학습 단계(training loop)에서 일어나는 몇 가지 개념들을 간략히 살펴보겠습니다.

손실 함수 (Loss Function)

학습용 데이터를 제공하면, 학습되지 않은 신경망은 정답을 제공하지 않을 확률이 높습니다.

손실 함수(loss function)는 획득한 결과와 실제 값 사이의 틀린 정도(degree of dissimilarity)를 측정하며, 학습 중에 이 값을 최소화하려고 합니다.
주어진 데이터 샘플을 입력으로 계산한 예측과 정답(label)을 비교하여 손실(loss)을 계산합니다.
일반적인 손실함수에는 회귀 문제(regression task)에 사용하는 nn.MSELoss (평균 제곱 오차(MSE; Mean Square Error))나 분류(classification)에 사용하는 nn.NLLLoss (음의 로그 우도(Negative Log Likelihood)), 그리고 nn.LogSoftmax와 nn.NLLLoss를 합친 nn.CrossEntropyLoss 등이 있습니다.
모델의 출력 로짓(logit)을 nn.CrossEntropyLoss에 전달하여 로짓(logit)을 정규화하고 예측 오류를 계산합니다.

# 손실 함수를 초기화합니다.
loss_fn = nn.CrossEntropyLoss()

회귀 문제(regression task)에 사용하는 nn.MSELoss 공식문서 입니다.

MSELoss — PyTorch 2.4 documentation

Shortcuts

pytorch.org

nn.NLLLoss (음의 로그 우도(Negative Log Likelihood)) 공식문서 입니다.

NLLLoss — PyTorch 2.4 documentation

Shortcuts

pytorch.org

nn.CrossEntropyLoss 공식문서 입니다.

CrossEntropyLoss — PyTorch 2.4 documentation

Shortcuts

pytorch.org

옵티마이저 (Optimizer)

최적화는 각 학습 단계에서 모델의 오류를 줄이기 위해 모델 매개변수를 조정하는 과정입니다.
최적화 알고리즘은 이 과정이 수행되는 방식(여기에서는 확률적 경사하강법(SGD; Stochastic Gradient Descent))을 정의합니다.

최적화는 각 학습 단계에서 모델의 오류를 줄이기 위해 모델 매개변수를 조정하는 과정입니다.
최적화 알고리즘은 이 과정이 수행되는 방식(여기에서는 확률적 경사하강법(SGD; Stochastic Gradient Descent))을 정의합니다.
모든 최적화 절차(logic)는 optimizer 객체에 캡슐화(encapsulate)됩니다.
여기서는 SGD 옵티마이저를 사용하고 있으며, PyTorch에는 ADAM이나 RMSProp과 같은 다른 종류의 모델과 데이터에서 더 잘 동작하는 당양한 옵티마이저가 있습니다.
학습하려는 모델의 매개변수와 학습률(learning rate) 하이퍼파라미터를 등록하여 옵티마이저를 초기화합니다.

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

학습 단계(loop)에서 최적화는 세단계로 이뤄집니다.

optimizer.zero_grad()를 호출하여 모델 매개변수의 변화도를 재설정합니다.
기본적으로 변화도는 더해지기(add up) 때문에 중복 계산을 막기 위해 반복할 때마다 명시적으로 0으로 설정합니다.
loss.backwards()를 호출하여 예측 손실(prediction loss)을 역전파합니다.
PyTorch는 각 매개변수에 대한 손실의 변화도를 저장합니다.
변화도를 계산한 뒤에는 optimizer.step()을 호출하여 역전파 단계에서 수집된 변화도로 매개변수를 조정합니다.
아래는 Optimizer 관련 공식문서 입니다.

torch.optim — PyTorch 2.4 documentation

torch.optim torch.optim is a package implementing various optimization algorithms. Most commonly used methods are already supported, and the interface is general enough, so that more sophisticated ones can also be easily integrated in the future. How to us

pytorch.org

전체 코드 구현

최적화 코드를 반복하여 수행하는 train_loop와 테스트 데이터로 모델의 성능을 측정하는 test_loop를 정의하였습니다.

def train_loop(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    # 모델을 학습(train) 모드로 설정합니다 - 배치 정규화(Batch Normalization) 및 드롭아웃(Dropout) 레이어들에 중요합니다.
    # 이 예시에서는 없어도 되지만, 추가해두었습니다.
    model.train()
    for batch, (X, y) in enumerate(dataloader):
        # 예측(prediction)과 손실(loss) 계산
        pred = model(X)
        loss = loss_fn(pred, y)

        # 역전파
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

        if batch % 100 == 0:
            loss, current = loss.item(), batch * batch_size + len(X)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]")

def test_loop(dataloader, model, loss_fn):
    # 모델을 평가(eval) 모드로 설정합니다 - 배치 정규화(Batch Normalization) 및 드롭아웃(Dropout) 레이어들에 중요합니다.
    # 이 예시에서는 없어도 되지만, 모범 사례를 위해 추가해두었습니다.
    model.eval()
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    test_loss, correct = 0, 0

    # torch.no_grad()를 사용하여 테스트 시 변화도(gradient)를 계산하지 않도록 합니다.
    # 이는 requires_grad=True로 설정된 텐서들의 불필요한 변화도 연산 및 메모리 사용량 또한 줄여줍니다.
    with torch.no_grad():
        for X, y in dataloader:
            pred = model(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()

    test_loss /= num_batches
    correct /= size
    print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

손실 함수와 옵티마이저를 초기화하고 train_loop와 test_loop에 전달합니다.
모델의 성능 향상을 알아보기 위해 자유롭게 에폭(epoch) 수를 증가시켜 볼 수 있습니다.

loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

epochs = 10
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train_loop(train_dataloader, model, loss_fn, optimizer)
    test_loop(test_dataloader, model, loss_fn)
print("Done!")

Epoch 1
-------------------------------
loss: 2.305544  [   64/60000]
loss: 2.296132  [ 6464/60000]
loss: 2.269240  [12864/60000]
loss: 2.265443  [19264/60000]
loss: 2.257847  [25664/60000]
loss: 2.210369  [32064/60000]
loss: 2.225546  [38464/60000]
loss: 2.182035  [44864/60000]
loss: 2.192158  [51264/60000]
loss: 2.160539  [57664/60000]
Test Error: 
 Accuracy: 38.8%, Avg loss: 2.149502 

Epoch 2
-------------------------------
loss: 2.165807  [   64/60000]
loss: 2.152438  [ 6464/60000]
loss: 2.086566  [12864/60000]
loss: 2.106932  [19264/60000]
loss: 2.064639  [25664/60000]
loss: 1.981671  [32064/60000]
loss: 2.020240  [38464/60000]
loss: 1.928579  [44864/60000]
loss: 1.948187  [51264/60000]
loss: 1.877932  [57664/60000]
Test Error: 
 Accuracy: 52.7%, Avg loss: 1.867320 

Epoch 3
-------------------------------
loss: 1.906202  [   64/60000]
loss: 1.871369  [ 6464/60000]
loss: 1.746385  [12864/60000]
loss: 1.800164  [19264/60000]
loss: 1.699125  [25664/60000]
loss: 1.632668  [32064/60000]
loss: 1.670603  [38464/60000]
loss: 1.561565  [44864/60000]
loss: 1.602784  [51264/60000]
loss: 1.505543  [57664/60000]
Test Error: 
 Accuracy: 57.2%, Avg loss: 1.510549 

Epoch 4
-------------------------------
loss: 1.583206  [   64/60000]
loss: 1.545566  [ 6464/60000]
loss: 1.391972  [12864/60000]
loss: 1.475445  [19264/60000]
loss: 1.366858  [25664/60000]
loss: 1.349078  [32064/60000]
loss: 1.376894  [38464/60000]
loss: 1.291643  [44864/60000]
loss: 1.333184  [51264/60000]
loss: 1.248018  [57664/60000]
Test Error: 
 Accuracy: 62.3%, Avg loss: 1.258796 

Epoch 5
-------------------------------
loss: 1.338726  [   64/60000]
loss: 1.319980  [ 6464/60000]
loss: 1.150760  [12864/60000]
loss: 1.264624  [19264/60000]
loss: 1.147503  [25664/60000]
loss: 1.162498  [32064/60000]
loss: 1.192891  [38464/60000]
loss: 1.120305  [44864/60000]
loss: 1.161247  [51264/60000]
loss: 1.091846  [57664/60000]
Test Error: 
 Accuracy: 64.2%, Avg loss: 1.099003 

Epoch 6
-------------------------------
loss: 1.172135  [   64/60000]
loss: 1.174778  [ 6464/60000]
loss: 0.989002  [12864/60000]
loss: 1.128839  [19264/60000]
loss: 1.007943  [25664/60000]
loss: 1.032277  [32064/60000]
loss: 1.074430  [38464/60000]
loss: 1.006675  [44864/60000]
loss: 1.046682  [51264/60000]
loss: 0.989977  [57664/60000]
Test Error: 
 Accuracy: 65.4%, Avg loss: 0.992776 

Epoch 7
-------------------------------
loss: 1.053729  [   64/60000]
loss: 1.078095  [ 6464/60000]
loss: 0.875616  [12864/60000]
loss: 1.035629  [19264/60000]
loss: 0.916670  [25664/60000]
loss: 0.937665  [32064/60000]
loss: 0.994427  [38464/60000]
loss: 0.930131  [44864/60000]
loss: 0.966351  [51264/60000]
loss: 0.920454  [57664/60000]
Test Error: 
 Accuracy: 66.6%, Avg loss: 0.919069 

Epoch 8
-------------------------------
loss: 0.965864  [   64/60000]
loss: 1.009843  [ 6464/60000]
loss: 0.793096  [12864/60000]
loss: 0.968506  [19264/60000]
loss: 0.854228  [25664/60000]
loss: 0.867148  [32064/60000]
loss: 0.937596  [38464/60000]
loss: 0.877755  [44864/60000]
loss: 0.908159  [51264/60000]
loss: 0.870483  [57664/60000]
Test Error: 
 Accuracy: 68.0%, Avg loss: 0.865721 

Epoch 9
-------------------------------
loss: 0.898012  [   64/60000]
loss: 0.958372  [ 6464/60000]
loss: 0.730860  [12864/60000]
loss: 0.918205  [19264/60000]
loss: 0.809332  [25664/60000]
loss: 0.813669  [32064/60000]
loss: 0.894510  [38464/60000]
loss: 0.840718  [44864/60000]
loss: 0.864679  [51264/60000]
loss: 0.832418  [57664/60000]
Test Error: 
 Accuracy: 69.3%, Avg loss: 0.825300 

Epoch 10
-------------------------------
loss: 0.843837  [   64/60000]
loss: 0.917194  [ 6464/60000]
loss: 0.682222  [12864/60000]
loss: 0.879231  [19264/60000]
loss: 0.775033  [25664/60000]
loss: 0.772480  [32064/60000]
loss: 0.859712  [38464/60000]
loss: 0.813271  [44864/60000]
loss: 0.830852  [51264/60000]
loss: 0.801870  [57664/60000]
Test Error: 
 Accuracy: 70.6%, Avg loss: 0.793228 

Done!

더 자세한 내용을 보고 싶으시면 아래 링크에 들어가서 공식 문서를 참고하세요!

Loss Function 관련 공식문서

torch.nn — PyTorch 2.4 documentation

Shortcuts

pytorch.org

Torch.Optimizer 관련 공식문서

torch.optim — PyTorch 2.4 documentation

pytorch.org

Warmstart Training Model 관련 공식문서

PyTorch에서 다른 모델의 매개변수를 사용하여 빠르게 모델 시작하기(warmstart)

모델을 부분적으로 불러오거나, 혹은 부분적인 모델을 불러오는 것은 학습 전이(Transfer learning)나 복잡한 모델을 새로 학습할 때 자주 접하는 시나리오입니다. 학습된 매개변수를 활용하면 학습

tutorials.pytorch.kr

저작자표시 비영리 동일조건

'🔥 PyTorch' 카테고리의 다른 글

[PyTorch] Checkpoint Model 저장 & 불러오기 (0)	2024.08.02
[PyTorch] Model 저장 & 불러오기 (0)	2024.07.31
[PyTorch] Torch.Autograd를 이용한 자동 미분 (0)	2024.07.30
[PyTorch] Neural Network Model (신경망 모델) 구성하기 (0)	2024.07.26
[PyTorch] Transform (변형) (0)	2024.07.26

Notice

Model 매개변수 최적화 하기

Pre-requisite Code (기본 코드)

Hyperparameter (하이퍼파라미터)

최적화 단계(Optimization Loop)

손실 함수 (Loss Function)

옵티마이저 (Optimizer)

전체 코드 구현

'🔥 PyTorch' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Model 매개변수 최적화 하기

Pre-requisite Code (기본 코드)

Hyperparameter (하이퍼파라미터)

최적화 단계(Optimization Loop)

손실 함수 (Loss Function)

옵티마이저 (Optimizer)

전체 코드 구현

'🔥 PyTorch' 카테고리의 다른 글

티스토리툴바