My Dev & Engineering Repository

1. 신경망의 학습 과정

신경망의 학습 과정은 크게 2가지가 있습니다. 순전파(Forward Pass), 역전파(Backward Pass)가 있습니다.
먼저 이 학습 과정에 데하여 설명을 해보도록 하겠습니다.

Forward Pass (순전파)

Forward Pass (순전파)는 input(입력) data가 신경망의 각층을 차례대로 통과하면서 최종 output 까지 도달하는 과정입니다.

이 과정은 input layer(입력층)에서 output layer(출력층)까지 순차적으로 이루어지며, 최종적으로 손실함수 (loss function)을 통해 예측값과 실제값의 차이를 계산합니다.
이 차이를 손실(loss) or 오차(Error)라고 합니다.
그리고 이 차이는 신경망의 성능을 측정하는 지표가 됩니다.

정리하면, input값은 input layer(입력층), hidden layer(은닉층)을 지나면서 각 층에서의 가중치와 함께 계산되며 나중에는 output layer(출력층)으로 모든 연산이 마친 예측값이 나오게 됩니다.

이렇게 input layer(입력층)에서 output layer(출력층) 방향으로 예측값의 연산이 진행되는 과정을 Forward Pass (순전파) 라고 합니다.

Backward Pass (역전파)

역전파는 손실 함수(Loss function)을 통해 계산된 손실을 사용하여 신경망의 Weigh(가중치)와 bias(편향)을 업데이트 하는 과정입니다.

이 과정에서는 손실 함수(Loss function)의 기울기(Gradient)를 계산하고, 이를 통해 Weight(가중치)에 대한 loss(손실)의 민감도를 파악합니다.
여기서 기울기(Gradient)는 연쇄 법칙(Chain Rule)을 사용하는 Backward Pass (역전파) 알고리즘을 통해 input layer(입력층) 방향으로 전파됩니다.
각 층(layer)의 Weight(가중치)는 해당 층의 input 값 (입력값), Weight(가중치)에 대한 손실 함수(Loss function)의 기울기(Gradient), 학습률(Learning Rate)를 고려하여 업데이트를 합니다.
여기서 기울기(Gradient)가 양수(+)면 Weight(가중치)를 줄이고, 음수(-)면 Weight(가중치)를 늘리는 방식으로 업데이트 합니다.
이렇게 Weight(가중치)를 조정하면서 다음 순전파(Forward Pass)를 진행할때, 손실(Loss)가 감소하도록 합니다.

* Backward Pass(역전파) 에서 연쇄법칙(Chain Rule)

역전파에서 연쇄법칙은 인공신경망의 학습 알고리즘중 하나입니다. 가중치를 업데이트 하는 방식인데, 주로 경사하강법(Gradient Descent)를 사용하여 신경망이 Loss function(손실 함수)를 최소화 하는 방식으로 학습합니다.

2. 인공신경망 예시 (Code & 수식)

한번 인공신경망 Model을 한번 구현해 보겠습니다.

input Dimension이 3, Output Dimension이 2인 인공신경망을 한번 구현해 보겠습니다.

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()

model.add(Dense(2, input_dim=3, activation='softmax'))

여기서 Softmax 함수는 출력 벡터의 분류를 수행하는 역할을 합니다.
Output Dimension, 여기서는 Output Vector의 차원을 2로 두면, 이진(binary) 분류를 수행하는 모델이 됩니다.
- 참고로 Softmax 함수로도 이진 분류가 가능합니다.

Keras Library 에서는 "summary()"를 사용하면 그 모델에 존재하는 모든 매개변수, 가중치, 편향의 개수를 확인할 수 있습니다.

model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense (Dense)               (None, 2)                 8         
                                                                 
=================================================================
Total params: 8 (32.00 Byte)
Trainable params: 8 (32.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________

매개변수는 8개가 나옵니다. 이 신경망에서는 학습 가능한 매개변수 W & b 개수가 총 8개라고 나타냅니다.

신경망을 행렬의 곱셈 관점에서 본 그림, 출처: https://wikidocs.net/150781

이 신경망 에서는 input layer(입력층)의 뉴런이 3개, output layer(출력층)의 뉴런이 2개 입니다. 그리고 화살표 각각은 가중치를 의미하는 w 를 의미하고 있습니다.
각각 3개의 뉴런(x1, x2, x3) 2개의 뉴런 사이에는 총 6개의 화살표가 존재하는데, 이는 위 신경망에서 가중치 w의 개수가 6개임을 의미합니다.

Forward Pass (순전파) 계산 예시

행렬곱 에서는 3차원 벡터에서 2차원 벡터가 되기 위해서 3 × 2 행렬을 곱했다고 할 수 있습니다.
그리고 이 행렬 각각의 원소가 각각의 w가 됩니다. 위 그림에서는 y1 에 연결되는 화살표 w1, w2, w3를 주황색으로 표현하고, y2 에 연결되는 화살표 w4, w5, w6를 초록색으로 표현했습니다.

일반적으로 뉴런과 화살표로 표현하는 인공 신경망의 그림에서는 편향 b는 생략되었지만 편향 b 의 연산 또한 존재합니다.
앞에서 설명했지만 이 그림에서는 편향을 표현하지 않았습니다 ,그렇지만 행렬 연산식에서는 b1, b2를 표현하였습니다.
편향 b 의 개수는 항상 Output Dimension(출력 차원)을 기준으로 개수를 확인하면 됩니다.
이 인공 신경망의 경우에는 Output Dimension(출력 차원)이 2이므로 편향 또한 b1, b2로 두 개입니다.

가중치 w의 개수가 w1 ~ w6 로 총 6개이며 편향 b의 개수가 b1, b2 로 두 개이므로 총 학습가능한 parameter(매개변수)의 수는 8개입니다. model.summary()를 실행하면 매개변수의 수 8개를 확인할 수 있습니다.
그리고 뉴런 y1, y2를 구하는 과정을 수식으로 표현한다면 다음과 같이 표현할 수 있습니다.

y1, y2 를 구하는 과정을 수식화. 출처: https://wikidocs.net/150781

이번에는 입력 x1, x2, x3 을 Input Vector(입력 벡터) X로 하고 계산해보겠습니다.

입력 x1, x2, x3를 벡터 X로 명명. 출처: https://wikidocs.net/150781

그리고 w1 ~ w6 를 원소로 하는 3 × 2 행렬을 가중치 행렬 W 라고 합니다.
편향 b1, b2 를 원소로 하는 Vector 를 B, 그리고 y1, y2 를 원소로하는 Output Vector (출력 벡터)를 Y 로 명명합시다.
위의 설명에 기반하여 인공 신경망은 아래의 과정처럼 표현합니다.

다시 말해 수식은 Y(뉴런) = X(입력벡터) * W(가중치 행렬) + B(편향) 입니다.

Backward Pass (역전파) 예시

한번 역전파의 진행과정을 설명해 보도록 하겠습니다.

역전파를 시각화 하는 그림 예시. 출처: 출처: https://wikidocs.net/150781

시작은 출력층(Output Layer)에서, 뉴런(Neuron)두 개가 있습니다.
각 Output Neuron(출력 뉴런)은 손실 함수(Loss Function)를 통해 계산된 오차에 기반하여 오차 신호를 받습니다.
이 오차 신호는 가중치(Weight)를 통해 입력층(Input Layer)으로 전파되며, 입력층(Input layer)과 출력층(Output layer) 사이의 Weight(가중치)에 대한 Gradient(기울기)를 계산합니다.
입력층(Input Layer) 에는 세 개의 뉴런(Neuron)이 있으며, 각 뉴런(Neuron)은 출력층(Output layer) 으로부터 전파된Gradient(기울기)에 따라 자신의 가중치(Weight)를 조정합니다.

Backward pass(역전파) 과정에서는 출력층(Output layer)의 오차로부터 시작해서 연쇄 법칙(Chain Rule)을 사용하여 각 layer(층)의 Weight(가중치)에 대한 Loss function(손실 함수)의 편미분을 계산합니다.
이를 통해 Weight(가중치)의 Gradient(기울기)가 계산되고, 이 Gradient(기울기)는 Optimizer(ex: SGD, Adam 등)를 사용하여Weight(가중치)를 업데이트하는 데 사용됩니다.

* Optimizer:
Optimizer(옵티마이저)는 신경망을 훈련할 때 사용되는 알고리즘으로, 정의된 loss function(손실 함수)의 값을 최소화하거나 최적화하기 위해 모델의 Weight(가중치)와 bias(편향)을 업데이트하는 방법을 결정합니다.

Forward Pass(순전파), Backward pass(역전파) Summary

Forward Pass(순전파)는 input(입력)에서 output(출력)으로 데이터가 흐르는 과정으로, 최종 출력과 loss(손실) 값을 계산합니다.
Backward Pass(역전파)는 output(출력)에서 input(입력)으로 오차 신호가 흐르는 과정으로, loss(손실)을 기준으로 weight(가중치)를 조정합니다.

이 과정들을 신경망에서 반복적으로 수행되며, 이 반복적으로 수행되는 의미의 용어를 epoch(에폭) 이라고 합니다.
epoch를 거듭할수록, 신경망은 loss(손실)가 최소화 되며, 데이터가 잘 모델링 할 수 있게, 알아서 Weight(가중치) 와 bias(편향)을 알아서 찾는 과정을 거칩니다.

3. Gradient Exploding

Gradient Exploding(기울기 폭팔) 문제는 신경망의 Backward Pass(역전파) 과정 중에 Gradient(기울기)가 너무 커져서 수치적으로 불안정해지는 것을 말합니다.

긴 Sequence(시퀀스)를 처리할 때 RNN에서 자주 발생합니다.
이유는 Time-Step의 Weight(가중치)가 Backward Pass(역전파) 될 때 연속적으로 곱해지면서 Gradient(기울기)가 증가할 수 있기 때문입니다.

그러면 Gradient Exploding(기울기 폭팔) 문제를 해결하기 위한 방법은 뭐가 있을까요?

Gradient Exploding(기울기 폭팔)가 일어나는 이유는 아래 그림을 보면서 설명드리면, 신경망의 Backward Pass(역전파) 과정중에 너무 큰 Gradient(기울기)가 생겨서 Parameter가 Overshooting이 됩니다.
- * Overshooting: 여기서는 임계값을 초과하는 현상 - like Gradient Exploding(기울기 폭팔)과 같다고 보시면 됩니다.

기울기 클리핑(Gradient Clipping): 가장 일반적인 해결책 중 하나로, Backward Pass(역전파) 과정에서 Weight(가중치)의 크기가 특정 임계값을 초과하는 경우 Weight(가중치)의 크기를 임계값으로 제한합니다. 이는 Gradient(기울기)의 방향은 유지하면서 크기만 조정합니다.
- 만약 Gradient(기울기)의 크기가 임계값 이상으로 커지면? 값이 임계값 미만이 되로록 Scaling 해줍니다.
가중치 초기화(Weight Initialization): Weight(가중치)를 적절하게 초기화하여 Backward Pass(역전파)시 Gradient(기울기)가 과도하게 증가하지 않도록 조정합니다.
- 다만, Weight(가중치)를 줄이면 Vanishing Problem(손실 문제)가 발생할수도 있기 때문에 적절히 조정해줘야 합니다.
작은 학습률(Learning Rate): 학습률을 낮추어 Weight(가중치) 업데이트 크기를 작게 하여 Gradient Exploding(기울기 폭팔)의 영향을 줄일 수 있습니다.
배치 정규화(Batch Normalization): 각 layer(층)의 input(입력)을 Normalization(정규화)함으로써 Gradient(기울기)의 크기를 조절하고 학습 과정을 안정화할 수 있습니다.
단순화된 네트워크(Simplified Network): 신경망의 복잡도를 줄여서 Gradient(기울기)가 증폭되는 것을 방지할 수 있습니다.

4. Gradient Vanishing

Gradient Vanishing (기울기 손실) 문제는 신경망의 Backward Pass(역전파) 과정 중에 발생합니다.

네트워크의 깊은 부분으로 시작하여 앞쪽 layer(층)으로 이동하면서 Gradient(기울기)가 점점 작아지는 현상입니다.
그러면 Input layer(입력층)에 가까운 Weight(가중치)는 거이 update가 안됩니다.
그러면 효과적인 학습이 어려워질수 있습니다.

Gradient Vanishing (기울기 손실)의 주요 원인에 대하여 말해보겠습니다.

Activation Function(활성화 함수): 활성화 함수인 "Sigmoid" 함수, "tanh(하이퍼볼릭 탄젠트)" 함수는 출력값의 범위가 제한되어 있습니다.
- input(입력) 값이 커지거나 작아지면 함수의 Gradient(기울기)가 매우 작아집니다. 이렇게 작은 Gradient(기울기)가 Network를 거슬러 올라가면서 곱해지면, Gradient(기울기)는 점점 더 작아집니다.
초기 Weight(가중치) 설정: Weight(가중치)가 작게 초기화 되면, Activation Function(활성화 함수)에서의 Gradient(기울기)도 작아져서 Gradient Vanishing (기울기 손실)이 발생할수도 있습니다.
깊은 네트워크의 구조: 만약 네트워크가 매우 깊을 경우, Gradient(기울기)는 더 많은 layer(층)를 거치게 되고, 각 layer(층)마다 Gradient(기울기)가 점점 더 작아질 수 있습니다.

그러면 Gradient Vanishing (기울기 손실) 문제를 해결하기 위한 방법은 어떤게 있을까요?
RNN의 구조를 봐꾸기도 하지만, 다른 여러 방법도 아래에 기술해 보았습니다.

ReLU 활성화 함수 사용: ReLU(Rectified Linear Unit) 및 그 변형들은 한쪽 방향으로는 Gradient(기울기)가 사라지지 않는 특성을 가지고 있어, 기울기 소실 문제를 완화시킬 수 있습니다.
적절한 가중치 초기화: He 초기화나 Xavier(Glorot) 초기화와 같은 전략을 사용하여 적절한 Weight(가중치) 스케일을 설정함으로써 Gradient Vanishing (기울기 손실) 문제를 줄일 수 있습니다.
배치 정규화(Batch Normalization): 각 layer(층)의 입력을 Normalization(정규화)하여 학습 과정을 안정화시키고 Gradient Vanishing (기울기 손실) 문제를 완화할 수 있습니다.
잔차 연결(Residual Connections): input(입력)을 몇 층을 건너뛰어 output(출력)에 직접 더하는 방식으로, 정보가 깊은 층으로 loss(손실) 없이 전달될 수 있도록 합니다. ResNet과 같은 아키텍처에서 사용됩니다.
게이트가 있는 순환 구조: LSTM(Long Short-Term Memory)이나 GRU(Gated Recurrent Unit)와 같은 순환 신경망 구조는 게이트를 사용해 정보 흐름을 조절함으로써 Gradient Vanishing(기울기 손실) 문제에 대처합니다.

Ps. 그러면 다음 글은 LSTM, GRU 모델에 설명하는 글을 들고 오도록 하겠습니다. 드디어 쓰네요 LSTM을...

저작자표시 비영리 동일조건 (새창열림)

'🖥️ Deep Learning' 카테고리의 다른 글

[DL] Neural Networks (신경망) (0)	2024.03.17
[DL] Perceptron (퍼셉트론) (0)	2024.03.12
[DL] Matplotlib 라이브러리에 데하여 알아보기 (0)	2024.03.05
[DL] Numpy & 행렬에 데하여 알아보기 (0)	2023.09.03
[DL] Preparations for Deep Learning - 준비사항 & Python 기본문법 (0)	2023.07.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Notice

1. 신경망의 학습 과정

Forward Pass (순전파)

Backward Pass (역전파)

2. 인공신경망 예시 (Code & 수식)

Forward Pass (순전파) 계산 예시

Backward Pass (역전파) 예시

Forward Pass(순전파), Backward pass(역전파) Summary

3. Gradient Exploding

4. Gradient Vanishing

'🖥️ Deep Learning' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

SUBSCRIBE

Notice

1. 신경망의 학습 과정

Forward Pass (순전파)

Backward Pass (역전파)

2. 인공신경망 예시 (Code & 수식)

Forward Pass (순전파) 계산 예시

Backward Pass (역전파) 예시

Forward Pass(순전파), Backward pass(역전파) Summary

3. Gradient Exploding

4. Gradient Vanishing

'🖥️ Deep Learning' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역