My Dev & Engineering Repository

Feed-Forward Network

Feed-Forward Networks는 가장 기본적인 인공 신경망 구조중 하나로, Input Layer(입력층)에서 Output Layer(출력층)으로 데이터가 순방향으로 흐르는 구조를 의미합니다.

여기서 Data는 각 Layer(층)을 지날 때마다 가중치에 의해 변환되고, Activation Function(활성화 함수)를 통해 다음 Layer(층)으로 전달됩니다
이러한 네트워크는 순환 연결이나 복잡한 Feedback 루프가 없어서 계산이 비교적 간단하고, 다양한 문제에 적용될 수 있습니다.

정리하자면, 데이터가 네트워크를 통해 한 방향으로만 흐른다는 것을 의미합니다.

입력 데이터는 Input Layer(입력층)에서 시작하여 Hidden Layer(은닉층)을 거쳐 Output Layer(출력층)으로 전달되며, 각 층에서는 Activation Function(활성화 함수)를 통해 처리됩니다.
이 과정에서 순환(loop)이나 되돌아가는(feedback) 연결은 없으며, 각 층은 이전 층의 출력을 다음 층의 Input(입력)으로만 사용합니다.

Feed-Forward Network의 기본적인 형태

다수의 Input(입력) Node, Weight(가중치), Activation Function(활성화 함수)를 통해 출력 노드로 정보를 전달합니다.
이때 Weight(가중치)는 학습 과정에서 업데이트 되며, 초기 Weight(가중치)는 보통 무작위로 결정됩니다.
FNN(Feed-Forward Networks)는 MLP, Multi-Layer Perceptron(다중 퍼셉트론)이라고도 불리며, Hidden Layer(은닉층)이 하나 이상인 인공신겸망을 의미합니다.

FFN의 네트워크 구조

x는 vector (Input Layer의 Neuron), 모델이 처리할 데이터를 의미합니다.
W는 Matrix (가리키는 화살표), Weight(가중치)를 의미합니다.
h는 Vector (Hidden Layer의 Neuron)을 의미합니다.
b는 Bias(편향) 입니다.
input Layer → hidden Layer로 이동시 첫번째 Hidden Layer Neuron을 W1 vector로 이동합니다.

또한 그림의 오른쪽 상단에 있는 인공신경망의 수식을 수학적으로 나타낸 것입니다. 여기서 중요한 역할을 하는건 가중치(w), 편향(b), 그리고 활성화 함수(σ)입니다.
가중치(w), 편향(b)은 각 Layer(층)에서 데이터를 어떻게 변형시킬지 결정하는 Parameter입니다. 각 Layer의 Output은 이전 Layer의 Output(또는 초기 입력 x)에 Weight(가중치)를 곱하고 Bias(편향)을 더하여 계산됩니다.
σ: 각 Layer(층)의 결과로 나온 선형 변환값에 비선형 함수를 적용하는 것입니다. 대표적인 활성화 함수로는 ReLU, Sigmoid, Tanh(하이퍼볼릭탄젠트) 등이 있습니다.
L: 신경망의 총 층 수를 의미합니다. 이 Layer(층)들은 Input Layer(입력층)부터 시작해서 하나 또는 여러 개의 Hidden Layer(은닉층)을 거쳐 최종적으로 Output Layer(출력층)에서 예측값을 내놓습니다.

Feed-Forward Network - Input

위의 그림은 3개의 Neuron과 1개의 Hiiden Layer로 이루어 지는 Network 입니다.

은닉층(Hidden Layer)은 인공 신경망에서 입력층(Input Layer)과 출력층(Output Layer) 사이에 위치하는 층을 말합니다. 신경망의 핵심 구조 중 하나로, 신경망이 복잡한 패턴이나 데이터의 특성을 학습할 수 있게 하는 중요한 역할을 합니다.

그림을 보시면, Multi-Layer Perceptron과 같이 Node과 연결된 Network입니다.
Fully-Connected Layer 라고도 하며, Input Data를 1차원 형태의 Vector로 받아서 처리합니다.

Feed-Forward Network - Output

크게 2개의 문제로 나눌수 있습니다.
Classification (분류 문제), Regression (회귀 문제)

Feed-Forward Network Output - Classification (분류 문제)

위의 그림에 대한 설명을 해보면 Classification 에선?
input Data에 대한 Class, Category를 예측하는 문제가 있습니다.
여기서 Output은 Input Data가 속할 클래스 입니다.
Discrete Value (확률모델): Input Data가 각 Class에 속할 확률 분포를 예측합니다.
아래에서 자세히 Sigmoid를 사용하는 이진분류, Softmax를 사용하는 다중분류에 데하여 설명하겠습니다.

일단 한번 베르누이 분포 (Bernoulli Distribution)에 데하여 설명을 해보겠습니다.

베르누이 분포는 이진 분포의 하나로, 실험이 두 가지 결과 중 하나만을 가질 때 사용되는 확률 분포입니다.
베르누이 분포는 다음과 같이 정의됩니다:
- 성공 확률 (p) : 실험에서 성공(1로 표현)할 확률
- 실패 확률 (1-p) : 실험에서 실패(0으로 표현)할 확률
베르누이 분포를 추정하는 것은 주어진 데이터로부터 성공 확률 (p)를 결정하는 과정을 의미합니다.
또한 Categorial Distribution (다중분류)도 있지만, 뒤에서 설명하겠습니다.

Feed-Forward Network Output - Regression (회귀 문제)

Regression (회귀 문제)는 하나 또는 그 이상의 독립 변수와 종속 변수 사이의 관계를 모델링하고, 이를 함수의 형태로 나타내어 독립 변수의 변화가 종속 변수에 어떤 영향을 미치는지 분석하는 문제입니다.

여기서 Output(출력)은 입력 데이터에 대한 함수값 입니다.
또한 여기서 확률 모델은 관측한 값에 대한 확률 분표값을 예측합니다.
그리고 Regression(회귀 문제)에서 Gauassian Distrubution(가우시안 분포)도 있습니다.
- 이유는 회귀 문제에서 사용되는 연속데이터는 대부분 Gauassian(가우시안)으로 가정하기 때문입니다.

Binary classification (이진 분류)

앞에서 설명한 베르누이 분포 (Bernoulli Distribution)를 가지는 출력은 Sigmoid 함수로 만들수 있습니다. 왜 일까요?

Sigmoid 함수는 0과 1 사이의 값을 출력하여, 이진 분류 문제에서의 확률(성공 또는 실패)을 나타내기에 적합합니다.
Sigmoid 함수의 출력을 특정 사건의 발생 확률로 해석할 수 있어, 이진 결정 문제에 적합합니다.
Sigmoid 함수는 미분 가능하여, 기계 학습에서 경사 하강법 등의 최적화 알고리즘을 사용할 때 필요한 파라미터 조정이 가능합니다.

Sigmoid Function (시그모이드 함수)

간단하게 정리 하자면, Sigmoid Function(시그모이드 함수)는 입력값을 확률값으로 변환을 해줍니다.
또한 값이 0과 1사이에 존재합니다.
그리고 Cross-Entropy Loss와 함께 사용하는데, 이 Cross-Entropy Loss는 아래에서 설명하겠습니다.

Decision Boundary (결정 경계)

다시 돌아오자면, Sigmoid Function(시그모이드 함수)를 이용하여 Model이 예측한 Bernoulli Distribution (베르누이 분포)으로 Decision Boundary(결정 경계)를 찾습니다.

Decision Boundary(결정 경계)는 특정 구간에서 서로 다른 클래스를 구분하는데 사용됩니다.
그리고 Input Data를 분류하는데 사용되는 모델의 기준을 나타내며, Binary Classification(이진 분류)에서는 Decision Boundary(결정 경계)를 경계로 한쪽은 하나의 클래스, 다른 한쪽은 다른 한쪽의 클래스로 분류됩니다.

위의 그림을 보면 (H(x) = g(XW))는 모델의 예측 함수를 나타내는 수식입니다.
여기서 H(x)는 주어진 Input(x)에 데한 Model Predict output을 의미합니다.
g(XW)는 Input Data(X) & Weight(W)를 적용한뒤, Activation Function(활성화 함수)를 통해 변환된 값을 의미합니다.

Decision Boundary (결정 경계) 설정과 예측값의 범위에 대한 설명

Classification 모델 그래프 아래 순서도가 있습니다. 그걸 보면서 설명을 해보겠습니다.
Linear Function θ * T의 의미는 보통 Logistic Regression(로지스틱 회귀)에서는 Input Data(X)랑 Weight(가중치)를 의미하는 세타(θ)랑 곱해서 얻은 선형함수의 결과를 의미합니다.
Logistic Function(로지스틱 회귀)에서는 Linear Function(선형 함수)의 결과를 입력으로 받아서 Output Value(y)의 값을 출력합니다.
- 그리고 그 Output Value(y)는 0과 1 사이의 값을 가집니다. 이건 특정 데이터를 의미하는 포인트가 특정한 클래스에 속할 확률을 나타냅니다.
Decision Boundary > 0.5: Logistic Function 에서는 Output Value(y)가 (0.5)보다 크면 데이터 포인트를 한 클래스에 속하는 것으로 분류하고 (0.5)보다 작거나 같으면 다른 클래스에 속하는 것으로 분류합니다.
따라서, (0.5)는 결정 경계(Decision Boundary)로 작용합니다. 예를 들어, (y > 0.5)이면 클래스 1에, 그렇지 않으면 클래스 0에 속한다고 판단할 수 있습니다.
그리고 각 데이터의 class는 이미 구분되어 있습니다.

Categorical classification (다중 분류)

다중분류는 Category 분포를 추정하는 문제입니다

다중분류 문제는 여러 범주 중 하나를 선택하는 것이 목표이기 때문에, Category 분포를 추정하는 문제로 볼 수 있습니다
Category 분포는 여러 범주 중 하나가 발생할 확률을 모델링하며, 다중 분류에서는 각 클래스 또는 범주에 속할 확률을 추정해야 합니다.
따라서, 다중 분류는 각 관측치가 주어진 여러 범주 중 어느 하나에 속할 확률을 추정하는 과정이며, 이는 Category 분포의 추정과 직접적으로 관련이 있습니다.

그렇다고 Binary Classification(이진 분류)와는 다른점은, Binary Classification(이진 분류)는 2개의 Class를 분류하여 2개의 결과만을 내지만, Categorial Classification(다중 분류)는 m개의 결과를 낸다는 점이 있습니다.

Softmax Function(소프트맥스 함수)

Softmax 함수는 주로 다중 클래스 분류 문제에서 사용되는 활성화 함수입니다.
각 클래스에 대한 Predict값을 추출하기 위한 *Logits (즉, 신경망에서 마지막 Linear Layer(선형 계층)을 통과한 Output Value)를 받아서 각 클래스에 속할 확률값으로 변환합니다.
각 클래스의 확률 값은 0~1사이로 표현하고, 이 확률값들의 총합은 1이 됩니다.
그리고 N개의 Category 분류에 사용되며, Cross-Entropy Loss와 같이 사용 됩니다.

*Logits: Logits은 신경망과 같은 기계 학습 모델에서, Activation Function(활성화 함수)나 softmax 함수 같은 다음 단계로 전달되기 전의, 마지막 Hidden Layer(은닉층)의 출력값을 의미합니다.

Softmax Function (소프트맥스 함수) 수식

Softmax 함수의 수식을 보면서 한번 자세히 알아보겠습니다. (위의 그림 오른쪽 상단에 수식이 있음)
yi는 i번째 클래스에 데한 Logits Value(신경망의 마지막 Linear Layer(선형 계층)의 Output) 입니다.
분모, 분자에 있는 e**yi 값은 각 클래스 로직 yi에 지수함수 e를 적용한것입니다.
- Softmax 함수에서 각 클래스 y에 대한 로직 yi는 지수화되어서 표현합니다.
- 이유는 여러 클래스들중 하나를 선택하기 위해 각 클래스의 점수를 증가시겨서, 높은 값을이 잘 나타나게 하는 역할을 합니다.

Sotmax Function(소프트맥스 함수) 계산 과정

지수화: 각 클래스 Logic yi에 대하여 지수함수 e를 적용합니다. 이 방법은 큰 값을 더 크게 하여 Logits 간의 차이를 확대합니다.
합 계산: 모든 클래스에 데한 지수화된 값 e**yi의 총합을 계산합니다. 이 부분은 Softmax 함수의 분모에 해당되며, 모든 Class의 지수화된 값으로 정의되며, 이 합은 정규화(Regularzation)단계에서 사용됩니다.
정규화: 각 클래스 i에 데하여 지수화된 값을 총합으로 나눕니다. 이건 각 값 e**yi를 모든 값을 분모로 나누어서 각 클래스의 Output을 확률값으로 변환합니다. 그리고 모든 클래스에 대한 확률의 합은 1이 나와야 합니다.

Categorical classification (다중 분류)의 진행 과정.

그러면 이제 다중분류의 진행과정을 그림으로 한번 보도록 하겠습니다.

Input Value(입력 값)을 Neural Network(신경망)에 넣어서 Training후, Output Value로 나온 Score 값/ Logits 값을 Softmax Function을 통과하여 확률값으로 나타냅니다.
그러면 이제 각 클래스별로 모델이 출력한 확률값이 나왔는데, 클래스가 들어있는 실제 Label(데이터 포인터가 속한 클래스)와 출력한 확률값을 서로 비교합니다.
그러면 이제 예측한 확률과 실제 Label의 차이를 측정해야 합니다. 이때 이 차이를 측정할 때 크로스 엔트로피(Cross-Entropy)가 사용됩니다.
근데 크로스 엔트로피(Cross-Entropy)가 뭘까요?

Cross-Entropy (크로스 엔트로피)

Cross-Entropy(크로스 엔트로피)는 실제 Label과 모델이 예측한 확률값 사이의 차이를 측정하는데 사용됩니다.

크로스 엔트로피(Cross-Entropy)는 실제 분포(클래스 레이블)와 예측 분포(모델이 출력한 확률)사이의 차이를 측정하는 데 사용되는 Loss Function(손실 함수)입니다.
특히 신경망에서 Categorial Classification(다중 분류)를 다룰 때 특히 유용합니다.
또한 확률분포가 얼마나 불확실 한지 or 랜덤한지를 나타내고, Random한 변수의 정보량의 기대값입니다.
크로스 엔트로피(Cross-Entropy)를 사용하는 주된 목적은 모델의 예측이 실제 레이블과 얼마나 잘 일치하는지를 수치적으로 평가하여, 학습을 통해 이 손실을 최소화한다는 목적이 있습니다.

Cross-Entropy(크로스-엔트로피) 의 수식 & 계산

Categorial Classification(다중 분류)에서의 각 입력 샘플은 하나의 클래스에만 속합니다.
또한 위의 수식에서 p(x)는 Random Variable(랜덤한 변수)의 확률입니다.
:는 이 식의 기대값을 나타냅니다. p(x) - 랜덤변수의 분포에 따라 분포된 확률변수 x에 대해 -logp(x)의 기대값을 계산합니다. 이 기대값은 확률분포 p(x)에 대해 로그 우도(log-likehood)를 계산하는것과 유사합니다.

로그 우도(log-likelihood)는 주어진 데이터가 특정 모델(또는 확률 분포)에 의해 생성될 확률을 로그로 변환한 값을 의미합니다.

: 이 식은 확률분포 p(x)대해 로그 우도를 계산하는 적분입니다. 여기서 모든 x에 대해 p(x) log p(x)를 곱한 값을 적분합니다.
그리고 하나 알아야 하는 점이 있습니다. Random Variable(p)가 얼마나 Random 한가? 를 알고싶으면 Entropy를 보면됩니다.
위의 하단의 그래프를 보면 알수 있듯이, Entropy가 높으면 확률분포 p(x)의 기대 확률은 낮습니다.
그리고 반대로 Entropy가 낮으면 확률분포 p(x)의 기대 확률은 높습니다. 왜일까요?
- 엔트로피가 높을 때: 확률 분포가 여러 값에 대해 비슷한 확률을 가질 때, 즉 분포가 고르게 분포되어 있을 때, 엔트로피가 높아집니다. 이는 확률 분포가 다양한 값을 가질 가능성이 높다는 것을 의미합니다.
- 엔트로피가 낮을 때: 확률 분포가 특정 값에 집중되어 있을 때, 즉 어떤 값의 확률이 높고 나머지 값의 확률이 낮을 때, 엔트로피가 낮아집니다. 이는 확률 분포가 특정 값에 몰려 있다는 것을 의미합니다.
- 위의 내용을 보면서 요약하면, 엔트로피가 높으면 불확실성이 크고, 특정 값이 결정될 가능성이 낮습니다. 반면 엔트로피가 낮으면 확률 분포가 특정 값에 집중되어 있기 때문에 불확실성이 낮고, 특정 값이 결정될 가능성이 높다는것을 의미합니다.

Cross-Entropy-Loss (크로스 엔트로피 손실)

크로스 엔트로피 손실(Cross-Entropy Loss)은 Categorial Classification(다중 분류) 작업에서 모델의 예측이 실제 레이블과 얼마나 다른지 측정하는 데 사용되는 손실 함수 입니다.

특징은 자연 log의 그래프를 하고 있다는 특징이 있습니다.

근데 자연 log 그래프 위에 수식이 하나 있습니다. 이건 무슨 의미일까요? Cross Entropy Loss H(t, f(x;θ))
Cross Entropy Loss H(t, f(x;θ)): 이건 크로스-엔트로피 손실 함수를 의미합니다.

Cross-Entropy Loss 수식의 의미

Binary(이진) or Categorial Classification(다중 분류)에서 모델의 예측과 실제 레이블 t 사이의 크로스 엔트로피 Loss를 나타냅니다.
f(x;θ)는 입력 데이터 x에 대한 모델의 예측 확률로 모델의 파라미터인 θ(세타)에 의하여 결정됩니다.
예측확률: f(x;θ)은 모델이 입력데이터 x에 대한 예측한 확률을 나타내며, Softmax - Categorial Classification(다중 분류), Sigmoid - Binary Classification(이진 분류)를 통해 계산됩니다.
실제 레이블 t: 실제 레이블은 주어진 입력 데이터 x의 실제 클래스 or Label입니다. Binary Classification(이진 분류)이면 t는 0 or 1 이고, Categorial Classification(다중 분류)는 One-Hot Encoding[0 or 1]된 Vector로 표현됩니다.

계산 방법

Binary Classification(이진 분류): 이진 분류의 경우 크로스 엔트로피 손실은 다음과 같이 계산됩니다.
이 수식은 모델의 예측이 실제 레이블 t가 얼마나 일치 하는지를 측정합니다.

예측확률: f(x;θ) = σ(w * x + b)
여기서 w⋅x는 입력 데이터와 가중치의 내적, b는 편향입니다. Sigmoid Function(시그모이드 함수)를 사용하여 예측 확률을 계산합니다.
그리고 실제 레이블 t과 예측 확률 f(x;θ)를 사용하여 손실 함수를 계산합니다.
- t * log f(x;θ): 실제 레이블이 1일때, 모델의 예측 확률이 얼마나 정확한지를 평가합니다.
- (1 - t) * log (1-f(x;θ)): 실제 레이블이 0일때 모델의 예측 확률이 얼마나 정확한지를 평가합니다.
- 그리고 수식의 각 항을 계산하고 합산하여 Binary Cross-Entropy Loss (이진 크로스 엔트로피 손실)값을 구합니다.

Categorial Classification(다중 분류): 다중 분류의 경우 크로스 엔트로피 손실은 다음과 같이 계산됩니다.

C: 클래스의 수입니다.
ti: 실제 레이블의 원-핫 인코딩된 벡터로, 각 클래스 i에 해당하는 실제 레이블을 나타냅니다.
- 실제 레이블이 i인 경우 ti = 1이고, 나머지 클래스의 경우 ti = 0입니다.
f(x;θ): 모델이 입력 데이터 x에 대해 예측한 각 클래스 i에 대한 확률입니다.

모델의 예측 확률 계산: 입력 데이터 x에 대해 모델이 각 클래스 i에 대한 예측 확률을 계산합니다. 소프트맥스 함수를 사용하여 모델의 예측을 확률 분포로 변환합니다.

여기서 zi는 모델의 각 클래스 i에 대한 Score(Logits)입니다.
손실 함수 계산: 실제 레이블의 원-핫 인코딩된 벡터 fi(x;θ)을 사용하여 각 클래스에 대한 크로스 엔트로피 손실을 계산합니다.

ti⋅logfi(x;θ): 실제 레이블이 i일 때 모델의 예측 확률 (x;θ)의 로그를 곱하여, 모델의 예측이 실제 레이블과 얼마나 일치하는지 평가합니다.
합산: 각 클래스에 대한 크로스 엔트로피 손실을 합산하여 전체 손실 값을 구합니다.

저작자표시 비영리 동일조건 (새창열림)

'🖥️ Deep Learning' 카테고리의 다른 글

[DL] Training Related Skills - SGD, Momentum, AdaGrad, Adam (학습 관련 기술들) (0)	2024.04.30
[DL] Activation Function - 활성화 함수 (0)	2024.04.29
[DL] 단순한 Layer 구현해보기 (0)	2024.03.31
[DL] Backpropagation (오차역전파법) (0)	2024.03.27
[DL] Gradient (기울기), Training Algorithm(학습 알고리즘) (0)	2024.03.23

Notice

Feed-Forward Network

Feed-Forward Network의 기본적인 형태

FFN의 네트워크 구조

Feed-Forward Network - Input

Feed-Forward Network - Output

Feed-Forward Network Output - Classification (분류 문제)

Feed-Forward Network Output - Regression (회귀 문제)

Binary classification (이진 분류)

Sigmoid Function (시그모이드 함수)

Decision Boundary (결정 경계)

Decision Boundary (결정 경계) 설정과 예측값의 범위에 대한 설명

Categorical classification (다중 분류)

Softmax Function(소프트맥스 함수)

Softmax Function (소프트맥스 함수) 수식

Sotmax Function(소프트맥스 함수) 계산 과정

Categorical classification (다중 분류)의 진행 과정.

Cross-Entropy (크로스 엔트로피)

Cross-Entropy(크로스-엔트로피) 의 수식 & 계산

Cross-Entropy-Loss (크로스 엔트로피 손실)

Cross-Entropy Loss 수식의 의미

계산 방법

'🖥️ Deep Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Feed-Forward Network

Feed-Forward Network의 기본적인 형태

FFN의 네트워크 구조

Feed-Forward Network - Input

Feed-Forward Network - Output

Feed-Forward Network Output - Classification (분류 문제)

Feed-Forward Network Output - Regression (회귀 문제)

Binary classification (이진 분류)

Sigmoid Function (시그모이드 함수)

Decision Boundary (결정 경계)

Decision Boundary (결정 경계) 설정과 예측값의 범위에 대한 설명

Categorical classification (다중 분류)

Softmax Function(소프트맥스 함수)

Softmax Function (소프트맥스 함수) 수식

Sotmax Function(소프트맥스 함수) 계산 과정

Categorical classification (다중 분류)의 진행 과정.

Cross-Entropy (크로스 엔트로피)

Cross-Entropy(크로스-엔트로피) 의 수식 & 계산

Cross-Entropy-Loss (크로스 엔트로피 손실)

Cross-Entropy Loss 수식의 의미

계산 방법

'🖥️ Deep Learning' 카테고리의 다른 글

티스토리툴바

Feed-Forward Network - Output

Categorical classification (다중 분류)

Categorical classification (다중 분류)의 진행 과정.