My Dev & Engineering Repository

이번에는 다층 퍼셉트론(Multilayer Perceptron, MLP)에 데하여 알아보겠습니다.

다층 퍼셉트론(Multilayer Perceptron, MLP)

다층 퍼셉트론(Multilayer Perceptron, MLP)은 기본적인 인공 신경망의 형태 중 하나로, 특히 복잡한 비선형 관계와 패턴을 학습할 수 있는 능력으로 인해 분류 및 회귀 문제에 널리 사용됩니다.

기본 구조는 입력층, 하나 이상의 은닉층, 그리고 출력층으로 이루어진 FeedForward 신경망 이며, 각 층은 여러 뉴런으로 구성됩니다.

또한 각 뉴런은 이전층의 뉴런으로부터 입력을 받아 가중치를 적용하고, 활성화 함수를 통해 출력을 생성합니다.

다층 퍼셉트론(Multilayer Perceptron, MLP)의 구조

다층 퍼셉트론의 구조는 3가지로 구성됩니다.

입력층(Input Layer)

모델에 데이터를 입력하는 최초의 층.
각 입력 뉴런은 하나의 특성(feature)를 대표합니다.

은닉층(Hidden Layers)

입력층과 출력층 사이에 하나 이상 존재.
데이터의 복잡한 패턴과 특징을 추출합니다.
각 뉴런은 이전 층의 출력에서 입력을 받아 가중치와 활성화 함수를 통해 처리합니다.

출력층(Output Layer)

최종적인 예측 결과를 출력합니다.
분류 문제의 경우, 각 뉴런은 특정 클래스를 대표할 수 있으며, 회귀 문제의 경우 하나 또는 여러 값으로 구성될 수 있습니다.

다층 퍼셉트론(Multilayer Perceptron, MLP)의 기본 원리

위에서는 다층 퍼셉트론의 구조가 어떻게 구성되는지 알았습니다. 그러면 다층 퍼셉트론은 어떠한 원리로 작동할까요?

Neuron (뉴런)

다층 퍼셉트론의 기본 단위는 뉴런으로, 이는 인간의 신경 세포를 모방한 개념입니다.

각 뉴런은 여러 입력 값을 받아들여 가중치(weight)를 적용하고, 그 결과를 선형 결합합니다. 이때 선형 결합의 식은 다음과 같습니다

여기서 wi는 가중치, xi는 입력 값, b는 바이어스(bias), 편향 값입니다.
이후, 이 선형 결합의 결과값 z는 활성화 함수에 전달되어 뉴런의 출력이 생성됩니다.
활성화 함수의 출력 aa는 다음 층의 뉴런으로 전달됩니다.

Activation Function (활성화 함수)

활성화 함수는 뉴런의 출력을 비선형적으로 변환하여 모델이 복잡한 패턴을 학습할 수 있도록 돕습니다.

대표적인 활성화 함수로는 시그모이드 함수(sigmoid), 하이퍼볼릭 탄젠트 함수(tanh), 렐루 함수(ReLU)가 있습니다.
시그모이드 함수: 출력 값을 0과 1 사이로 제한하며, 수식은 다음과 같습니다.

순방향 전달

순방향 전달(Foward Propagation)은 입력 데이터가 입력층에서 시작하여 은닉층을 거쳐 출력층으로 전달되는 과정입니다.

각 층의 뉴런은 이전 층에서 전달된 값을 입력으로 받아 계산을 수행하고, 그 출력을 다음 층으로 전달합니다.
이 과정에서 입력 데이터가 모델의 계층을 따라 흐르며, 최종적으로 예측 값을 출력하게 됩니다.

손실 함수

손실 함수(Loss Function)는 모델의 예측 값과 실제 값 간의 차이를 측정하는 함수로, 모델의 성능을 평가하는 데 사용됩니다.

대표적인 손실 함수로는 평균제곱오차(MSE)와 교차 엔트로피 손실(Cross-Entropy Loss)가 있습니다.

평균제곱오차(MSE): 회귀 문제에서 자주 사용되며, 예측 값과 실제 값의 차이를 제곱하여 평균을 구한 값입니다.

교차 엔트로피 손실: 분류 문제에서 주로 사용되며, 예측 확률과 실제 클래스 간의 불일치를 측정합니다.

Backpropagation(역전파)

역전파(Backpropagation)는 손실 함수를 최소화하기 위해 모델의 가중치와 바이어스를 조정하는 과정입니다.

이 과정은 각 층의 가중치와 바이어스에 대한 손실 함수의 기울기를 계산하고, 경사 하강법(Gradient Descent)을 사용해 가중치와 바이어스를 업데이트하여 학습을 진행합니다.

다층 퍼셉트론의 장점 & 단점

다층 퍼셉트론의 장점

비선형성: 비선형 활성화 함수를 사용하여 복잡한 패턴과 관계를 학습할 수 있습니다.
표현력: 여러 개의 은닉층을 통해 높은 표현력을 가지며, 다양한 문제 해결이 가능합니다.
유연성: 다양한 구조와 활성화 함수를 사용하여 여러 유형의 데이터를 처리할 수 있습니다.

다층 퍼셉트론의 단점

계산 비용: 대규모 데이터셋에서 학습 시간이 오래 걸리고, 계산 비용이 높습니다.
과적합: 모델이 지나치게 복잡해지면 훈련 데이터에 과적합(overfitting)될 가능성이 큽니다.
해석 어려움: 많은 파라미터와 은닉층을 가지므로, 모델의 내부 동작을 해석하는 것이 어렵습니다.

다층 퍼셉트론(Multilayer Perceptron, MLP) Example Code

# 다층 퍼셉트론 (Multilayer Perceptron) 예제

# 필요한 라이브러리 임포트
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# MNIST 데이터셋 로드
mnist = fetch_openml('mnist_784')
X, y = mnist.data / 255., mnist.target

# 데이터셋을 학습 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 표준화
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 다층 퍼셉트론 모델 학습
mlp = MLPClassifier(hidden_layer_sizes=(30,), max_iter=20, alpha=1e-4,
                    solver='sgd', verbose=10, random_state=42,
                    learning_rate_init=0.1)
mlp.fit(X_train, y_train)

# 예측 및 평가
y_pred = mlp.predict(X_test)
print(classification_report(y_test, y_pred))

Iteration 1, loss = 0.32666430
Iteration 2, loss = 0.25799440
Iteration 3, loss = 0.20402879
Iteration 4, loss = 0.17531073
Iteration 5, loss = 0.14613715
Iteration 6, loss = 0.13942319
Iteration 7, loss = 0.13021557
Iteration 8, loss = 0.13022002
Iteration 9, loss = 0.12556882
Iteration 10, loss = 0.11247478
Iteration 11, loss = 0.10460484
Iteration 12, loss = 0.11144142
Iteration 13, loss = 0.11057812
Iteration 14, loss = 0.11260484
Iteration 15, loss = 0.11193568
Iteration 16, loss = 0.13083183
Iteration 17, loss = 0.13530305
Iteration 18, loss = 0.11458551
Iteration 19, loss = 0.12796077
Iteration 20, loss = 0.11219598
              precision    recall  f1-score   support

           0       0.97      0.97      0.97      1343
           1       0.97      0.98      0.97      1600
           2       0.95      0.94      0.94      1380
           3       0.95      0.93      0.94      1433
           4       0.96      0.95      0.95      1295
           5       0.93      0.93      0.93      1273
           6       0.96      0.97      0.96      1396
           7       0.96      0.96      0.96      1503
           8       0.92      0.93      0.93      1357
           9       0.93      0.95      0.94      1420

    accuracy                           0.95     14000
   macro avg       0.95      0.95      0.95     14000
weighted avg       0.95      0.95      0.95     14000

# 혼동 행렬 시각화
ConfusionMatrixDisplay.from_estimator(mlp, X_test, y_test)
plt.title("MLP Confusion Matrix")
plt.show()

저작자표시 비영리 동일조건

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

[ML] K-Means Clustering (K-평균 클러스터링) (0)	2024.08.17
[ML] Unsupervised Learning (비지도 학습) (0)	2024.08.16
[ML] Random Forest (랜덤 포레스트) (0)	2024.08.12
[ML] Decision Tree (결정 트리) (0)	2024.08.12
[ML] Support Vector Machine (SVM, 서포트 벡터 머신) (0)	2024.08.11

Notice

다층 퍼셉트론(Multilayer Perceptron, MLP)

다층 퍼셉트론(Multilayer Perceptron, MLP)의 구조

입력층(Input Layer)

은닉층(Hidden Layers)

출력층(Output Layer)

다층 퍼셉트론(Multilayer Perceptron, MLP)의 기본 원리

Neuron (뉴런)

Activation Function (활성화 함수)

순방향 전달

손실 함수

Backpropagation(역전파)

다층 퍼셉트론의 장점 & 단점

다층 퍼셉트론(Multilayer Perceptron, MLP) Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

다층 퍼셉트론(Multilayer Perceptron, MLP)

다층 퍼셉트론(Multilayer Perceptron, MLP)의 구조

입력층(Input Layer)

은닉층(Hidden Layers)

출력층(Output Layer)

다층 퍼셉트론(Multilayer Perceptron, MLP)의 기본 원리

Neuron (뉴런)

Activation Function (활성화 함수)

순방향 전달

손실 함수

Backpropagation(역전파)

다층 퍼셉트론의 장점 & 단점

다층 퍼셉트론(Multilayer Perceptron, MLP) Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바