My Dev & Engineering Repository

머신러닝 모델의 학습과 평가 과정에서 중요한 요소들에 대해 다루겠습니다.

훈련 데이터와 테스트 데이터의 분할

모델의 성능을 정확히 평가하고 일반화 능력을 확인하기 위해 데이터셋을 훈련 데이터와 테스트 데이터로 분할합니다.

훈련 데이터는 모델을 학습시키는 데 사용되며, 테스트 데이터는 학습되지 않은 데이터에서 모델의 성능을 평가하는 데 사용됩니다.
일반적인 비율:
- Train(훈련 데이터) : Test(테스트 데이터) = 70:30
- Train(훈련 데이터) : Test(테스트 데이터) = 80:20

데이터 분할 방법

Train(훈련 데이터) & Test(테스트 데이터)를 어떠한 비율로 나누는지 알았습니다. 그러면 어떠한 방법으로 분리할까요?

임의 분할(Random Split):
- 데이터를 무작위로 섞은 후, 지정된 비율에 따라 훈련 데이터와 테스트 데이터로 분할합니다.
- 이는 데이터의 순서가 모델 성능에 영향을 미치지 않는 경우에 유용합니다.
층화 분할(Stratified Split):
- 데이터의 클래스 분포를 유지하면서 훈련 데이터와 테스트 데이터로 분할합니다.
- 이는 클래스 불균형 문제가 있는 경우에 유용하여, 훈련 및 테스트 데이터 모두에서 클래스 비율이 동일하게 유지되도록 합니다.

교차검증 (Cross-Validation)

교차검증 (Cross-Validation)은 데이터를 분할함으로써,
Bias(편향)을 줄이고 모델의 성능을 높이면서 정확하게 평가하기 위한 목적으로 사용됩니다.

데이터의 분할로 인한 편향을 줄이고 모델의 일반화 성능을 보다 정확하게 평가하기 위해 사용됩니다.
k-Fold Cross-Validation
- 데이터셋을 k개의 폴드(fold)로 나누고, 각 폴드는 한 번씩 테스트 데이터로 사용되며, 나머지 k-1개의 폴드는 훈련 데이터로 사용됩니다. 이 과정이 k번 반복되며, 각 반복의 성능을 평균하여 최종 성능 평가에 사용합니다.
- 예시를 한번, 5-Fold Cross-Validation으로 들어보겠습니다.
- 100개의 데이터가 있다면, 100개의 데이터 전체를 5개의 폴드로 나누고, 각 폴드(20개 데이터)가 한번씩 테스트 데이터로 사용됩니다. 나머지 4개의 폴드(80개 데이터)는 훈련 데이터로 사용됩니다. 이 과정을 5번 반복하여 성능 지표를 평균합니다.

출처: https://docs.ultralytics.com/guides/kfold-cross-validation/

교차검증 (Cross-Validation) Example Code

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import confusion_matrix, roc_curve, roc_auc_score, accuracy_score, mean_squared_error, r2_score
# 데이터 생성
from sklearn.datasets import load_iris
from sklearn.datasets import load_digits
from sklearn.datasets import load_breast_cancer

# 데이터 생성
digits = load_digits()  # 손글씨 숫자 데이터셋을 로드
X = digits.data  # 입력 데이터 (특징)
y = digits.target  # 출력 데이터 (레이블)

# 입력 데이터와 레이블 출력
print(f"X: {X}")  # 특징 데이터 출력
print(f"y: {y}")  # 레이블 출력

X: [[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
y: [0 1 2 ... 8 9 8]

# 모델 생성
nb = GaussianNB()  # 나이브 베이즈 분류기 인스턴스 생성

# 교차 검증
scores = cross_val_score(nb, X, y, cv=5)  # 5겹 교차 검증 수행하여 점수 계산

# 교차 검증 점수 출력
print(f'Cross-validation scores: {scores}')  # 각 fold의 검증 점수 출력
print(f'Mean CV Score: {np.mean(scores)}')  # 평균 교차 검증 점수 출력

Cross-validation scores: [0.78055556 0.78333333 0.79387187 0.8718663  0.80501393]
Mean CV Score: 0.8069281956050759

# 시각화
plt.plot(range(1, len(scores) + 1), scores, marker='o', linestyle='--', color='b')
plt.xlabel('Fold')
plt.ylabel('Accuracy')
plt.title('Cross-Validation Scores')
plt.show()

혼동행렬(Confusion Matrix)

혼동행렬(Confusion Matrix)은 모델의 예측 결과와 실제 결과를 비교하여 성능을 평가하는 데 사용됩니다.
이진 분류와 다중 클래스 분류 문제 모두에 유용합니다.

혼동행렬(Confusion Matrix)에서 주요 지표에 데하여 한번 알아보면 4개의 지표가 있습니다.
True Positive (TP)
- 실제 양성인 데이터를 양성으로 올바르게 예측한 경우 - 모델이 Positive로 예측한 결과가 실제로도 Positive인 경우입니다.
- 예: 실제로 스팸 이메일이 스팸으로 분류된 경우
False Negative (FN)
- 실제 양성인 데이터를 음성으로 잘못 예측한 경우 - 모델이 Negative로 예측한 결과가 실제로는 Positive인 경우 입니다.
- 예: 실제로 스팸 이메일이 스팸이 아닌 것으로 분류된 경우 (누락된 스팸)
False Positive (FP)
- 실제 음성인 데이터를 양성으로 잘못 예측한 경우 - 모델이 Positive로 예측한 결과가 실제로는 Negative인 경우 입니다.
- 예: 실제로 스팸이 아닌 이메일이 스팸으로 분류된 경우 (잘못된 스팸)
True Negative (TN)
- 실제 음성인 데이터를 음성으로 올바르게 예측한 경우 - 모델이 Negative로 예측한 결과가 실제로도 Negative인 경우 입니다.
- 예: 실제로 스팸이 아닌 이메일이 스팸이 아닌 것으로 분류된 경우

혼동행렬(Confusion Matrix)의 성능 지표

혼동행렬(Confusion Matrix)의 성능 지표는 4가지가 있습니다.

정확도 (Accuracy): 전체 예측 중 맞춘 비율입니다.
즉, 모델이 얼마나 잘 예측했는지를 평가하는 가장 기본적인 지표입니다.
100개의 샘플 중 90개를 맞추고 10개를 틀렸다면, 정확도는 90%입니다.

정밀도 (Precision): 양성으로 예측된 것 중 실제 양성의 비율입니다.
즉, 모델이 양성이라고 예측한 것들 중에서 얼마나 많은 것이 실제로 양성인지를 측정합니다.
높은 정밀도는 모델이 양성이라고 예측할 때, 그 예측이 실제로 맞을 가능성이 높다는 것을 의미합니다.
정밀도는 양성 예측이 중요한 경우(예: 스팸 메일 필터링에서 스팸으로 잘못 분류된 정상 메일이 적어야 하는 경우) 유용합니다.

재현율 (Recall): 실제 양성 중 맞춘 비율입니다. 즉, 모델이 실제 양성 데이터를 얼마나 잘 찾아내는지를 측정합니다.
높은 재현율은 모델이 실제 양성 데이터를 잘 놓치지 않는다는 것을 의미합니다.
재현율은 양성 데이터의 탐지가 중요한 경우(예: 암 진단에서 암 환자를 놓치지 않는 것이 중요한 경우) 유용합니다.

F1-점수 (F1-Score): 정밀도와 재현율의 조화 평균입니다. 정밀도와 재현율 사이의 균형을 측정합니다.
F1-점수는 정밀도와 재현율의 균형이 중요한 경우에 사용됩니다.
한쪽이 매우 높고 다른 쪽이 낮을 때, F1-점수는 이를 반영하여 적절한 균형을 제공합니다.

혼동행렬(Confusion Matrix) Example Code

# 데이터 생성
data = load_breast_cancer()  # 유방암 데이터셋을 로드
X = data.data  # 입력 데이터 (특징)
y = data.target  # 출력 데이터 (레이블)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
# 전체 데이터를 80%는 학습 데이터로, 20%는 테스트 데이터로 분할

# 모델 학습
nb = GaussianNB()  # 나이브 베이즈 분류기 인스턴스 생성
nb.fit(X_train, y_train)  # 학습 데이터로 모델 학습

# 예측
y_pred = nb.predict(X_test)  # 테스트 데이터로 예측 수행
y_pred_prob = nb.predict_proba(X_test)[:, 1]  # 각 클래스에 대한 예측 확률 중 양성 클래스 확률 추출

# 혼동 행렬
conf_matrix = confusion_matrix(y_test, y_pred)  # 실제 레이블과 예측 레이블을 비교하여 혼동 행렬 생성
print(f'Confusion Matrix:\n{conf_matrix}')  # 혼동 행렬 출력

Confusion Matrix:
[[40  3]
 [ 0 71]]

# 시각화 - 혼동 행렬
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()

ROC 곡선과 AUC

ROC (Receiver Operating Characteristic) 곡선

모델의 분류 임계값을 변화시키며 True Positive Rate(재현율)와 False Positive Rate를 비교하는 곡선입니다.

True Positive Rate (TPR): 재현율과 동일합니다.
False Positive Rate (FPR): 실제 음성 중 잘못 양성으로 예측된 비율입니다.

ROC 곡선은 FPR을 x축, TPR을 y축에 놓고 그립니다.
임계값을 변화시키며 FPR과 TPR의 변화를 관찰합니다.
최적의 모델은 ROC 곡선이 왼쪽 상단 모서리에 가까운 형태를 가집니다.

AUC (Area Under the Curve)

ROC 곡선 아래의 면적을 나타내며, 모델의 전반적인 성능을 평가하는 지표입니다
AUC 값이 1에 가까울수록 좋은 모델을 의미합니다.
AUC = 1: 완벽한 모델
AUC = 0.5: 랜덤 추측
AUC < 0.5: 모델 성능이 랜덤 추측보다 나쁨
만약, AUC가 0.9인 경우: 모델이 90%의 확률로 양성 예측과 음성 예측을 올바르게 구별할 수 있다는 것을 의미합니다.

ROC 곡선과 AUC Example Code

# ROC 및 AUC 계산
fpr, tpr, _ = roc_curve(y_test, y_pred_prob)  # 거짓 긍정 비율(fpr)과 진짜 긍정 비율(tpr) 계산
roc_auc = roc_auc_score(y_test, y_pred_prob)  # AUC (곡선 아래 면적) 계산

# AUC 점수 출력
print(f'ROC AUC Score: {roc_auc}')  # ROC AUC 점수 출력

# ROC AUC Score: 0.9983622666229938

# 시각화 - ROC 곡선
plt.plot(fpr, tpr, color='blue', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')  
# ROC 곡선을 파란색 선으로 그리며 AUC 값을 레이블로 추가

plt.plot([0, 1], [0, 1], color='grey', lw=2, linestyle='--')  # 대각선 기준선 추가

plt.xlim([0.0, 1.0])  # x축 범위 설정
plt.ylim([0.0, 1.05])  # y축 범위 설정
plt.xlabel('False Positive Rate')  # x축 레이블 설정
plt.ylabel('True Positive Rate')  # y축 레이블 설정
plt.title('Receiver Operating Characteristic (ROC) Curve')  # 그래프 제목 설정
plt.legend(loc="lower right")  # 범례 위치 설정
plt.show()  # 그래프 출력

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

[ML] K-Nearest Neighbors, K-NN (K-최근접 이웃) (0)	2024.08.07
[ML] Supervised Learning (지도학습) (0)	2024.08.06
[ML] Naive Bayes (나이브 베이즈) (0)	2024.08.01
[ML] Linear Regression (선형회귀) (0)	2024.08.01
[ML] Supervised Learning (지도학습) (0)	2024.07.31

Notice

훈련 데이터와 테스트 데이터의 분할

데이터 분할 방법

교차검증 (Cross-Validation)

교차검증 (Cross-Validation) Example Code

혼동행렬(Confusion Matrix)

혼동행렬(Confusion Matrix)의 성능 지표

혼동행렬(Confusion Matrix) Example Code

ROC 곡선과 AUC

ROC (Receiver Operating Characteristic) 곡선

AUC (Area Under the Curve)

ROC 곡선과 AUC Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

훈련 데이터와 테스트 데이터의 분할

데이터 분할 방법

교차검증 (Cross-Validation)

교차검증 (Cross-Validation) Example Code

혼동행렬(Confusion Matrix)

혼동행렬(Confusion Matrix)의 성능 지표

혼동행렬(Confusion Matrix) Example Code

ROC 곡선과 AUC

ROC (Receiver Operating Characteristic) 곡선

AUC (Area Under the Curve)

ROC 곡선과 AUC Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바