My Dev & Engineering Repository

Validation Set (검증 세트)

Test Dataset을 사용하지 않으면 모델이 과대적합인지 과소적합인지 판단하기 어렵습니다.

테스트 세트를 사용하지 않고 이를 측정하는 간단한 방법은 Training Dataset을 나누는 방법입니다.
이 나눈 Dataset를 Validation Set (검증 세트)라고 부릅니다.
전체 데이터셋이 100%라고 하면 전체 데이터셋 중에서 20%만 Test Dataset으로 만들고, 80%를 Train Dataset으로 구성했으면, 이 Training Dataset중 20%를 떼어 내어서 Validation Dataset으로 나눕니다.

Training Dataset에서 Model을 Training하고 Validation Set로 모델을 평가합니다.
이런식으로 Test 하고 싶은 매개변수를 고치면서 가장 좋은 모델을 고른후, 전체 데이터셋으로 모델을 다시 훈련후, TestSet으로 모델의 최종 점수를 평가합니다.
한번 예시를 보도록 하겠습니다.

import pandas as pd
wine = pd.read_csv('https://bit.ly/wine-date')

data = wine[['alcohol', 'sugar', 'ph']].to_numpy()
target = wine['class']. to_numpy()

그러면 이제 Training Set, Test Set를 한번 나눠보겠습니다.

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

train_input과 train_target을 train_test_split() 함수에 넣어 훈련 세트인 sub_input과 sub_target, 그리고 검증 세트인 val_input과 val_target을 만듭니다.
여기서 test_size 매개변수를 0.2로 지정하여 train_input의 약 20%를 val_input으로 설정합니다.

sub_input, val_input, sub_target, val_target = train_test_split(
train_input, train_target, test_size=0.2, random_state=42)

그후, Training & Test Set의 데이터 크기를 확인해 보겠습니다.

print(sub_input.shape, val_input.shape)

# (4157, 3) (1040, 3)

원래 5,197개였던 훈련 세트가 4,157개로 줄어들고, 검증 세트는 1,040개가 되었습니다.
그러면 이제 sub_input, sub_target과 val_input, val_target을 사용하여 모델을 만들고 평가해보겠습니다.

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state=42)
dt.fit(sub_input, sub_target)

print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

# 0.9971133028626413
# 0.864423076923077

이렇게 val_input과 val_target을 사용하여 모델을 평가하면 됩니다.
보면 이 모델은 확실히 훈련 세트에 과대적합되어 있습니다.
매개변수를 조정하여 더 좋은 모델을 찾아야 합니다.

Cross-Validation (교차 검증)

검증 세트를 만들면서 훈련 세트가 줄어들었습니다. 일반적으로 많은 데이터를 훈련에 사용할수록 좋은 모델이 만들어집니다.

근데 검증 세트를 너무 적게 떼어놓으면 검증 점수가 들쭉날쭉하고 불안정할 수 있습니다.
이때 교차 검증(cross-validation)을 사용하면 안정적인 검증 점수를 얻고 훈련에 더 많은 데이터를 사용할 수 있습니다.

3-fold Cross-Validation
훈련 세트를 세 부분으로 나누어 교차 검증을 수행하는 것을 3-폴드 교차 검증이라고 합니다.
이를 통칭하여 K-폴드 교차 검증(k-fold cross-validation)이라고 하며, 훈련 세트를 몇 부분으로 나누느냐에 따라 다르게 부릅니다. K-겹 교차 검증이라고도 불립니다.

3-폴드 교차 검증을 예시로 들었지만, 보통 5-폴드 교차 검증이나 10-폴드 교차 검증을 많이 사용합니다.
이렇게 하면 데이터의 80~90%까지 훈련에 사용할 수 있습니다. 검증 세트가 줄어들지만, 각 폴드에서 계산한 검증 점수를 평균하기 때문에 안정된 점수로 간주할 수 있습니다.
Scikit-learn에는 cross_validate()라는 교차 검증 함수가 있습니다. 사용법은 간단한데, 먼저 평가할 모델 객체를 첫 번째 매개변수로 전달합니다.
그다음 앞에서처럼 직접 검증 세트를 떼어내지 않고 훈련 세트 전체를 cross_validate() 함수에 전달합니다.

그리고 사이킷런에는 cross_validate() 함수의 전신인 cross_val_score()도 있습니다.
이 함수는 cross_validate() 함수의 결과 중에서 test_score 값만 반환합니다.

from sklearn.model_selection import cross_validate
scores = cross_validate(dt, train_input, train_target)
print(scores)

{'fit_time': array([0.02602839, 0.02728128, 0.04096222, 0.01634145, 0.01161575]),
'score_time': array([0.00565434, 0.01029921, 0.00742149, 0.00183392, 0.00161386]),
'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}

3-폴드 교차 검증을 예시로 들었지만, 보통 5-폴드 교차 검증이나 10-폴드 교차 검증을 많이 사용합니다.
이렇게 하면 데이터의 80~90%까지 훈련에 사용할 수 있습니다.
이때 검증 세트는 줄어들지만, 각 폴드에서 계산한 검증 점수를 평균하기 때문에 안정된 점수로 간주할 수 있습니다.
또한 Scikit-learn에는 cross_validate()라는 교차 검증 함수가 있습니다.
사용법은 간단한데, 먼저 평가할 모델 객체를 첫 번째 매개변수로 전달합니다.
그다음 앞에서처럼 직접 검증 세트를 떼어내지 않고 훈련 세트 전체를 cross_validate() 함수에 전달합니다.
참고로, 사이킷런에는 cross_validate() 함수의 전신인 cross_val_score()도 있습니다.
이 함수는 cross_validate() 함수의 결과 중에서 test_score 값만 반환합니다.

교차검증의 최종점수는 test_score 키에 담긴 5개의 점수를 평균하여 얻을 수 있습니다.

import numpy as np
print(np.mean(scores['test_score']))

# 0.855300214703487

교차 검증을 수행하면 입력한 모델에서 얻을 수 있는 최상의 검증 점수를 가늠해 볼 수 있습니다.
한 가지 주의할 점은 cross_validate()는 훈련 세트를 쉽게 폴드를 나누지 않습니다.
앞서 train_test_split() 함수로 전체 데이터를 쉽은 후 훈련 세트를 준비했기 때문에 따로 섞을 필요는 없지만, 만약 교차 검증을 할 때 훈련 세트를 섞는 경우에는 분할기(splitter)를 지정해야 합니다.
Scikit-learn의 분할기는 교차 검증에서 폴드를 어떻게 나누지 결정해 줍니다.
cross_validate() 함수는 기본적으로 회귀 모델일 경우 KFold 분할기를 사용하고 분류 모델일 경우 타깃 클래스를 골고루 나누기 위해 StratifiedKFold를 사용합니다.

from sklearn.model_selection import StratifiedKFold
scores = cross_validate(dt, train_input, train_target, cv=StratifiedKFold())
print(np.mean(scores['test_score']))

# 0.855300214703487

만약, 10-Fold cross validate (10-폴드 교차점증)을 수행하려면 아래의 코드와 같이 작성합니다.
KFold Class도 동일한 방식으로 사용 가능 합니다.

HyperParameter Tuning (하이퍼파라미터 튜닝)

모델이 학습할수 없어서 사용자가 꼭 모델에게 지정을 해줘야 하는 부분이 있습니다.
사용자가 지정을 해줘야 하는 부분을 HyperParameter 라고 합니다.

그러면 이런 Hyperparameter를 튜닝하는 작업은 어떻게 할까요?
모델은 일반적으로, 라이브러리에서 제공하는 기본값에 기반하여 모델을 훈련합니다.
그 다음, Validation(검증 세트) & Cross-Validation(교차 검증)을 통해서 매개변수를 조금씩 봐꿔보는 형태로 진행합니다.
근데 아주 중요한 점이 있습니다. 예를 들어, 결정 트리 모델에서 최적의 max_depth 값을 찾았다고 가정해봅시다.
그 다음 max_depth를 최적의 값으로 고정하고 min_samples_split을 바꿔가며 최적의 값을 찾습니다.
이렇게 한 매개변수의 최적 값을 찾고 다른 매개변수의 최적 값을 찾아도 될까요?
아닙니다. max_depth의 최적 값은 min_samples_split 매개변수의 값이 바뀌면 함께 달라집니다.
즉, 이 두 매개변수를 동시에 바꿔가며 최적의 값을 찾아야 합니다.
게다가 매개변수가 많아지면 문제는 더 복잡해집니다.
파이썬의 for 반복문으로 이런 과정을 직접 구현할 수 있지만, Scikit-learn에서 제공하는 그리드 서치(GridSearch)를 사용해서 간단하게 구현할 수 있습니다.

from sklearn.model_selection import GridSearchCV
params = {'min_impurity_decrease': [0.0001, 0.0002, 0.0003, 0.0004, 0.0005]}

한번 GridSearchCV 클래스를 가져와서 탐색할 매개변수및 탐색할 값의 리스트를 딕셔너리화후, 5개의 값으로 테스트를 해보겠습니다.
GridSearchCV 클래스에 탐색 대상 모델 & Params 변수를 전달하여 GridSearch 객체를 만듭니다.

gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params,n_jobs=-1)

그 다음 일반 모델을 훈련하는 것처럼 gs 객체에 fit() 메서드를 호출합니다.
이 메서드를 호출하면 그리드 서치 객체는 결정 트리 모델의 min_impurity_decrease 값을 바꿔가며 총 5번 실행합니다.
GridSearchCV의 cv 매개변수 기본값은 5입니다. 따라서 min_impurity_decrease 값마다 5-폴드 교차 검증을 수행합니다.
그러면 총 (5 x 5 = 25)개의 모델을 훈련합니다.

gs.fit(train_input, train_target)

사이킷런의 그리드 서치는 훈련이 끝나면 25개의 모델 중에서 검증 점수가 가장 높은 모델의 매개변수 조합으로 전체 훈련 세트에서 자동으로 다시 모델을 훈련합니다.
이 모델은 gs 객체의 best_estimator_ 속성에 저장되어 있습니다.
이 모델을 일반 결정 트리처럼 똑같이 사용할 수 있습니다.

dt = gs.best_estimator_
print(dt.score(train_input, train_target))
print(gs.best_params_)

# 0.9615162593804117
# {'min_impurity_decrease': 0.0001}

GridSearch로 찾은 최적의 매개변수는 best_params_ 속성에 저장되어 있습니다.
그러면 이번엔 5번의 교차점증으로 얻은 점수를 출력해 보겠습니다.

print(gs.cv_results_['mean_test_score'])

# [0.86819297 0.86453617 0.86492226 0.86780891 0.86761661]

첫 번째 값이 가장 큰 것 같군요. 수동으로 고르는 것보다 넘파이 argmax() 함수를 사용하면 가장 큰 값의 인덱스를 추출할 수 있습니다.
그다음 이 인덱스를 사용해 params 키에 저장된 매개변수를 출력할 수 있습니다.
이 값이 최상의 검증 점수를 만든 매개변수 조합입니다. 앞에서 출력한 gs.best_params_와 동일한지 확인해 보세요.

best_index = np.argmax(gs.cv_results_['mean_test_score'])
print(gs.cv_results_['params'][best_index])

# {'min_impurity_decrease': 0.0001}

그러면 위의 과정을 한번 정리해 보겠습니다.

먼저 탐색할 매개변수를 지정합니다.
그다음 훈련 세트에서 그리드 서치를 수행하여 최상의 평균 검증 점수가 나오는 매개변수 조합을 찾습니다.
- 이 조합은 그리드 서치 객체에 저장됩니다.
그리드 서치는 최상의 매개변수에서 (교차 검증에 사용한 훈련 세트가 아니라) 전체 훈련 세트를 사용해 최종 모델을 훈련합니다.
- 이 모델도 그리드 서치 객체에 저장됩니다.

그러면, 이번에는 더 복잡한 매개변수를 탐색해 보겠습니다.
결정 트리에서 min_impurity_decrease는 노드를 분할하기 위한 불순도 감소 최솟값을 지정합니다.
여기에다가 max_depth로 트리의 깊이를 제한하고 min_samples_split으로 노드를 나누기 위한 최소 샘플 수도 골라 보겠습니다.

넘파이 arange() 함수(①)는 첫 번째 매개변수 값에서 시작하여 두 번째 매개변수 값에 도달할 때까지 세 번째 매개변수씩 계속 더한 배열을 만듭니다.
코드에서는 0.0001에서 시작하여 0.001이 될 때까지 0.0001을 계속 더한 배열입니다.
두 번째 매개변수는 포함되지 않으므로 배열의 원소는 총 9개입니다.
파이썬 range() 함수(②)도 비슷합니다. 하지만 이 함수는 정수만 사용할 수 있습니다.
이 경우 max_depth를 5에서 20까지 1씩 증가하면서 15개의 값을 만듭니다.
min_samples_split은 2에서 100까지 10씩 증가하면서 10개의 값을 만듭니다.
따라서 이 매개변수로 수행할 교차 검증 횟수는 9 × 15 × 10 = 1,350개입니다.
기본 5-폴드 교차 검증을 수행하므로 만들어지는 모델의 수는 6,750개 입니다.

한번, n_jobs 매개변수를 -1로 설정하고 그리드 서치를 실행해 본후, 최상의 매개변수 조합이랑 교차점증 점수도 확인해 보겠습니다.

params = {'min_impurity_decrease': np.arange(0.0001, 0.001, 0.0001),
          'max_depth': range(5, 20, 1),
          'min_samples_split': range(2, 100, 10)
          }

gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=-1)
gs.fit(train_input, train_target)

print(gs.best_params_)
print(np.max(gs.cv_results_['mean_test_score']))

# {'max_depth': 14, 'min_impurity_decrease': 0.0004, 'min_samples_split': 12}
# 0.8683865773302731

GridSearchCV 클래스를 사용하니 매개변수를 일일이 바꾸며 교차 검증을 수행하지 않고 원하는 매개변수 값을 나열한 다음, 교차 검증을 수행해서 최상의 매개변수를 찾을 수 있습니다.

Random Search (랜덤 서치)

매개변수의 값이 수치일 때 값의 범위나 간격을 미리 정하기 어려울 수 있습니다.
또 너무 많은 매개변수 조건이 있어 그리드 서치 수행 시간이 오래 걸릴 수 있습니다. 이럴 때 랜덤 서치(Random Search)를 사용하면 좋습니다.
랜덤 서치에는 매개변수 값의 목록을 전달하는 것이 아니라 매개변수를 샘플링할 수 있는 확률 분포 객체를 전달합니다.
확률 분포(probability distribution)란 무작위 값을 뽑을 수 있는 범위를 말합니다.

from scipy.stats import uniform, randint

Scipy의 stats 서브 패키지에 있는 uniform과 randint 클래스는 모두 주어진 범위에서 고르게 값을 뽑습니다.
randint는 정수값을 뽑고, uniform은 실수값을 뽑습니다. 균등 분포에서 샘플링한다고 말합니다.
0에서 10 사이의 범위를 갖는 randint 객체를 만들고 10개의 숫자를 샘플링해 보겠습니다.

rgen = randint(0, 10)
rgen.rvs(10)

array([0, 6, 5, 1, 4, 0, 9, 4, 0, 3])

10개밖에 되지 않기 때문에 고르게 샘플링되는 것 같지 않지만 샘플링 숫자를 늘리면 쉽게 확인할 수 있습니다.
1,000개를 샘플링해서 각 숫자의 개수를 세어 보겠습니다.

np.unique(rgen.rvs(1000), return_counts=True)

# (array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
# array([ 95,  90,  92,  98, 130,  86, 104, 116,  92,  97]))

개수가 늘어나니 0에서 9까지의 숫자가 어느 정도 고르게 추출된 것을 볼 수 있습니다.
uniform 클래스의 사용법도 동일합니다. 0~1 사이에서 10개의 실수를 추출해 보겠습니다.

ugen = uniform(0, 1)
ugen.rvs(10)

# array([0.94577774, 0.89877912, 0.63212905, 0.32615542, 0.37558058,
#       0.47341714, 0.16045226, 0.83559588, 0.26931821, 0.43901825])

난수 발생기를 유사하게 생각하면 됩니다.
랜덤 서치에 randint와 uniform 클래스 객체를 넘겨주고 총 몇 번 샘플링해서 최적의 매개변수를 찾으라고 명령할 수 있습니다.
샘플링 횟수는 시스템 자원이 허락하는 범위 내에서 최대한 크게 하는 것이 좋습니다.

탐색할 매개변수의 딕셔너리를 만들어 보겠습니다.
여기에서는 min_samples_leaf 매개변수를 탐색 대상에 추가하겠습니다.
이 매개변수는 리프 노드가 되기 위한 최소 샘플의 개수입니다.
어떤 노드가 분할하여 만들어질 자식 노드의 샘플 수가 이 값보다 작을 경우 분할하지 않습니다.

params = {'min_impurity_decrease': uniform(0.0001, 0.001),
          'max_depth': randint(20, 50),
          'min_samples_split': randint(2, 25),
          'min_samples_leaf': randint(1, 25),
          }

min_imputiry_decrease는 0.0001에서 0.001 사이의 실숫값을 샘플링합니다.
max_depth는 20에서 50 사이의 정수, min_samples_split은 2에서 25 사이의 정수, min_samples_leaf는 1에서 25 사이의 정수를 샘플링합니다.
샘플링 횟수는 사이킷런의 랜덤 서치 클래스인 RandomizedSearchCV의 n_iter 매개변수에 지정합니다.

from sklearn.model_selection import RandomizedSearchCV

gs = RandomizedSearchCV(DecisionTreeClassifier(random_state=42), params, 
                        n_iter=100, n_jobs=-1, random_state=42)
gs.fit(train_input, train_target)

params에 정의된 매개변수 범위에서 총 100번(n_iter 매개변수)을 샘플링하여 교차 검증을 수행하고 최적의 매개변수 조합을 찾습니다. 앞서 그리드 서치보다 월등히 교차 검증 수를 줄이면서 넓은 영역을 효과적으로 탐색할 수 있습니다.

print(gs.best_params_)

# {'max_depth': 39, 'min_impurity_decrease': 0.00034102546602601173,
# 'min_samples_leaf': 7, 'min_samples_split': 13}

최고의 교차 검증 점수 & 테스트 세트의 성능도 확인해 보겠습니다.

print(np.max(gs.cv_results_['mean_test_score']))
# 0.8695428296438884

dt = gs. best_estimator_
print(dt.score(test_input, test_target))
# 0.86

테스트세트 점수는 검증세트에 대한 점수보다 조금 작은것이 일반적입니다.

Summary

Keywords

검증 세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어낸 데이터 세트입니다.
교차 검증은 훈련 세트를 여러 폴드로 나눈 다음, 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련하는 방법입니다. 교차 검증을 통해 모든 폴드에 대해 검증 점수를 얻어 평가합니다.
그리드 서치는 하이퍼파라미터 탐색을 자동화해주는 도구입니다. 탐색할 매개변수를 나열하면 교차 검증을 수행하여 가장 좋은 검증 점수의 매개변수 조합을 선택하고, 마지막으로 이 매개변수 조합으로 최종 모델을 훈련합니다.
랜덤 서치는 연속된 매개변수 값을 탐색할 때 유용합니다. 탐색할 값을 직접 나열하는 것이 아니라, 탐색값을 샘플링할 수 있는 확률 분포 객체를 전달합니다.
- 지정된 횟수만큼 샘플링하여 교차 검증을 수행하기 때문에 시스템 자원이 허락하는 만큼 탐색량을 조절할 수 있습니다.

핵심 패키지와 함수

cross_validate(): 교차 검증을 수행하는 함수입니다.
- 첫 번째 매개변수에 교차 검증을 수행할 모델 객체를 전달하고, 두 번째와 세 번째 매개변수에 특성과 타깃 데이터를 전달합니다.
- scoring 매개변수에 검증에 사용할 평가지표를 지정할 수 있습니다. 기본적으로 분류 모델은 정확도를 의미하는 'accuracy', 회귀 모델은 결정 계수를 의미하는 'r2'가 됩니다.
- cv 매개변수에는 교차 검증 폴드 수나 스플리터 객체를 지정할 수 있으며, 기본값은 5입니다. 회귀일 때는 KFold 클래스를 사용하고, 분류일 때는 StratifiedKFold 클래스를 사용하여 5-폴드 교차 검증을 수행합니다.
- n_jobs 매개변수는 교차 검증을 수행할 때 사용할 CPU 코어 수를 지정하며, 기본값은 1입니다.
- 1로 지정하면 시스템에 있는 모든 코어를 사용합니다. return_train_score 매개변수를 True로 지정하면 훈련 세트의 점수도 반환합니다. 기본값은 False입니다.
GridSearchCV: 교차 검증으로 하이퍼파라미터 탐색을 수행합니다.
- 최상의 모델을 찾은 후 훈련 세트 전체를 사용해 최종 모델을 훈련합니다.
- 첫 번째 매개변수에 그리드 서치를 수행할 모델 객체를 전달하고, 두 번째 매개변수에는 탐색할 모델의 매개변수와 값을 전달합니다.
- scoring, cv, n_jobs, return_train_score 매개변수는 cross_validate() 함수와 동일합니다.
RandomizedSearchCV: 교차 검증으로 랜덤한 하이퍼파라미터 탐색을 수행합니다.
- 최상의 모델을 찾은 후 훈련 세트 전체를 사용해 최종 모델을 훈련합니다.
- 첫 번째 매개변수에 그리드 서치를 수행할 모델 객체를 전달하고, 두 번째 매개변수에는 탐색할 모델의 매개변수와 확률 분포 객체를 전달합니다.
- scoring, cv, n_jobs, return_train_score 매개변수는 cross_validate() 함수와 동일합니다.

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

[혼공머신] Tree's Ensemble - Extra Tree (엑스트라 트리) (0)	2024.07.30
[혼공머신] Tree's Ensemble - Random Forest (랜덤 포레스트) (0)	2024.07.30
[혼공머신] Decision Tree (결정 트리) (0)	2023.11.06
[혼공머신] Stochastic Gradient Descent (확률적 경사 하강법) (0)	2023.11.05
[혼공머신] Logistic Regression (로지스틱 회귀) (0)	2023.09.25

Notice

Validation Set (검증 세트)

Cross-Validation (교차 검증)

HyperParameter Tuning (하이퍼파라미터 튜닝)

Random Search (랜덤 서치)

Summary

Keywords

핵심 패키지와 함수

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Validation Set (검증 세트)

Cross-Validation (교차 검증)

HyperParameter Tuning (하이퍼파라미터 튜닝)

Random Search (랜덤 서치)

Summary

Keywords

핵심 패키지와 함수

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바