My Dev & Engineering Repository

K-최근접 이웃 회귀

K-최근접 이웃 회귀에 데하여 설명을 드리기 전에, 회귀에 대하여 설명을 드리겠습니다.
회귀(Regression)은 지도학습 알고리즘의 종류중 하나이며, Sample을 몇개의 Class중 하나로 분류하는 문제입니다.
지도학습 알고리즘중 하나인 분류와 똑같이 예측하려는 Sample에 가장 가까운 Sample K개를 선택합니다.

그림에서 보여드렸듯이, 예를 들면 샘플 X의 Target값을 구하려고 합니다. 각각 이웃한 샘플의 타겟값이 100, 80, 60 이면, 이를 평균화하면, Sample X의 예측 Target값은 80이 됩니다.

데이터 준비

이번에는 훈련 데이터를 Numpy 배열로 바로 만들어서 변환해보겠습니다.

농어의 길이를 특성, 무게를 Target으로 하겠습니다.

import numpy as np
perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0,
       21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7,
       23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5,
       27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0,
       39.0, 39.0, 39.0, 40.0, 40.0, 40.0, 40.0, 42.0, 43.0, 43.0, 43.5,
       44.0])
       
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

일단 이 데이터가 어떤 형태를 띄고 있는지 파악을 해야합니다.
하나의 특성을 사용하기 때문에, 특성 데이터를 x축, Target 데이터를 y축에 놓고 scatter() 함수를 사용하여 산점도를 그립니다.

import matplotlib.pyplot as plt

plt.scatter(perch_length, perch_weight) # perch_weight(target)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

농어의 길이가 커지면, 무게도 늘어난다는것을 그래프를 통해서 확인을 하였습니다.
ML 모델에 사용하기 위하여 Training Set 와 Test Set 로 나눕니다.

# 임의의 수치 (농어의 무게 측정)
# Scikit-learn 훈련세트는 2차원 배열이여야 함으로, Numpy의 reshape method를 사용해서 2차원으로 봐꿔줌
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(
	perch_length, perch_weight, random_state=42)

여기서 기억해야 할 점이 있습니다. Scikit-learn 에 사용할 훈련 세트는 2차원 배열이여야 한다는 점입니다.

perch_length가 1차원 배열이므로, 이를 나눈 train_input & test_input도 1차원 배열입니다.
Scikit-learn에 사용하려면 2차원 배열이 되어야 함으로 reshape() Method를 사용하여 2차원 배열로 봐꾸어 보겠습니다.
reshape() Method는 봐꾸려는 배열의 크기를 지정할 수 있습니다. 그렇지만 원본 배열의 원소의 크기와 지정한 크기가 다르면 에러가 발생해서 변환 자체가 불가능합니다.

# test_array의 배열 확인
test_array = np.array([1,2,3,4])
print(test_array.shape)

# (2,2)

# reshape()를 사용해서 train_input & test_input을 2차원 배열로 봐꿈

train_input = train_input.reshape(-1, 1) # 열이 하나, 남은 차원의 개수는 하나가 된다.
test_input = test_input.reshape(-1, 1)
print(train_input.shape, test_input.shape)

결정계수

Scikit-learn에서 K-최근접 알고리즘을 구현한 Class는 KNeighborsRegressor 입니다.
사용법은 KNeighborsClassifier와 비슷합니다.

from sklearn.neighbors import KNeighborsRegressor

knr = KNeighborsRegressor() # class 객체 할당

# k-최근접 이웃 회귀 모델을 훈련합니다.
knr.fit(train_input, train_target) # train, target 데이터 전달 & 훈련
knr.score(test_input, test_target) # test_set 점수 확인(정확도)

0.992809406101064

결정계수 구하는 공식: R**2 = 1 - (test_target - test_input)**2 / (test_target - test_target_mean)**2
R**2는 0에 가까워집니다. 만약 예측이 Target에 가까워지면? - R2는 분자가 0에 가까워져서 1에 가까운 값이 됩니다.

정확도가 0.99이면 좋은편입니다.
그러면 이번에는 Target값과 예측한 값 사이의 차이를 구해보겠습니다. 이 방식은 어느정도 예측이 벗어났는지를 판단할때 사용됩니다.
이럴때에는 Scikit-learn에서는 sklearn.metrics 패키지 아래 여러가지 측정도구중 mean_absolute_error 를 사용합니다.
이 도구는 Target과 예측의 절대값 오차를 평균내어서 반환합니다.

# mean_absolute_error (평균 절대값 오차-이러한 측정 지표들이 sklearn에서 metrics library에 존재)
from sklearn.metrics import mean_absolute_error

test_prediction = knr.predict(test_input) # Test_input으로 예측한 값
mae = mean_absolute_error(test_target, test_prediction) # Target & Test_prediction 으로 예측한값
print(mae) # 19g 정도로 차이가 난다.

19.157142857142862

결과값으로 보면 예측이 평균적으로 19g 정도 Target값과 다르다는 것을 알 수 있습니다.

과대적합 vs 과소적합

앞에서 훈련한 모델을 사용해 Training_set와 Test_set의 R**2 점수를 확인하겠습니다.

knr.score(train_input, train_target)

0.9698823289099254

knr.score(test_input, test_target)

0.992809406101064

근데, 이 점수에서 이상한 점이 있습니다. 보통 모델을 훈련세트에서 훈련을 하면 Training_set의 점수가 조금 더 높게 나옵니다.

만약 Training_set에서 점수가 좋았는데, Test_set에서 점수가 낮으면 Model이 Training_set에 과대적합(Overfitting) 되었다고 합니다.
반대로, Training_set보다 Test_set의 점수가 높거나, 두 점수가 너무 낮은 경우는 Model이 Training_set에 과소적합(Underfitting)되었다고 합니다.

그러면 이제 한번 다시 보겠습니다. 현재 K-최근접 이웃 회귀로 평가한 Training_set와 Test_set의 점수는 어떤가요?
Training_set보다 Test_set의 점수가 더 높으니 과소적합. Underfitting 입니다. 그러면 이 현상을 어떻게 해결할 수 있을까요?
모델을 조금 더 복잡하게 만드면 됩니다. K-최근접 이웃 알고리즘으로 모델을 더 복잡하게 만드는 방법은 이웃의 개수. 즉 k개를 줄이는 것입니다.
scikit-learn의 k-최근접 알고리즘의 기본 k값은 5입니다. 한번 k값을 3으로 줄여보겠습니다.

# 이웃의 개수를 3으로 설정
knr.n_neighbors = 3

# 모델을 다시 훈련
knr.fit(train_input, train_target)
print(knr.score(train_input, train_target))

0.9804899950518966

print(knr.score(test_input, test_target))

0.9746459963987609

K값을 줄였더니, Training_Set의 점수가 올라갔습니다. 그러면 어느정도 과소적합 (Underfitting)문제는 어느정도 해결 되었다고 볼 수 있겠습니다.
그리고 Test_set과의 차이도 크지 않으므로, 과대적합도 어느정도 해결된 것 같습니다.
마지막으로 산점도 그래프를 그려보면 결과는 이렇습니다.

plt.scatter(train_input, train_target)
plt.scatter(test_input, test_target)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

Keywords

회귀는 임의의 수치를 예측하는 문제입니다. 따라서 타깃값도 임의의 수치가 됩니다.
k-최근접 이웃 회귀는 k-최근접 이웃 알고리즘을 시용해 회귀 문제를 품니다. 가장 가까운 이 웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 삼습니다.
결정계수(R2)는 대표적인 회귀 문제의 성능 측정 도구입니다. 1에 가끼울수록 좋고, 0에 가깝 다면 성능이 나쁜모델입니다.
과대적합은 모델의 훈련 세트 성능이 태스트 세트 성능보다 훨씬 높을 때 일어납니다. 모델이 훈련 세트에 너무 집착해서 데이터에 내재된 거시적인 패턴을 감지하지 못합니다. 과소적합은 이와 반대입니다. 훈련 세트와 태스트 세트 성능이 모두 동일하게 낮거나 테스트 세트 성능이 오히려 더 높을때 일어납니다. 이런 경우 더 복잡한모댈을사용해 훈련 세트에 잘맞는모델 을만들어야합니다.

핵심 패키지와 함수

Scikit-learn

KNeighborsRegressor는 k-최근접 이웃 회귀 모댈을 만드는 사이킷런 클래스입니다. n_neighbors 매개변수로 이웃의 개수를 지정합니다. 기본값은 5입니다.
다른 매개변수는 KNeighborsClassifier 클래스와 거의 통일합니다.
mean_absolute_error()는 회귀 모댈의 평균 절멋값 오차를 계산합니다. 첫 번째 매개변 수는 타깃, 두 번째 매개변수는 예측값을 전달합니다. 이와 비슷한 함수로는 평균 제곱 오차를 계산하는 mean_squared_error() 가 있습니 다.
이 함수는 타깃과 예측을 뺀 값을 제곱한 다음 전체 샘플에 대해 평균한 값을 반환합니다.

Numpy

reshape()는 배열의 크기를 바꾸는 메서드입니다. 비꾸고자 하는 배열의 크기를 매개변수로 전달합니다. 바꾸기 전후의 배열 원소 개수는 동일해야 합니다.
Numpy는 종종 배열의 메서드와 동일한 함수를 별도로 제공합나다. 이때 함수의 첫 번 째 매개변수는 바꾸고자 하는 배열입니다. 예를 들어 test_array.reshape (2, 2)는 np.reshape (test_array, (2, 2))와같이 바꿔 쓸수 있습니다.

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

[ML] 특성 공학과 규제 (0)	2023.09.24
[혼공머신] Linear Regression (0)	2023.09.23
[혼공머신] 데이터 전처리 [데이터 다루기] (0)	2023.09.18
[혼공머신] 훈련 세트와 테스트 세트 [데이터 다루기] (0)	2023.09.18
[혼공머신] 나의 첫 머신러닝 (0)	2023.09.11

Notice

K-최근접 이웃 회귀

데이터 준비

결정계수

과대적합 vs 과소적합

Keywords

핵심 패키지와 함수

Scikit-learn

Numpy

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

K-최근접 이웃 회귀

데이터 준비

결정계수

과대적합 vs 과소적합

Keywords

핵심 패키지와 함수

Scikit-learn

Numpy

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바