My Dev & Engineering Repository

K-최근접 이웃의 한계

K-최근접 이웃 모델의 한계는 만약 새로운 샘플의 값이 Training_set의 범위를 벗어나면 엉뚱한 값을 예측할수 있습니다.

한번 알아보기 위하여 전에 사용한 데이터랑 모델을 준비해서 한번 돌려보겠습니다.

import numpy as np

perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0,
       21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7,
       23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5,
       27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0,
       39.0, 39.0, 39.0, 40.0, 40.0, 40.0, 40.0, 42.0, 43.0, 43.0, 43.5,
       44.0])
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

전이랑 똑같이 데이터를 Training_set, Test_set로 나누고, 특성 데이터는 2차원 배열로 변환해서 학습시켜보겠습니다.

# Scikit-learn 훈련세트는 2차원 배열이여야 함으로, Numpy의 reshape method를 사용해서 2차원으로 봐꿔줌
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_length, perch_weight, random_state=42)

train_input = train_input.reshape(-1, 1) # 열이 하나, 남은 차원의 개수는 하나가 된다.
test_input = test_input.reshape(-1, 1)
print(train_input.shape, test_input.shape)

(42, 1) (14, 1) #(42,1) - Training_set 배열, #(14,1) - Test_set 배열

from sklearn.neighbors import KNeighborsRegressor

knr = KNeighborsRegressor(n_neighbors=3) # class 객체 할당

# k-최근접 이웃 회귀 모델을 훈련합니다.
knr.fit(train_input, train_target) # train, target 데이터 전달 & 훈련

# 학습시킨 모델을 사용해서 길이가 50cm인 농어의 무게 예측
print(knr.predict([[50]]))

[1033.33333333]

이 모델은 50cm의 농어의 무게를 1033g 정도로 예측 했다고 하지면, 실제로는 무게가 더 나간다고 합니다.
그래서 한번 산점도 그래프를 만들어서 보겠습니다.

import matplotlib.pyplot as plt

# 50cm 농어의 이웃을 구합니다.
distances, indexes = knr.kneighbors([[50]])

# 훈련 세트의 산점도를 그립니다.
plt.scatter(train_input, train_target)

# 훈련 세트 중에서 이웃 샘플만 다시 그립니다.
plt.scatter(train_input[indexes], train_target[indexes], marker='D')

# 50cm 농어 데이터
plt.scatter(50, 1033, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

여기서 길이가 50cm이고, 무게가 1,033인 농어는 세모 모양의 marker로 표시되었습니다. 그리고 근처에 있는 샘플들은 다이아몬드 모양의 marker로 표시되었습니다.
산점도 그래프를 보면서 알 수 있는것은 농어의 길이가 늘어날수록, 무게가 증가하는 경향이 있습니다.
그렇지만 여기서 사용한 k-최근접 알고리즘은 예측한 샘플 근처 샘플들의 무게를 평균하여 계산합니다. 한번 구해보겠습니다.

print(np.mean(train_target[indexes]))

1033.3333333333333

print(knr.predict([[100]]))

1033.3333333333333

보이시는것과 같이 100cm인 농어를 입력해도 무게는 같게 나오는것을 볼 수 있습니다. 이것은 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측할 수 있다는것을 보여줍니다.
한번 더 그래프를 그려서 확인해 보겠습니다.

# 100cm 농어의 이웃 example
distances, indexes = knr.kneighbors([[100]])

# 훈련 세트의 산점도를 그립니다.
plt.scatter(train_input, train_target)

# 훈련 세트 중에서 이웃 샘플만 다시 그립니다.
plt.scatter(train_input[indexes], train_target[indexes], marker='D')

# 100cm 농어 데이터
plt.scatter(100, 1033, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

이런 그래프면.. 길이가 더 큰 농어가 와도 무게는 더 늘어나지 않도록 예측을 할것입니다.
그러면, K-최근접 이웃 알고리즘 말고 다른 알고리즘을 사용해서 모델을 만들어 보겠습니다.

선형 회귀(Linear Regression)

선형회귀(Linear Regression) 알고리즘은 널리 사용되는 대표적인 회귀 알고리즘 입니다.
비교적 간단하고, 성능도 좋기 때문에 보통 처음 접하는 머신러닝 알고리즘중 하나입니다.

특징은 특성이 하나인경우 어떤 직선을 학습하는 알고리즘 입니다. 한번 Scikit-learn 을 이용해서 구현해 보겠습니다.
Scikit-learn은 sklearn.linear_model 패키지 아래에 Linear Regression 클래스로 선형회귀 알고리즘을 구현해 놓았습니다.
Scikit-learn의 모델 Class들은 훈련, 평가, 예측하는 Method 이름이 모두 동일합니다.
즉, Linear Regression 클래스에도 fit(), score(), predict() Method가 있습니다.

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
# 선형 회귀 모델 훈련
lr.fit(train_input, train_target)

# 50cm 농어에 대한 예측
print(lr.predict([[50]]))

[1241.83860323]

K-최근접 이웃 회귀를 사용했을때보다 50cm 농어의 무게를 더 높이 예측했습니다. 왜 이렇게 나왔는지 알아보겠습니다.
하나의 직선을 그릴려면, 기울기와 절편이 있어야 합니다. y = a * x + b 처럼 쓸 수 있습니다.
여기서는 x는 농어의 길이, y를 농어의 무게로 봐꿔서 해야합니다.

y = a * x + b, 농어무게(y) = a(기울기) * 농어길이(x) + b(y의 절편, y의 축과 만나는 값)

그러면, 과연 데이터에 잘맞는 a와 b가 뭘까요? Linear Regression 클래스가 찾은 a와 b는 lr 객체의 coef_ 와 intercept_ 속성에 저장되어 있습니다.

#scikit-learn 모델들은 데이터에서 학습한 값들을 저장할때, 다른 속성과 구분하기 위하여 '_' 추가
print(lr.coef_, lr.intercept_) # 모델 parameter들

[39.01714496] -709.0186449535474

한번 농어의 길이인 15cm부터 50cm 까지 직선으로 그려보겠습니다.
직선을 그려보려면, 앞에서 구한 기울기 & 절편을 사용하여 (15, 15 X 39 -709), (50, 50 X 39 -709) 두 점을 이으면 됩니다.

# 훈련 세트의 산점도를 그립니다.
plt.scatter(train_input, train_target)

# 15~50까지 1차 방정식 그래프를 그립니다. [lr.coef_+lr.intercept_: 기울기 + 절편]
plt.plot([15, 50], [15*lr.coef_+lr.intercept_, 50*lr.coef_+lr.intercept_])

# 50cm 홍어 데이터
plt.scatter(50, 1241.8, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

한번 Training_set와 Test_set에 대한 R^2 점수를 확인해 보겠습니다.

# training이 최근접 이웃으로 했던 점수보다 낮아서 과소적합?
print(lr.score(train_input, train_target))

# training의 과대 적합일수도
print(lr.score(test_input, test_target))

0.9398463339976041
0.824750312331356

Training_set와 Test_set의 점수가 조금 차이가 나는것을 볼 수 있습니다. 그렇다고 과대적합이 된것도 아니고, 전체적으로 모델이 과소적합이 되었다고 볼 수 있을것 같습니다. 근데 그것만 문제가 아닙니다. 그래프의 왼쪽 하단을 보면 무언가 이상한것을 알 수 있습니다.
그래프의 직선을 보면 왼쪽 아래로 내려가 있습니다. 산점도 그래프에서 보이는 데이터셋의 분포랑 비슷하지가 않죠. 이건 값이 음수로 떨어 질수도 있다는것을 의미합니다.

다항 회귀

다항 회귀는 x의 다항식으로 만들어서 하는 선형회귀 방식을 다항 회귀라고 합니다.

전에 선형회귀에서 사용했던 직선 보다는, 이 데이터셋들을 보면 최적의 곡선을 만들어서 봐야 할것 같습니다.

이런 곡선 그래프를 그리려면, 길이를 제곱한 항이 Training_set에 추가가 되어야 합니다.
이럴땐, Numpy를 사용해서 간단히 만들 수 있습니다. 한번 만들어 보겠습니다.

# 2차 방정식의 그래프를 그리기 위하여 길이를 제곱한 항을 training_set에 추가
# Numpy Broadcasting 적용
train_poly = np.column_stack((train_input ** 2, train_input))
test_poly = np.column_stack((test_input ** 2, test_input))

# 새롭게 만든 dataset 크기 확인
print(train_poly.shape, test_poly.shape)

(42, 2) (14, 2)

Train_input ** 2 식에도 Numpy Broadcasting이 적용됩니다. 즉, train_input에 있는 모든 원소를 제곱합니다.
원래 특성인 길이를 제곱하여 왼쪽 열에 추가를 해서 Training_set, Test_set 모두 열이 2개로 늘어났습니다.
이제 train_poly를 사용해서 선형 회귀 모델을 훈련하겠습니다. 여기서는 훈련세트에서 했던것 처럼 테스트 할때는 이 모델의 농어 길이의 제곱과 원래 길이를 넣어야 합니다.

# Model 다시 training
lr = LinearRegression()
lr.fit(train_poly, train_target) # train_target - 예측하고자 하는 농어의 무게 (변동 없음)

print(lr.predict([[50**2, 50]]))

[1573.98423528]

앞에서 훈련한 모델보다 더 높은 값을 예측했습니다. 이 모델이 훈련한 계수 & 절편을 출력해 보겠습니다.

print(lr.coef_, lr.intercept_)
# 제곱항을 2개 넣었기 때문에, 계수가 2개가 출력.[1.01433211 -21.55792498], 절편: 116.05021078278338

[ 1.01433211 -21.55792498] 116.05021078278338

무게 = a* 길이^2(x^2) + b * 길이(x) + c
모델은 이 그래프를 학습했습니다.
무계 = 1.01 x 길이**2 - 21.6 x 길이 + 116.05

이런 방정식을 다항식이라고 부르며, 다항식을 사용한 선형 회귀를 다항 회귀(Polynomial regression)이라고 부릅니다.
한번 다항회귀를 적용한 산점도 그래프를 그러보겠습니다.

# 구간별 직선을 그리기 위해 15~50 까지 정수 배열을 만듭니다.
point = np.arange(15,50)

# 훈련 세트의 산점도를 그립니다.
plt.scatter(train_input, train_target)

# 15에서 50까지 2차 방정식 그래프를 그립니다.
plt.plot(point, 1.01*point**2 - 21.6*point + 116.05)

# 50cm 농어 데이터
plt.scatter([50], [1574], marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

앞서, 단순 선형 회귀모델 보다 휠씬 나은 그래프가 그려졌습니다. 그러면 Training_set와 Test_set 의 R**2 점수를 평가하겠습니다.

print(lr.score(train_poly, train_target
print(lr.score(test_poly, test_target))

0.9706807451768623
0.9775935108325122

Training_set와 Test_set의 점수가 크게 높아졌습니다. 그렇지만 여전히 Test_set점수가 Training_set 보다 점수가 더 높습니다. 과소적합이 아직 남아있는거 같습니다.

Keywords

선형 회귀 는 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 찾습니다. 특성이 하나면 직선 방정식이 됩니다.
선형 회귀 가 찾은 특성과 타깃 사이의 관계는 선형 방정식의 계수 또는 가중치에 저장됩니다. 머신러닝에서 종종 기중치는 방정식의 기울기와 절편을 모두 의미히는 경우가 많습니다.
모델 파라미터는 선형 회귀가 찾은 가중치처럼 머신러닝 모델이 특성에서 학습한 파라미터를 말합니다.
다항 회귀는 다항식을 사용하여 특성과 타깃 사이의 관계를 나타냄니다. 이 함수는 비선형일 수 있지만 여전히 선형 회귀로 표현할 수 있습니다.

핵심 패키지와 함수

Scikit-learn

LinearRegression은 사이킷런의 선형 회귀 클래스입니다.
fit_intercept 매개변수를 False로 지정하면 절편을 학습하지 않습니다. 이 매개변수의 기본 값은 True입니다.
학습된 모델의 coef 속성은 특성에 대한 계수를 포함한 배열입니다. 즉 이 배열의 크기는 특성의 개수와같습니다. intercept_속성에는절편이 저장되어 있습니다.

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

[혼공머신] Logistic Regression (로지스틱 회귀) (0)	2023.09.25
[ML] 특성 공학과 규제 (0)	2023.09.24
[혼공머신] K-최근접 이웃 회귀 (0)	2023.09.22
[혼공머신] 데이터 전처리 [데이터 다루기] (0)	2023.09.18
[혼공머신] 훈련 세트와 테스트 세트 [데이터 다루기] (0)	2023.09.18

Notice

K-최근접 이웃의 한계

선형 회귀(Linear Regression)

다항 회귀

Keywords

핵심 패키지와 함수

Scikit-learn

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

K-최근접 이웃의 한계

선형 회귀(Linear Regression)

다항 회귀

Keywords

핵심 패키지와 함수

Scikit-learn

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바