My Dev & Engineering Repository

훈련 세트와 테스트 세트

지도 학습과 비지도 학습

머신러닝 알고리즘은 크게 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)으로 나눌수 있습니다.
지도 학습 (Supervised Learning)에서는 데이터와 정답을 입력(Input)과 타깃(Target)이라고 하고, 이 둘을 합쳐 훈련 데이터(Training Data)라고 부릅니다.
- K-최근접 알고리즘은 Input data와 Target을 사용했으므로 당연히 지도 학습 알고리즘 입니다.
그리고 Input으로 사용된 길이 & 무게를 특성(feature)이라고 합니다.
비지도 학습(Unsupervised Learning)은 Target 없이 Input 데이터만 사용합니다. 이런 알고리즘은 정답을 사용하지 않으므로, 무언가를 맞힐 수가 없습니다. 대신 데이터를 잘 파악 & 변형하는데 도움을 줍니다.

훈련 세트와 테스트 세트

머신러닝의 알고리즘의 성능을 제대로 평가하려면, 훈련 데이터 & 평가에 사용할 데이터가 각각 달라야 합니다.
이렇게 하는 간단한 방법은, 또 다른 데이터를 준비 or 이미 준비된 데이터 중에서 일부를 떼어 내어 활용하는 것입니다.
- 보통 준비된 데이터 중에서 일부를 떼어 내어 활용 하는 방법을 많이 사용 합니다.
평가에 사용하는 데이터를 Test Set, 훈련에 사용하는 데이터를 Training Set 라고 합니다.
그러면 한번 데이터를 준비해보겠습니다. CH.1 에서 도미 & 빙어의 데이터를 합쳐 하나의 Python list 형태로 데이터를 준비합니다.

# 생선의 길이
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
# 생선의 무게
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

그리고 총 49개의 각 생선의 길이 & 무게를 하나의 list로 담은 2차원 리스트로 만들어 보겠습니다.

# 총 49개의 sample, 35개는 training dataset, 14개는 test dataset
fish_data = [[l,w] for l,w in zip(fish_length, fish_weight)]
fish_target = [1]*35+[0]*14

여기서 하나의 생선 데이터를 Sample 이라고 부릅니다. 도미 & 빙어는 각각 35마리, 14마리가 있으므로, 전체 데이터는 49개의 sample이 있습니다. 사용하는 특성은 길이, 무게 2개입니다.

이제 여기서 35개를 Training set로, 나머지 14개는 Test set로 사용해 보겠습니다.

# 이제 여기서 train data, test data를 분류해서 data를 input 합니다.
train_input = fish_data[:35] # training_set 중 0~34번째 index
train_target = fish_target[:35]# training_target값 중 35번~마지막 index

test_input = fish_data[35:] # test_set중 35번~마지막 index
test_target = fish_target[35:]# test_target값 중 35번~마지막 index

그리고 scikit-learn의 KNeighborsClassifier 라이브러리를 import하고 모델 객체를 만듭니다.

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()
kn.fit(train_input, train_target) 
# kn - 머신러닝 모델. fit - 두 데이터를 학습시켜 도미를 찾기 위한 기준을 찾는다.

근데, 모델을 훈련하고 평가하면 도미 & 빙어가 골고루 섞이지 않아서 정화도가 0.0이 나옵니다.
이런 경우는 샘플링이 한쪽으로 치우쳤다는 의미로 샘플링 편향(Sampling bias)이라고 부릅니다.
그리고 특정 종류의 샘플이 과도하게 많은 샘플링 편향을 가지고 있으면 제대로된 지도학습 모델을 만들수 없습니다.
그러면 샘플링 편향을 방지하기 위하여 훈련, 테스트 샘플을 골고루 섞이기 위한 작업을 간편하게 처리하기 위한 Numpy Library에 대하여 설명하도록 하겠습니다.

Numpy 라이브러리

Python의 대표적은 배열(array)라이브러리 이며, 고차원의 배열을 손쉽게 만들고, 조작할 수 있는 간편한 도구를 많이 제공하는 라이브러리 입니다.

import numpy as np - 보통 이렇게 import 해서 사용합니다.
- 그러면 이제 생선 데이터를 2차원 Numpy 배열로 변환해보겠습니다.

# 그래서 데이터셋이 골고루 섞이게 해야 해서, numpy library (행렬)사용
import numpy as np
input_arr = np.array(fish_data)
target_arr = np.array(fish_target)

print(input_arr)

print(input_arr.shape)
# (sample 수, 특성 수 출력)
# (49, 2) 출력.

그러면 이제 데이터를 Numpy 배열로 준비했으므로, 이 Array에서 Random하게 Sample을 선택해 training_set, test_set로 만들어보겠습니다.

주의할점은, input_arr과 target_arr에서 같은 위치는 함께 선택되어야 한다는 점입니다. 즉, target과 sample은 같이 이동해야 올바르게 훈련됩니다.
그리고 이제, 무작위로 training_set를 나누기 위해서는 index의 값들을 random하게 섞어야 함으로, Numpy Library의 shuffle()함수를 사용해, 배열의 index를 섞을 수 있습니다. 한번 섞어보겠습니다.

# 데이터 섞기 - index를 섞어서 분류하는 방법.
np.random.seed(42) # "42"라는 고정된 숫자를 시드로 설정함으로써, 해당 세션에서 NumPy로 생성된 모든 랜덤 번호가 스크립트를 실행할 때마다 동일하게 유지됩니다.
index = np.arange(49) # 0~48개의 인덱스를 만들어서 mix
np.random.shuffle(index)

Numpy의 arange() 함수에 정수 N을 전달하면 0에서부터 N-1까지 1씩 증가하는 배열을 만듭니다. 49를 전달하면 0에서 48까지 1씩 증가하는 Array를 만들겠죠?

그리고 Numpy는 Slicing 외의 배열 인덱싱(Array Indexing)이란 기능을 제공합니다. 이 기능은 1개의 index가 아닌, 여려개의 index로 한번의 여러개의 원소를 선택할 수 있습니다.

print(input_arr[[1,3]]) #input_arr애서 2번째, 4번째의 sample을 선택하여 출력

[[26.3 290. ]
[29. 363. ]]

이제, 앞서 만든 index 배열의 처음 35개를 input_arr, target_arr에 전달하여 랜덤하게 35개의 샘플을 training_set로 만들겠습니다.
그리고, 나머지 14개도 test_set로 만들어 보겠습니다.

# 이제 여기서 train data, test data를 분류해서 data를 input 합니다.
train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]

test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

이제, 산점도로 한번 training_set(훈련 세트), test_set(테스트 세트)에 도미 & 빙어가 잘 섞여 있는지 그려 보겠습니다.

# 데이터 나누고 확인(by plot)
import matplotlib.pyplot as plt

plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(test_input[:,0], test_input[:,1])
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

두번째 ML Program

한번, training_set, test_set로 K-최근접 이웃 모델을 훈련시키고 테스트 해보겠습니다.

kn.fit(train_input, train_target)
kn.score(train_input, train_target)

output(결과값)으로 1.0이 나왔습니다. 정확도가 100%라는 뜻입니다.

주요 Keyword

지도학습 (Supervised Learning)은 입력과 타깃을 전달하여 모델을 훈련한 다음, 새로운 데이터를 예측하는데 활용합니다.
비지도 학습(Unsupervised Learning)은 타깃 데이터가 없습니다. 따라서 무엇을 예측하는 것이 아니라 입력 데이터에서 어떤 특징을 찾는 데 주로 활용합니다.
훈련 세트(training_set)는 모델을 훈련할 때 사용 히는 데이터입니다. 보통 훈련 세트가 클수록 좋습나다. 따라서 태스트 세트를 제외한 모든 데이터를 시용합니다.
테스트 세트(test_set)는 전체 데이터에서 20∼30%를 테스트 세트로 사용하는 경우가 많습니다. 전체 데이터가 아주 크다면 1%만 덜어내도 충분할 수 있습니다.

핵심 패키지와 함수

Numpy

seed()는 넘파이에서 난수를 생성하기 위한 정수 초깃값을 지정합니다. 초깃값이 같으면 통 일한 난수를 뽑을 수 있습니다. 따라서 랜덤 함수의 결괴를 동일하게 재현하고 싶을 때 사용합니다.
arange()는 일정한 간격의 정수 또는 실수 배열을 만듭니다. 기본 간격은 1입니다. 매개변수 가 하나이면 종료 숫지를 의미합니다. 0에서 종료 숫자까지 배열을 만듭니다. 종료 숫자는 배열에 포함되지 않습니다.

print(np.arange(3))
# [0,1,2]

매개변수가 2면 시작 숫자, 종료 숫자를 의미합니다.

print(np.arange(1, 3))
# [1, 2]

매개변수가 3개면 마지막 매개변수가 간격을 나타냅니다.

print(np.arange(1, 3, 0.2))
# [1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4, 2.6, 2.8]

shuffle()은 주어진 배열을 랜덤하게 섞습니다. 다차원 배열일 경우 첫 번째 축(행)에 대해서만 섞습니다.

arr = np.array([[1, 2], [3, 4], [5, 6]])
np.random.shuffle(arr)
print(arr)

[[3 4]
[5 6]
[1 2]]

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

[ML] 특성 공학과 규제 (0)	2023.09.24
[혼공머신] Linear Regression (0)	2023.09.23
[혼공머신] K-최근접 이웃 회귀 (0)	2023.09.22
[혼공머신] 데이터 전처리 [데이터 다루기] (0)	2023.09.18
[혼공머신] 나의 첫 머신러닝 (0)	2023.09.11

Notice

훈련 세트와 테스트 세트

지도 학습과 비지도 학습

훈련 세트와 테스트 세트

Numpy 라이브러리

두번째 ML Program

주요 Keyword

핵심 패키지와 함수

Numpy

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

훈련 세트와 테스트 세트

지도 학습과 비지도 학습

훈련 세트와 테스트 세트

Numpy 라이브러리

두번째 ML Program

주요 Keyword

핵심 패키지와 함수

Numpy

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바