My Dev & Engineering Repository

이번엔는 K-NN에 데하여 한번 알아보겠습니다.

K-NN 이란?

K-NN(최근접 이웃 알고리즘)은 데이터 분류 및 회귀 문제에서 널리 사용되는 비모수적 기계 학습 알고리즘입니다.

입력 데이터 포인트의 클래스를 예측하기 위해 그 데이터 포인트와 가장 가까운 K개의 이웃을 기반으로 결정을 내리는 알고리즘입니다.

K-NN은 분류(Classification)와 회귀(Regression) 문제 모두에 사용될 수 있습니다.

K-NN의 주요 특징

1. 비모수적 방법

K-NN은 데이터 분포에 대해 특정한 가정을 하지 않는 비모수적(non-parametric) 방법입니다. 이는 데이터의 형태나 분포에 대해 사전 지식이 없어도 사용할 수 있다는 것을 의미합니다.

2. 메모리 기반

모델을 학습하는 과정이 없고, 예측 시에 모든 학습 데이터를 메모리에 저장하고 사용합니다. 따라서 모델을 저장하기 위한 메모리 사용량이 큽니다.

3. 단순성

K-NN의 구현은 매우 간단하지만, 강력한 성능을 발휘할 수 있습니다. 특히 데이터의 구조가 명확하지 않을 때 유용할 수 있습니다.

K-NN의 기본 원리

K-NN의 기본 원리는 어떠한 점들이 있을까요? 한번 알아보겠습니다.

거리 측정

새로운 데이터 포인트와 기존 데이터 포인트들 사이의 거리를 계산합니다. 일반적으로 유클리드 거리가 사용되지만, 맨해튼 거리, 코사인 유사도 등 다른 거리 척도도 사용 가능합니다.
유클리드 거리 수식: 두 점 (x1,y1)와 (x2,y2) 사이의 거리는 아래의 수식으로 계산됩니다.

이웃 선택

계산된 거리 값을 기준으로 가장 가까운 K개의 이웃을 선택합니다.

결정

분류(Classification): K개의 이웃 중 가장 많이 등장한 클래스를 새로운 데이터 포인트의 클래스로 예측합니다.
회귀(Regression): K개의 이웃의 평균 값을 새로운 데이터 포인트의 예측 값으로 사용합니다.

K값의 선택

그러면 K값은 어떻게 선택하는 걸까요? 교차검증 (Cross-Validation)을 사용하여 선택합니다.

교차 검증 (Cross-Validation):

다양한 K 값을 시도하여 최적의 K를 찾습니다. 교차 검증을 통해 데이터의 일부분을 훈련 데이터로, 나머지 부분을 검증 데이터로 사용해 모델의 성능을 평가합니다.

K 값이 모델에 끼치는 영향?

작은 K 값: 모델이 복잡해져 과대적합(overfitting)이 발생할 수 있습니다.
큰 K 값: 모델이 단순해져 과소적합(underfitting)이 발생할 수 있습니다.

K-NN 개선 방법

먄약, K-NN을 사용하는데 결과값이 사용자가 원하지 않는 결과가 나왔을땐 어떻게 해야할까요?
개선 방법들에 데하여 설명을 해보겠습니다.

가중치 부여

가까운 이웃에게 더 큰 가중치를 부여하여 예측의 정확성을 높일 수 있습니다.

차원 축소

고차원 데이터를 저차원으로 변환하여 계산 복잡도를 줄일 수 있습니다. 주성분 분석(PCA)과 같은 방법이 사용될 수 있습니다.

효율적인 거리 계산

KD 트리 또는 볼 트리와 같은 자료 구조를 사용하여 거리 계산을 효율적으로 할 수 있습니다.

K-NN의 장, 단점

K-NN의 장점과 단점은 어떠한 점들이 있을까요?

K-NN의 장점

단순하고 이해하기 쉬움:
- 구현과 이해가 매우 간단합니다.
모델 학습 과정이 없음:
- 데이터가 추가될 때마다 모델을 재학습할 필요가 없습니다.
- 새로운 데이터가 추가되면 그 데이터도 포함하여 예측을 수행할 수 있습니다.
다양한 문제에 적용 가능:
- 분류와 회귀 문제 모두에 사용 가능합니다.

K-NN의 단점

계산 비용이 높음:
- 예측 시에 모든 데이터를 비교해야 하므로, 데이터가 많을 경우 계산 비용이 높습니다.
공간 복잡도:
- 모든 학습 데이터를 저장해야 하므로, 메모리 사용량이 큽니다.
K 값 선택의 어려움:
- 적절한 K 값을 선택해야만 좋은 성능을 얻을 수 있습니다.
희소한 데이터에서 성능 저하:
- 데이터가 희소한 경우 성능이 저하될 가능성이 큽니다. 데이터가 충분히 많아야 효과적으로 작동합니다.

K-NN Example Code

K-NN 예제 코드를 한번 보겠습니다.

!kaggle datasets download -d mlg-ulb/creditcardfraud
!unzip creditcardfraud.zip

# K-평균 클러스터링 예제

# 필요한 라이브러리 임포트
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 데이터셋 로드
data = pd.read_csv('/content/creditcard.csv')
data.head()

# 필요한 특성 선택
X = data.drop(['Time', 'Class'], axis=1)

# 데이터 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# K-평균 클러스터링 모델 생성 및 학습
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X_scaled)

# 클러스터링 결과 시각화 (PCA를 사용하여 2차원으로 축소)
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

plt.figure(figsize=(10, 7))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red', marker='X')
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.title('K-Means Clustering of Credit Card Fraud Dataset')
plt.show()

저작자표시 비영리 동일조건

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

[ML] Support Vector Machine (SVM, 서포트 벡터 머신) (0)	2024.08.11
[ML] Logistic Regression (로지스틱 회귀) (0)	2024.08.07
[ML] Supervised Learning (지도학습) (0)	2024.08.06
[ML] Model의 학습과 평가 (0)	2024.08.02
[ML] Naive Bayes (나이브 베이즈) (0)	2024.08.01

Notice

K-NN 이란?

K-NN의 주요 특징

1. 비모수적 방법

2. 메모리 기반

3. 단순성

K-NN의 기본 원리

거리 측정

이웃 선택

결정

K값의 선택

K-NN 개선 방법

K-NN의 장, 단점

K-NN의 장점

K-NN의 단점

K-NN Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

K-NN 이란?

K-NN의 주요 특징

1. 비모수적 방법

2. 메모리 기반

3. 단순성

K-NN의 기본 원리

거리 측정

이웃 선택

결정

K값의 선택

K-NN 개선 방법

K-NN의 장, 단점

K-NN의 장점

K-NN의 단점

K-NN Example Code

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바