My Dev & Engineering Repository

이번에는 Supervised Learning (지도학습)에 데한 개념에 데하여 한번 알아보겠습니다.

Supervised Learning (지도학습)

지도학습은 머신러닝의 한 분야로, 라벨이 있는 데이터를 기반으로 학습하는 알고리즘입니다.

입력 데이터와 이에 상응하는 출력 값(목표 또는 라벨)이 주어지며, 모델은 이 데이터를 통해 학습하여 새로운 입력에 대해 예측을 수행할 수 있습니다.
지도학습은 크게 회귀(Regression)와 분류(Classification)로 나뉩니다.

Regression (회귀)

회귀는 연속적인 숫자 값을 예측하는 문제를 다룹니다.

예를 들어, 주택의 면적, 방 개수, 위치 등을 기반으로 주택 가격을 예측하는 경우가 이에 해당합니다.
회귀 문제에서는 예측하려는 값이 연속적인 숫자로 표현됩니다.
예시를 들면, 집값 예측: 주택의 크기, 위치, 연식 등의 데이터를 바탕으로 주택 가격을 예측합니다.
기온 예측: 과거의 기온 데이터를 바탕으로 미래의 기온을 예측합니다.

Regression (회귀)의 주요 알고리즘

단순 선형 회귀(Simple Linear Regression): 하나의 독립변수(X)와 종속변수(Y)간의 관계를 직선으로 모델링합니다. 데이터 포인트에 가장 잘 맞는 직선을 찾는것을 목표로 합니다.
- 직선은 Y = aX + b의 형태를 가지며, 여기서 a,b는 모델의 학습을 통해 결정이 됩니다.
다중 선형 회귀(Multiple Linear Regression): 여러개의 독립변수(X)와 하나의 종속변수(Y)간의 관계를 모델링합니다. 데이터의 여러개의 입력변수를 고려하여 결과를 예측합니다.
- 모댈의 형태는 Y = a1X1 + a2X2 + ... + anXn + b 의 형태 입니다.
릿지 회귀(Ridge Regression) & 라쏘 회귀(Lasso Regression): 다중 선형 회귀(Multiple Linear Regression)의 확장 버전으로, Overfitting(과적합)을 방지하기 위해 Normalization(정규화)를 적용합니다.
- 릿지 회귀(Ridge Regression)는 계수에 대한 L2 정규화, 라쏘 회귀(Lasso Regression)는 L1 정규화를 사용하여 모델의 복잡도를 줄입니다.

Example Code

from sklearn.linear_model import LinearRegression

# 데이터 준비 (예: 면적, 가격)
X = [[1500], [1800], [2400], [3000], [3500]]  # 면적 (평방피트)
y = [200000, 250000, 320000, 380000, 450000]  # 가격 (달러)

# 모델 학습
model = LinearRegression()
model.fit(X, y)

# 새로운 데이터 예측
new_data = [[2000]]  # 예측할 면적
predicted_price = model.predict(new_data)
print(f"예측 가격: ${predicted_price[0]:.2f}")

# 예측 가격: $267013.18

Classification (분류)

분류는 범주형 값을 예측하는 문제를 다룹니다.

예를 들어, 이메일이 스팸인지 아닌지를 분류하거나, 이미지에서 특정 객체를 인식하는 경우가 이에 해당합니다.
분류 문제에서는 예측하려는 결과가 이산적인 클래스(예: 스팸/정상, 고양이/개)로 나뉩니다.
예시를 들면, 스팸 메일 분류: 이메일의 내용을 분석하여 스팸 메일인지 아닌지를 판단합니다.
이미지 분류: 이미지 데이터를 분석하여 해당 이미지가 어떤 객체를 포함하고 있는지 분류합니다.

Classification (분류)의 주요 알고리즘

로지스틱 회귀(Logistic Regression): Binary(이진)분류 문제에서 주로 사용됩니다. 데이터가 특정 클래스에 속할 확률을 주로 예측하며, Sigmoid Function(시그모이드 함수)를 사용하여 예측 결과를 0, 1 사이의 값으로 변환합니다.
- 결과적으론, 0.5를 기준으로 Class를 분류합니다.
서포트 벡터 머신(Support Vector Machine, SVM): 두 Class간의 최대 Margin을 찾는 알고리즘입니다. SVM 머신은 데이터를 나는 최적의 Border(경계)를 찾으며, Margin을 최대화 하여 모델의 일반화 성능을 높입니다.
- Non-Linear(비선형) 문제에 데하여는 Kernel Trick(커널 트릭)을 사용하여 해결합니다.
k-최근접 이웃(k-Nearest Neighbors, k-NN): 새로운 데이터 포인트의 Classifcation(분류)를 가장 가까운 K개의 이웃 데이터 포인트의 Class 다수를 기반으로 결정하는 알고리즘 입니다.
- 데이터가 Normalization(정규화)가 되어있지 않거나, 스케일이 다를때 성능 이슈가 있습니다.
의사결정나무(Decision Tree) & 랜덤 포레스트(Random Forest): 의사결정나무(Decision Tree)는 데이터를 여러 기준에 따라 분류하는 트리구조, 랜덤 포레스트는 다수의 의사결정나무(Decision Tree)를 앙상블(ensemble)하여 모델의 예측 성능을 높입니다.

Example Code

from sklearn.linear_model import LogisticRegression

# 데이터 준비 (예: 이메일 내용 특성, 라벨)
X = [[0.1, 0.6], [0.4, 0.3], [0.5, 0.7], [0.9, 0.2]]  # 특성 (스팸 확률 지표)
y = [0, 1, 0, 1]  # 라벨 (0: 정상, 1: 스팸)

# 모델 학습
model = LogisticRegression()
model.fit(X, y)

# 새로운 데이터 예측
new_data = [[0.2, 0.4]]  # 예측할 데이터
predicted_class = model.predict(new_data)
print(f"예측 결과: {'스팸' if predicted_class[0] == 1 else '정상'}")

# 예측 결과: 정상

Linear Regression에 데하여는 다음글에 자세히 적어서 오겠습니다..

Summary

Supervised Learning, 지도학습에서 가장 중요한 것은 데이터 품질과 알고리즘 선택이라고 생각합니다.

데이터가 충분히 수집되고 라벨링이 잘되어 있어야 모델이 제대로 학습된다고 생각합니다.

또한, 사용자가 가지고 있는 문제의 특성과 데이터의 특성에 맞는 알고리즘을 선택하는 것이 중요합니다.

예를 들어, 데이터가 매우 많고 복잡하다면 랜덤 포레스트나 서포트 벡터 머신 같은 강력한 알고리즘이 필요할 수 있습니다.

마지막으로, 모델의 성능을 평가하고 개선하기 위해 교차 검증(cross-validation), 하이퍼파라미터 튜닝(hyperparameter tuning) 등을 활용하여 최적의 모델을 선택하고 예측 정확도를 높여야 합니다.

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

[ML] Supervised Learning (지도학습) (0)	2024.08.06
[ML] Model의 학습과 평가 (0)	2024.08.02
[ML] Naive Bayes (나이브 베이즈) (0)	2024.08.01
[ML] Linear Regression (선형회귀) (0)	2024.08.01
[ML] Machine Learning (머신러닝) Intro (0)	2024.07.28

Notice

Supervised Learning (지도학습)

Regression (회귀)

Regression (회귀)의 주요 알고리즘

Example Code

Classification (분류)

Classification (분류)의 주요 알고리즘

Example Code

Summary

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Supervised Learning (지도학습)

Regression (회귀)

Regression (회귀)의 주요 알고리즘

Example Code

Classification (분류)

Classification (분류)의 주요 알고리즘

Example Code

Summary

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바