My Dev & Engineering Repository

이번에는 Supervised Learning (지도학습)에 데하여 한번 알아보겠습니다.

Supervised Learning (지도학습) 이란?

지도학습은 Machine Learning(기계학습)의 한 분야로, 입력 데이터와 그에 대응하는 정답(레이블)을 함께 제공받아 학습하는 방법입니다. 이 과정을 통해 알고리즘은 새로운 입력 데이터에 대해 정확한 출력을 예측할 수 있는 모델을 만듭니다.

주요한 특징들에 데하여 더 살펴보면

1. 레이블이 있는 데이터 사용

각 데이터 포인트에는 입력값과 그에 대응하는 정답이 함께 제공됩니다.
예를 들어, 이미지 분류 작업에서는 이미지(입력)와 그 이미지가 나타내는 객체의 이름(출력)이 쌍을 이룹니다.
사진과 그 사진의 태그(예: "강아지", "고양이")가 쌍으로 주어지면, 모델은 이 정보를 학습하여 새로운 사진의 태그를 예측할 수 있습니다.

2. 예측 모델 학습

알고리즘은 입력과 출력 사이의 관계를 학습하여 함수를 근사화합니다.
이 함수는 새로운 입력 데이터에 대해 출력을 예측하는 데 사용됩니다.

3. 일반화 능력 향상

모델의 궁극적인 목표는 학습 데이터뿐만 아니라 처음 보는 데이터에 대해서도 정확한 예측을 하는 것입니다.
이를 위해 다양한 기법들(정규화, 교차 검증 등)이 사용됩니다.
또한 모델이 훈련 데이터뿐만 아니라 새로운 데이터에서도 높은 성능을 발휘하도록 하는 것이 목표입니다.

Supervised Learning (지도학습)의 주요 분류

그러면 지도 학습엔 주로 어떠한 분류 과정이 있을까요? 크게 회귀 (Regression), 분류 (Classification)이 있습니다.

1. 회귀 (Regression)

연속적인 값을 예측하는 문제를 다룹니다.
예를 들어, 주택의 특성(면적, 방의 개수 등)을 바탕으로 주택 가격을 예측하는 것이 회귀 문제입니다.
주요 알고리즘: 선형 회귀, 다항 회귀, 결정 트리 회귀, 랜덤 포레스트 회귀 등

2. 분류 (Classification)

입력 데이터를 미리 정의된 범주 중 하나로 분류하는 문제를 다룹니다.
예를 들어, 이메일이 스팸인지 아닌지를 분류하는 문제가 분류 문제입니다.
주요 알고리즘: 로지스틱 회귀, 결정 트리, 랜덤 포레스트, 서포트 벡터 머신(SVM), 나이브 베이즈 등

Supervised Learning (지도학습)의 주요 개념

3가지의 기본 개념에 데하여 알아보겠습니다. 일반화(Generalization), 과대적합(Overfitting), 과소적합(Underfitting)입니다.

일반화(Generalization): 모델이 훈련 데이터에서 학습한 내용을 바탕으로 새로운 데이터에 대해서도 잘 예측할 수 있는 능력을 말합니다. 좋은 일반화 능력은 모델이 학습 데이터의 패턴을 잘 포착하고, 이를 새로운 데이터에 적용할 수 있음을 의미합니다.
과대적합(Overfitting): 모델이 훈련 데이터에 너무 정확하게 맞추려는 경향을 보이면서, 데이터에 포함된 노이즈까지 학습하는 현상입니다. 이로 인해 훈련 데이터에서는 높은 정확도를 보이지만, 테스트 데이터에서는 성능이 저하됩니다. 일반적으로 복잡한 모델에서 발생합니다. 해결 방법은 4가지가 있습니다.
- a) 규제 (Regularization): L1, L2 정규화 등을 통해 모델의 복잡도를 제한합니다.
- b) 교차 검증 (Cross-Validation): 데이터를 여러 부분으로 나누어 반복적으로 학습하고 검증합니다.
- c) 데이터 증강 (Data Augmentation): 학습 데이터를 인위적으로 늘려 다양성을 증가시킵니다.
- d) 드롭아웃 (Dropout): 신경망에서 일부 뉴런을 랜덤하게 비활성화하여 과대적합을 방지합니다.
과소적합(Underfitting): 모델이 훈련 데이터의 패턴을 제대로 학습하지 못하는 현상입니다. 결과적으로 훈련 데이터와 테스트 데이터 모두에서 낮은 정확도를 보입니다. 너무 단순한 모델에서 자주 발생합니다. 해결방법은 아래에 있습니다.
- a) 모델 복잡도 증가: 더 복잡한 모델(예: 더 깊은 신경망)을 사용합니다.
- b) 특성 공학: 새로운 특성을 생성하거나 기존 특성을 변환하여 모델의 표현력을 높입니다.
- c) 학습 시간 증가: 더 오랜 시간 동안 모델을 학습시킵니다.

Supervised Learning (지도학습) Process

그러면 Supervised Learning (지도학습)의 Process는 무엇이 있을까요?

데이터 수집 및 전처리
- 관련 데이터를 수집하고 정제합니다.
- 결측치 처리, 이상치 제거, 특성 스케일링 등의 작업을 수행합니다.
데이터 분할
- 일반적으로 훈련 세트(60-80%), 검증 세트(10-20%), 테스트 세트(10-20%)로 나눕니다.
- 이를 통해 모델의 학습, 튜닝, 최종 평가를 독립적으로 수행할 수 있습니다.
모델 선택 및 학습
- 문제에 적합한 알고리즘을 선택합니다.
- 선택한 모델을 훈련 데이터로 학습시킵니다.
모델 평가 및 튜닝
- 검증 세트를 사용하여 모델의 성능을 평가합니다.
- 하이퍼파라미터 튜닝, 특성 선택 등을 통해 모델을 개선합니다.
최종 평가 및 배포
- 테스트 세트로 최종 모델의 성능을 평가합니다.
- 만족스러운 성능을 보이면 실제 환경에 모델을 배포합니다.

이렇게 지도학습의 기본 개념과 프로세스, 그리고 과대적합과 과소적합 해결 방법에 대해 알아보았습니다.

그러면 다음글에선 지도학습에는 어떠한 Machine Learning 기법이 쓰이는지 한번 보겠습니다.

저작자표시 비영리 동일조건

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

[ML] Logistic Regression (로지스틱 회귀) (0)	2024.08.07
[ML] K-Nearest Neighbors, K-NN (K-최근접 이웃) (0)	2024.08.07
[ML] Model의 학습과 평가 (0)	2024.08.02
[ML] Naive Bayes (나이브 베이즈) (0)	2024.08.01
[ML] Linear Regression (선형회귀) (0)	2024.08.01

Notice

Supervised Learning (지도학습) 이란?

Supervised Learning (지도학습)의 주요 분류

Supervised Learning (지도학습)의 주요 개념

Supervised Learning (지도학습) Process

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Supervised Learning (지도학습) 이란?

Supervised Learning (지도학습)의 주요 분류

Supervised Learning (지도학습)의 주요 개념

Supervised Learning (지도학습) Process

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바