My Dev & Engineering Repository

이번글부터는 Machine Learning (머신러닝)에 데하여 한번 알아보도록 하겠습니다.

Machine Learning 소개

Machine Learning (기계학습)은 무엇일까요?

머신러닝은 인공지능의 한 분야로, 데이터에서 패턴을 학습하고 예측하거나 의사 결정을 내리는 알고리즘을 사용합니다.
사람의 개입 없이도 스스로 성능을 개선할 수 있는 능력을 가진 시스템입니다.
또한 주요 특징은 데이터를 통해 학습하면서 지속적으로 성능을 향상시키는 모델입니다.
그러면 한번 예시를 들어서 머신러닝이 없다면 어떻게 될까요?

머신러닝이 없다면? (스팸메일 예시)

전통적 접근: 스팸으로 의심되는 단어에 대한 블랙리스트를 구축하고, 새로운 단어가 있을 때마다 추가합니다.
이 과정에는 스팸으로 의심되는 단어를 정하기 위해 전문가가 필요합니다.

머신러닝이 있다면? (스팸메일 예시)

머신러닝 접근: 스팸메일의 단어들에서 패턴을 분석하여, 스팸메일에는 자주 등장하고 일반메일에는 자주 등장하지 않는 단어를 추출합니다. 이 과정에서는 전문가의 개입이 필요하지 않습니다.

머신러닝, 언제 써야하지?

그러면, 머신러닝은 도대체 언제 써야 하는 건가요? 크게 3가지의 경우에 사용한다고 볼 수 있습니다.

데이터 패턴 분석: 사람이 직접 패턴을 찾기 힘든 대규모 데이터 패턴을 분석할 때.
예측과 분류: 기존 데이터로부터 미래를 예측하거나 특정 범주로 분류해야 할 때.
자동화된 의사결정 프로세스: 주어진 입력을 바탕으로 기대하는 출력을 반환할 때.

머신러닝 Process를 진행하기 전에 확인해봐야 하는점

Machine Learning Process를 진행하기 전에 우리가 체크를 해봐야 하는 점들이 여러개 있습니다.

어떤 질문(문제)에 대한 어떤 답(해결)을 원하는가? → 문제 정의와 목표 설정이 명확해야 합니다.
내가 갖고 있는 데이터에 답이 있는가? → 데이터를 분석하여 해결하고자 하는 문제에 유효한지 확인해야 합니다.
데이터가 충분한가? → 학습에 필요한 충분한 양의 데이터가 확보되어야 합니다.
어떤 방법이 내 질문을 가장 잘 해결해 줄 수 있는가? → 다양한 머신러닝 알고리즘 중 적절한 방법을 선택해야 합니다.
내가 만든 머신러닝 프로세스의 결과를 어떻게 평가할 수 있는가? → 모델의 성능을 평가할 수 있는 지표와 방법을 사전에 정의해야 합니다.

이렇게 우리가 어떠한 사례에 머신러닝을 적용하기 위해서는 문제 정의, 데이터 확보, 적절한 방법 선택, 그리고 결과 평가의 프로세스를 사전에 확인해야 한다는 점이 있습니다.

주로 사용하는 머신러닝 Library

Numpy

Numpy는 과학 계산을 위한 핵심 파이썬 라이브러리로, 고성능 다차원 배열 객체와 다양한 수학 함수들을 제공합니다.
머신러닝과 데이터 분석의 기초 라이브러리로 널리 사용됩니다.

주요 기능

다차원 배열 객체: 효율적인 다차원 배열(ndarray)를 제공합니다.
수학 함수: 선형 대수, 통계, 푸리에 변환 등의 수학 함수를 제공합니다.
배열 조작: 배열 생성, 변환, 인덱싱, 슬라이싱 등의 기능을 제공합니다.
빠른 계산: C로 구현되어 있어 빠른 계산 속도를 제공합니다.

장점:

성능: 대규모 데이터 처리를 위한 고성능 연산.
호환성: 다른 과학 계산 및 머신러닝 라이브러리와의 호환성.
사용의 용이성: 간단한 배열 연산으로 복잡한 수학 계산을 쉽게 수행.

Pandas

Pandas는 데이터 조작과 분석을 위한 고성능 라이브러리로, 사용이 간편한 데이터 구조와 데이터 분석 도구를 제공합니다.
주로 데이터 전처리와 탐색적 데이터 분석(EDA)에 사용됩니다.

주요 기능

데이터 프레임: 행과 열로 구성된 2차원 데이터 구조를 제공합니다.
데이터 조작: 데이터 정제, 결측값 처리, 데이터 병합 및 분할 등 다양한 기능을 제공합니다.
데이터 변환: 데이터 정렬, 필터링, 집계 등의 기능을 제공합니다.
시간 시계열 분석: 날짜 및 시간 데이터를 다루는 기능이 있습니다.

장점

다양한 기능: 데이터 분석과 전처리를 위한 풍부한 기능을 제공합니다.
호환성: 다른 파이썬 라이브러리(Numpy, Scikit-Learn 등)와의 호환성이 우수합니다.

Scikit-Learn

Scikit-Learn은 파이썬에서 가장 널리 사용되는 머신러닝 라이브러리로, 간단하고 일관된 인터페이스를 제공하며 다양한 알고리즘을 포함하고 있습니다.

주요 기능

데이터 전처리: 결측값 처리, 데이터 스케일링, 차원 축소 등을 포함합니다.
지도학습 알고리즘: 선형회귀, 로지스틱 회귀, 서포트 벡터 머신, 의사결정나무, 랜덤 포레스트, k-NN 등.
비지도학습 알고리즘: k-means, PCA, DBSCAN 등.
모델 평가 및 선택: 교차 검증, 하이퍼파라미터 튜닝, 다양한 평가 지표.

장점

풍부한 문서화: 광범위한 문서와 예제 코드가 제공되어 학습과 적용이 용이합니다.
확장성: 다른 파이썬 라이브러리(Numpy, Pandas 등)와의 호환성이 좋습니다.

머신러닝 Library Example Code

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 생성
from sklearn.datasets import load_iris
from sklearn.datasets import load_digits
from sklearn.datasets import load_breast_cancer

# 데이터 생성
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

from sklearn.model_selection import train_test_split

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"len(X_train): {len(X_train)}")
# len(X_train): 80

학습방법과 머신러닝

Machine Learning의 학습방식은 크게 3개가 있습니다. 지도학습, 비지도학습, 강화학습 3가지가 있는데 하나하나 설명해 보겠습니다.

지도학습 (Supervised Learning)

지도학습 (Supervised Learning)은 레이블(정답)이 있는 데이터를 사용하여 모델을 학습시켜 새로운 데이터에 대한 예측을 수행하는 방법입니다. 입력과 출력 간의 관계를 학습하여 새로운 입력 데이터에 대한 예측이 가능합니다.

예시

이메일 스팸 필터링: 스팸과 일반 이메일로 라벨링된 데이터를 사용하여 학습된 모델은 새로운 이메일이 스팸인지 아닌지 분류합니다..
주식 가격 예측: 과거 주식 가격 데이터와 실제 주식 가격을 이용하여 학습한 모델은 미래의 주식 가격을 예측합니다..

주요 알고리즘

선형회귀 (Linear Regression): 두 변수 간의 선형 관계를 모델링.
로지스틱 회귀 (Logistic Regression): 이진 분류 문제를 해결.
의사결정나무 (Decision Tree): 데이터의 특성에 따라 의사결정을 트리 구조로 모델링.
k-NN (k-Nearest Neighbors): 가장 가까운 k개의 이웃 데이터를 기반으로 예측.

장점

명확한 목표: 정답(레이블)이 명확히 존재하므로 모델의 학습 목표가 분명합니다.
다양한 응용 분야: 분류, 회귀 등 다양한 문제에 적용이 가능합니다.
높은 성능: 충분한 양질의 데이터가 제공될 경우 높은 예측 성능을 발휘합니다.

단점:

데이터 의존성: 고품질의 라벨링된 데이터가 많이 필요합니다.
과적합 (Overfitting): 훈련 데이터에 너무 치우쳐 학습할 경우, 새로운 데이터에 대한 일반화 능력이 떨어질 수 있습니다.
복잡성 증가: 고차원의 데이터나 복잡한 문제에서는 모델의 복잡도가 급격히 증가할 수 있습니다.

주요 도전 과제:

데이터 라벨링: 대량의 데이터를 라벨링하는 것은 많은 시간과 비용이 소요됩니다.
데이터 편향: 만약 라벨링된 데이터가 특정 패턴에 치우칠 경우, 모델이 편향된 예측을 할 가능성이 높습니다.
모델 해석 가능성: 복잡한 모델일수록 예측 결과를 해석하고 설명하기 어렵습니다.

비지도학습 (Unsupervised Learning)

비지도학습 (Unsupervised Learning)은 레이블이 없는 데이터에서 패턴이나 구조를 발견하는 학습 방법입니다.
목표는 데이터 내의 숨겨진 구조나 관계를 이해하고, 이를 기반으로 데이터의 분포나 특징을 파악하는 것입니다.

예시

고객 세분화: 고객 데이터를 군집화하여 마케팅 전략을 수립합니다.
이상 탐지: 정상 패턴에서 벗어난 이상 데이터를 식별합니다.
차원 축소: 고차원 데이터를 저차원으로 축소하여 데이터 시각화나 효율적인 데이터 처리에 활용합니다.

주요 알고리즘:

k-means: 데이터를 k개의 클러스터로 분할하는 군집화 알고리즘.
PCA (Principal Component Analysis): 데이터의 차원을 축소하여 주요 특징을 추출.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise): 밀도 기반 군집화.
계층적 군집화: 데이터의 계층적 구조를 탐색하는 군집화 알고리즘.

장점:

라벨이 필요 없음: 라벨링된 데이터가 필요하지 않습니다.
데이터 탐색: 데이터의 숨겨진 구조나 패턴을 발견할 수 있습니다.
다양한 응용 분야: 군집화, 이상 탐지, 차원 축소 등 다양한 문제에 적용합니다.

단점:

해석의 어려움: 비지도학습의 결과는 해석하기 어려운 경우가 많습니다.
모델 평가의 어려움: 지도학습처럼 명확한 정답이 없기 때문에, 모델의 성능을 평가하기가 어렵습니다.
초기 설정 민감도: 초기 파라미터 설정에 따라 결과가 크게 달라질 수 있습니다.

주요 도전 과제:

최적의 파라미터 설정: 군집화 알고리즘의 경우, 최적의 클러스터 개수나 밀도 파라미터를 설정하는 것이 어렵습니다.
대규모 데이터 처리: 대규모 데이터셋에서는 계산 비용이 높아질 수 있습니다.
노이즈 데이터 처리: 노이즈나 이상치가 많을 경우, 모델의 성능에 부정적인 영향을 미칠 수 있습니다.

강화학습 (Reinforcement Learning)

강화학습 (Reinforcement Learning)은 에이전트(agent)가 환경(environment)과 상호작용하면서 보상을 최대화하는 행동(policy)을 학습하는 방법입니다. 시퀀스 기반의 의사결정 문제에서 최적의 행동을 찾는 것이 목표입니다.

예시:

게임 인공지능: 스스로 학습하여 최적의 전략을 찾습니다.
로봇 제어: 특정 작업을 수행하면서 환경과 상호작용하여 최적의 동작을 학습합니다.
자율 주행: 자율 주행 자동차가 도로 환경에서 최적의 주행 경로를 학습합니다.

강화학습 주요개념

에이전트(Agent)

정의: 환경과 상호작용하며 학습을 수행하는 주체입니다.
기능: 현재 상태를 기반으로 행동을 선택하고, 그 행동의 결과로 보상을 받으며, 이를 통해 학습을 진행합니다.

환경(Environment)

정의: 에이전트가 상호작용하는 외부 시스템 입니다.
기능: 에이전트의 행동에 따라 상태를 변화시키고 보상을 제공 합니다.

상태(State)

정의: 환경의 현재 상태를 나타내는 정보입니다.
기능: 에이전트가 현재 상황을 이해하고, 적절한 행동을 선택하는 데 사용됩니다.

행동(Action)

정의: 에이전트가 현재 상태에서 선택할 수 있는 행동입니다.
기능: 에이전트는 주어진 상태에서 행동을 선택하고, 이 행동은 환경의 상태를 변화시킵니다.

보상(Reward)

정의: 에이전트의 행동 결과로 제공하는 피드백 입니다.
기능: 에이전트의 행동이 얼마나 좋은지에 대한 지표이며, 에이전트는 보상을 최대화하는 방향으로 학습합니다

정책(Policy)

정의: 주어진 상태에서 행동을 선택하는 전략입니다.
기능: 정책은 상태를 입력받아 행동을 출력하며, 최적의 정책은 에이전트가 장기적으로 최대 보상을 얻도록 합니다.

가치 함수(Value Function)

정의: 특정 상태나 상태-행동 쌍의 가치를 평가하는 함수입니다.
기능: 가치 함수는 장기적으로 얻을 수 있는 누적 보상의 기대값을 나타내며, 최적의 행동을 선택하는 데 도움을 줍니다.

강화학습의 장&단점

강화학습의 장점

순차적 의사결정 문제 해결: 시퀀스 기반의 문제에서 최적의 행동을 찾는 데 유리합니다.
적응성: 변화하는 환경에 대해 지속적으로 학습하고 적응할 수 있습니다.

강화학습의 단점

복잡성: 학습 과정이 복잡하며, 많은 계산 자원이 필요합니다.
보상 설계: 적절한 보상 함수를 설계하는 것이 어려울 수 있습니다.

강화학습의 주요 도전 과제

보상의 희소성: 특정 행동에 대한 보상이 드물 경우, 학습이 어려울 수 있습니다.
고차원 상태 공간: 상태 공간이 매우 크거나 복잡할 경우, 학습이 어려울 수 있습니다.
장기 의존성 문제: 긴 시퀀스의 의사결정에서 발생하는 의존성을 처리하는 것이 어려습니다.
안정성: 학습 과정의 안정성을 확보하는 것이 중요하며, 불안정한 학습은 잘못된 정책으로 이어질 수 있습니다.

Summary

강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습하는 방법입니다.
에이전트, 환경, 상태, 행동, 보상, 정책, 가치 함수와 같은 주요 개념들을 이해하고, 이를 통해 순차적 의사결정 문제를 해결할 수 있습니다.
그러나 복잡성, 보상 설계, 보상의 희소성, 고차원 상태 공간, 장기 의존성 문제, 안정성과 같은 도전 과제를 해결해야 합니다.

저작자표시 비영리 동일조건

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

[ML] Supervised Learning (지도학습) (0)	2024.08.06
[ML] Model의 학습과 평가 (0)	2024.08.02
[ML] Naive Bayes (나이브 베이즈) (0)	2024.08.01
[ML] Linear Regression (선형회귀) (0)	2024.08.01
[ML] Supervised Learning (지도학습) (0)	2024.07.31

Notice

Machine Learning 소개

머신러닝이 없다면? (스팸메일 예시)

머신러닝이 있다면? (스팸메일 예시)

머신러닝, 언제 써야하지?

머신러닝 Process를 진행하기 전에 확인해봐야 하는점

주로 사용하는 머신러닝 Library

Numpy

Pandas

Scikit-Learn

머신러닝 Library Example Code

학습방법과 머신러닝

지도학습 (Supervised Learning)

비지도학습 (Unsupervised Learning)

강화학습 (Reinforcement Learning)

강화학습 주요개념

에이전트(Agent)

환경(Environment)

상태(State)

행동(Action)

보상(Reward)

정책(Policy)

가치 함수(Value Function)

강화학습의 장&단점

강화학습의 장점

강화학습의 단점

강화학습의 주요 도전 과제

Summary

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Machine Learning 소개

머신러닝이 없다면? (스팸메일 예시)

머신러닝이 있다면? (스팸메일 예시)

머신러닝, 언제 써야하지?

머신러닝 Process를 진행하기 전에 확인해봐야 하는점

주로 사용하는 머신러닝 Library

Numpy

Pandas

Scikit-Learn

머신러닝 Library Example Code

학습방법과 머신러닝

지도학습 (Supervised Learning)

비지도학습 (Unsupervised Learning)

강화학습 (Reinforcement Learning)

강화학습 주요개념

에이전트(Agent)

환경(Environment)

상태(State)

행동(Action)

보상(Reward)

정책(Policy)

가치 함수(Value Function)

강화학습의 장&단점

강화학습의 장점

강화학습의 단점

강화학습의 주요 도전 과제

Summary

'📈 Data Engineering > 📇 Machine Learning' 카테고리의 다른 글

티스토리툴바