Machine Learning

📇 Machine Learning

[ML] Naive Bayes (나이브 베이즈)

이번에는 Naive Bayes (나이브 베이즈)라는 개념에 데하여 한번 알아보겠습니다.Naive Bayes (나이브 베이즈)나이브 베이즈(Naive Bayes)는 조건부 확률을 활용하여 분류를 수행하는 지도 학습 알고리즘입니다.이 알고리즘은 독립 변수들이 서로 독립적이라고 가정하여 작동합니다.이러한 가정 하에서 나이브 베이즈는 간단하지만 강력한 분류 모델을 제공합니다.Bayes' Theorem (베이즈 정리)나이브 베이즈 알고리즘은 베이즈 정리에 기반을 두고 있습니다.베이즈 정리는 조건부 확률을 사용하여 특정 사건의 사후 확률을 계산하는 수학적 원리입니다. 아래는 베이즈 정리의 수식입니다. P(A∣B)P(A|B)P(A∣B): 사건 B가 일어났을 때 사건 A가 일어날 확률 (사후 확률, Posterior ..

📇 Machine Learning

[ML] Linear Regression (선형회귀)

이번에는 Linear Regression (선형회귀)에 데하여 알아보겠습니다.Linear Regression (선형회귀)선형 회귀(Linear Regression)는 머신러닝에서 널리 사용되는 회귀 분석 기법 중 하나로,독립 변수와 종속 변수 간의 관계를 선형 방정식으로 표현합니다.이 방법은 주어진 데이터를 이용해 가장 잘 맞는 직선을 찾는 것이 목표입니다.선형 회귀는 모델이 비교적 간단하고 해석이 용이하다는 장점이 있습니다.회귀 방정식선형 회귀 모델은 다음과 같은 형태의 방정식을 사용합니다. Y = β0 ​ +β1​X + ϵ Y: 종속 변수 (예측하려는 값)X: 독립 변수 (설명 변수)β0: 절편 (Intercept)β1​: 기울기 (Slope)ϵ: 오차 항 (Error Term, 모델의 예측과 실제 ..

📇 Machine Learning

[ML] Supervised Learning (지도학습)

이번에는 Supervised Learning (지도학습)에 데한 개념에 데하여 한번 알아보겠습니다.Supervised Learning (지도학습)지도학습은 머신러닝의 한 분야로, 라벨이 있는 데이터를 기반으로 학습하는 알고리즘입니다.입력 데이터와 이에 상응하는 출력 값(목표 또는 라벨)이 주어지며, 모델은 이 데이터를 통해 학습하여 새로운 입력에 대해 예측을 수행할 수 있습니다.지도학습은 크게 회귀(Regression)와 분류(Classification)로 나뉩니다.Regression (회귀)회귀는 연속적인 숫자 값을 예측하는 문제를 다룹니다.예를 들어, 주택의 면적, 방 개수, 위치 등을 기반으로 주택 가격을 예측하는 경우가 이에 해당합니다.회귀 문제에서는 예측하려는 값이 연속적인 숫자로 표현됩니다.예..

🕹️ 혼공머신

[혼공머신] Tree's Ensemble - Gradient Boosting (그레이언트 부스팅)

Gradient Boosting (그레이언트 부스팅)그레이디언트 부스팅(Gradient Boosting)은 얕은 결정 트리들을 사용하여 이전 트리의 오차를 보완하는 방식으로 앙상블을 구성하는 기법입니다.사이킷런의 GradientBoostingClassifier는 기본적으로 깊이가 3인 결정 트리를 100개 사용합니다. 얕은 결정 트리를 사용하기 때문에 과대적합에 강하고, 일반적으로 높은 일반화 성능을 기대할 수 있습니다.'그레이디언트'라는 이름에서 알 수 있듯이, 이 방법은 경사 하강법을 사용하여 트리를 앙상블에 추가합니다. 분류 문제에서는 로지스틱 손실 함수를 사용하고, 회귀 문제에서는 평균 제곱 오차 함수를 사용합니다.경사 하강법의 원리처럼, 그레이디언트 부스팅은 손실 함수의 최소점을 찾기 위해 모델..

🕹️ 혼공머신

[혼공머신] Tree's Ensemble - Extra Tree (엑스트라 트리)

Extra Trees (엑스트라 트리)엑스트라 트리(Extra Trees)는 랜덤 포레스트와 매우 유사하게 동작하며, 기본적으로 100개의 결정 트리를 훈련합니다.이 모델은 랜덤 포레스트와 마찬가지로 대부분의 결정 트리 매개변수를 지원하고, 일부 특성을 랜덤하게 선택하여 노드를 분할하는 데 사용합니다.랜덤 포레스트와 엑스트라 트리의 주요 차이점은 부트스트랩 샘플을 사용하지 않는다는 점입니다.즉, 각 결정 트리를 만들 때 전체 훈련 세트를 사용합니다. 대신, 노드를 분할할 때 가장 좋은 분할을 찾지 않고 무작위로 분할합니다.사실, 이전에 DecisionTreeClassifier의 spliter 매개변수를 'random'으로 설정한 것이 바로 엑스트라 트리에서 사용하는 방식입니다.각 결정 트리에서 특성을 무..

🕹️ 혼공머신

[혼공머신] Tree's Ensemble - Random Forest (랜덤 포레스트)

정형 데이터와 비정형 데이터랜덤 포레스트에 대해 배우기 전에 우리가 다루었던 데이터를 되돌아보겠습니다.길이, 높이, 무게 등의 데이터를 사용했습니다. 이 데이터는 CSV 파일에 가지런히 정리되어 있었죠.이번에도 사용한 와인 데이터도 CSV 파일이었습니다.# CSV 파일 예시length, height, width8.4, 2.11, 1.4113.7, 3.53, 2.0이런 형태의 데이터를 정형 데이터(structured data)라고 부릅니다. 쉽게 말해, 어떤 구조로 되어있다는 뜻이죠.이런 데이터는 CSV나 데이터베이스(DataBase), 혹은 엑셀(Excel)에 저장하기 쉽습니다.온라인 쇼핑몰에 진열된 상품과 우리가 구매한 쇼핑 정보는 모두 데이터베이스에 저장되는 정형 데이터에 속합니다.사실 프로그래머가 ..

📇 Machine Learning

[ML] Machine Learning (머신러닝) Intro

이번글부터는 Machine Learning (머신러닝)에 데하여 한번 알아보도록 하겠습니다.Machine Learning 소개Machine Learning (기계학습)은 무엇일까요? 머신러닝은 인공지능의 한 분야로, 데이터에서 패턴을 학습하고 예측하거나 의사 결정을 내리는 알고리즘을 사용합니다.사람의 개입 없이도 스스로 성능을 개선할 수 있는 능력을 가진 시스템입니다.또한 주요 특징은 데이터를 통해 학습하면서 지속적으로 성능을 향상시키는 모델입니다.그러면 한번 예시를 들어서 머신러닝이 없다면 어떻게 될까요?머신러닝이 없다면? (스팸메일 예시)전통적 접근: 스팸으로 의심되는 단어에 대한 블랙리스트를 구축하고, 새로운 단어가 있을 때마다 추가합니다.이 과정에는 스팸으로 의심되는 단어를 정하기 위해 전문가가 ..

Bigbread1129
'Machine Learning' 태그의 글 목록 (3 Page)