이번에는 Isomap이라는 머신러닝 기법에 데하여 알아보겠습니다. 아이소맵(Isomap)은 비선형 차원 축소 기법으로, 고차원 데이터의 기하학적 구조를 보존하면서 저차원으로 변환하는 방법입니다.이 알고리즘은 지오데식 거리(Geodesic Distance)를 사용하여 데이터 간의 거리를 측정하고, 이를 바탕으로 저차원 공간에서 데이터의 구조를 시각화합니다. Isomap의 특징 비선형 차원 축소: Isomap은 데이터의 비선형 구조를 보존하면서 차원을 축소할 수 있습니다. 이는 PCA와 같은 선형 차원 축소 기법으로는 어려운 데이터의 복잡한 구조를 잘 유지할 수 있습니다.지오데식 거리 기반: 데이터 포인트 간의 실제 거리(지오데식 거리)를 사용하여 데이터의 구조적 관계를 반영합니다. 지오데식 거리는 데이터의..
주성분 분석(Principal Component Analysis, PCA)은 고차원 데이터를 저차원으로 변환하여 데이터의 주요 변동성을 보존하는 차원 축소 기법입니다. 이 방법은 데이터의 분산을 최대화하는 직교 축을 찾아 데이터를 새로운 좌표계로 변환함으로써 노이즈를 줄이고, 시각화 및 해석을 용이하게 합니다. 주성분 분석은 데이터 시각화, 노이즈 제거, 데이터 압축 등의 목적으로 널리 사용됩니다.PCA(주성분 분석)의 특징PCA의 주요한 특징은 어떠한 점이 있을까요? 1. 분산 최대화PCA는 데이터의 분산을 최대화하는 방향으로 새로운 축을 탐색합니다. 가장 많은 변동성을 설명하는 주성분을 찾는다는 의미입니다.2. 직교 축주성분은 서로 직교(orthogonal)하는 축으로 구성됩니다. 이로 인해 주성분 ..
DBSCAN은 밀도 기반의 군집화 알고리즘으로, 데이터 포인트의 밀집된 영역을 군집으로 식별하고, 밀도가 낮은 데이터 포인트는 노이즈로 간주하는 방식입니다. DBSCAN의 목표는 데이터의 밀집 영역을 찾아내어, 군집의 크기나 형태에 구애받지 않고 유연하게 군집화를 수행하는 것입니다.DBSCAN의 특징밀도 기반 군집화: DBSCAN은 데이터 포인트의 밀도를 기준으로 군집을 형성합니다. 즉, 일정 밀도 이상의 영역을 하나의 군집으로 묶습니다.노이즈 처리: 밀도가 낮은 데이터 포인트는 노이즈로 간주되며, 군집에서 제외됩니다. 이를 통해 군집화 과정에서 노이즈나 이상치를 효과적으로 처리할 수 있습니다.유연한 군집 형성: DBSCAN은 군집의 크기나 형태에 구애받지 않고, 데이터의 밀도에 따라 유연하게 군집을 형..
Hierarchical Clustering (계층적 군집 분석)도 Unsupervised Learning (비지도 학습) 계층적 군집 분석은 데이터 포인트들 간의 유사도를 바탕으로 계층적인 군집 구조를 형성하는 군집화 방법입니다.이 방법은 데이터를 트리 구조로 표현하며, 단계별로 군집화를 진행함으로써 데이터 간의 관계와 구조를 이해하는 데 도움을 줍니다.Hierarchical Clustering (계층적 군집 분석)의 유형그러면, Hierarchical Clustering (계층적 군집 분석)의 유형은 어떠한 것이 있을까요? 한번 알아보겠습니다. 1. 병합적 군집화 (Agglomerative Clustering)병합적 군집화는 각 데이터를 하나의 군집으로 시작하여, 가장 가까운 군집들을 반복적으로 병합해..
앞에 글에서 비지도학습의 기법들에 데하여 알아보았습니다.이번에는 그 중 하나인 K-Means Clustering (K-평균 클러스터링)에 데하여 알아보겠습니다. K-평균 클러스터링은 데이터를 K개의 군집으로 나누어 각 데이터 포인트를 유사한 특성을 가진 그룹으로 묶는 군집화 알고리즘입니다.이를 통해 데이터의 구조를 이해하고, 데이터 분석 및 시각화를 용이하게 할 수 있습니다.K-Means Clustering의 특징K-평균 클러스터링의 특징은 여러개가 있습니다. 한번 알아보겠습니다. 1. 군집 수 K: 사용자가 군집 수 K를 사전에 정의해야 하며, 이 값은 모델의 성능에 직결되는 중요한 하이퍼파라미터입니다.적절한 K를 선택하는 것이 군집화의 성공 여부에 큰 영향을 미칩니다. 2. 거리 기반 알고리즘: K..
이번에는 비지도 학습에 데하여 한번 알아보겠습니다.비지도 학습(Unsupervised Learning)은 레이블이 없는 데이터를 사용하여 데이터 내의 패턴이나 구조를 발견하는 머신러닝 방법입니다.이 학습 방식은 데이터에 사전 지식 없이 데이터를 분석하고, 그 안에 숨겨진 의미 있는 구조나 관계를 발견하는 데 중점을 둡니다.Unsupervised Learning (비지도 학습) 주요 특징레이블 없음: 비지도 학습은 레이블이나 목표 변수가 없는 입력 데이터만을 사용합니다. 이는 레이블링이 어렵거나 불가능한 대규모 데이터셋을 다룰 때 유용합니다.패턴 발견: 비지도 학습은 데이터 내에서 숨겨진 패턴이나 구조를 탐색하여 데이터 간의 관계를 이해하려고 합니다. 이러한 패턴 발견은 데이터의 본질적인 특성을 이해하는 ..
이번에는 다층 퍼셉트론(Multilayer Perceptron, MLP)에 데하여 알아보겠습니다. 다층 퍼셉트론(Multilayer Perceptron, MLP)다층 퍼셉트론(Multilayer Perceptron, MLP)은 기본적인 인공 신경망의 형태 중 하나로, 특히 복잡한 비선형 관계와 패턴을 학습할 수 있는 능력으로 인해 분류 및 회귀 문제에 널리 사용됩니다. 기본 구조는 입력층, 하나 이상의 은닉층, 그리고 출력층으로 이루어진 FeedForward 신경망 이며, 각 층은 여러 뉴런으로 구성됩니다.또한 각 뉴런은 이전층의 뉴런으로부터 입력을 받아 가중치를 적용하고, 활성화 함수를 통해 출력을 생성합니다.다층 퍼셉트론(Multilayer Perceptron, MLP)의 구조다층 퍼셉트론의 구조는 ..
이번에는 Random Forest (랜덤 포레스트) 기법에 데하여 한번 알아보겠습니다. 랜덤 포레스트(Random Forest)는 결정 트리의 앙상블 방법 중 하나로, 여러 개의 결정 트리를 생성하고 그 예측을 결합하여 더욱 강력하고 안정적인 모델을 만드는 방법입니다. 이 방법은 특히 분류와 회귀 문제에 효과적이며, 개별 결정 트리의 과적합 문제를 극복하고, 전체적인 예측 성능을 향상시키는 데 도움을 줍니다. Random Forest (랜덤 포레스트)의 주요 특징다양성 (Diversity)랜덤 포레스트는 각각의 결정 트리가 데이터의 서로 다른 부분집합과 특성을 사용하여 학습합니다. 이는 각 트리가 독립적으로 다른 패턴을 학습하도록 하여 모델 전체의 다양성을 높입니다.이러한 접근 방식은 트리 간의 상관관계..
이번에는 Decision Tree (결정 트리)에 데하여 알아보겠습니다. 결정트리(Decision Tree)는 분류와 회귀 문제에 모두 사용될 수 있는 지도학습 알고리즘입니다.이 모델은 데이터를 트리 구조로 분할하여 예측을 수행하며, 각 내부 노드는 특정 조건에 따른 데이터 분할을 나타내고, 가지(branch)는 그 조건의 결과를 나타내며, 최종 리프 노드(leaf node)는 예측 값을 제공합니다.Decision Tree의 주요 특징직관성: 결정 트리는 시각적으로 표현할 수 있어 이해가 쉽습니다.비모수적 방법: 데이터의 분포에 대해 특정 가정을 하지 않으므로 다양한 데이터셋에 적용 가능합니다.해석 용이성: 모델이 어떻게 결정을 내렸는지 쉽게 해석할 수 있습니다.Decision Tree의 기본 원리노드와..
이번에는 Support Vector Machine (서포트 벡터 머신)에 데하여 한번 알아보겠습니다. 서포트 벡터 머신(Support Vector Machine, SVM)은 복잡한 데이터셋에서도 효과적인 분류를 수행할 수 있는 강력한 지도학습 알고리즘입니다. 이 알고리즘은 데이터를 분리하는 최적의 초평면(결정 경계)을 찾아내는 것을 목표로 합니다.SVM의 주요 특징과 원리를 자세히 살펴보겠습니다. Support Vector Machine (SVM)의 주요 특징결정 초평면(Decision Hyperplane): 두 클래스를 분리하는 가장 좋은 초평면을 찾습니다. 이 평면은 두 클래스 간의 마진(거리)을 최대화합니다.w: 초평면의 법선 벡터, x: 데이터 포인트, b: 절편w * x + b = 0서포트 벡터..