My Dev & Engineering Repository

시계열 데이터

시계열 데이터는 시간 순서대로 정렬된 데이터 포인트의 연속입니다.

시계열 데이터의 특성

추세 (Trend): 장기적인 데이터 증가 또는 감소 경향을 나타냅니다.
- 예: 회사 매출이 해마다 증가하는 경우.
계절성 (Seasonality): 특정 시간 패턴이 반복되는 현상으로, 주기적인 변동을 포함합니다.
- 예: 여름철 아이스크림 판매량 증가.
주기성 (Cyclicality): 불규칙적인 간격으로 반복되는 변동을 나타냅니다.
- 예: 경제 호황과 불황 주기.
잡음 (Noise): 데이터에 포함된 불규칙한 변동으로, 예측에 방해가 되는 요소입니다.

시계열 분석 방법

시계열 분해는 시계열 데이터를 구성하는 여러 요소(추세, 계절성, 주기성, 잡음)를 분리하여 분석하는 방법입니다.

가법 모형 (Additive Model): 시계열 데이터를 개별 요인의 효과를 구분하고 함께 더하여 모형화합니다.
- 예: 시계열 = 추세 + 계절성 + 순환성 + 잡음
승법 모형 (Multiplicative Model): 데이터가 증가하면 계절 패턴도 증가한다고 가정하는 모형입니다.
- 예: 시계열 = 추세 * 계절성 * 순환성 * 잡음

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.tsa.seasonal import seasonal_decompose

# 가상의 시계열 데이터 생성
date_rng = pd.date_range(start='1/1/2020', end='1/1/2022', freq='M')
data = pd.Series(np.random.randn(len(date_rng)), index=date_rng)

# 시계열 분해
result = seasonal_decompose(data, model='additive')
result.plot()
plt.show()

통계적 방법

1. 이동 평균 (Moving Average): 데이터의 단기 변동을 평활화하여 추세를 파악합니다.

data['moving_avg'] = data.rolling(window=3).mean()
data.plot()
plt.show()

2.지수 평활 (Exponential Smoothing): 최근 관측값에 더 큰 가중치를 두는 방법입니다.

from statsmodels.tsa.holtwinters import SimpleExpSmoothing

model = SimpleExpSmoothing(data).fit()
data['exp_smoothing'] = model.fittedvalues
data.plot()
plt.show()

시계열 예측

ARIMA 모델 (Autoregressive Integrated Moving Average): 시계열 데이터의 예측에 자주 사용되는 모델입니다.

from statsmodels.tsa.arima.model import ARIMA

model = ARIMA(data, order=(5,1,0))
model_fit = model.fit()
data['forecast'] = model_fit.predict(start=len(data), end=len(data)+12, dynamic=True)
data[['value', 'forecast']].plot()
plt.show()

시계열 데이터를 다룰 때 발생하는 주요 문제와 해결책

문제

시계열 데이터를 다룰때는 보통 2가지의 문제가 발생합니다. 결측치(Missing Values), 이상치(Outliers). 2가지의 문제가 발생합니다. 한번 설명해 보겠습니다.

결측치 (Missing Values): 특정 시점의 데이터가 누락되는 문제입니다.
이상치 (Outliers): 예상 범위를 벗어나는 데이터 포인트로, 일관성 없는 데이터 포인트를 의미합니다.
그러면 이 문제들을 어떻게 해결 해야 할까요? 해결책을 한번 제시해 보겠습니다.

해결책

1. 결측치 처리

보간법 (Interpolation): 결측치를 주변 데이터로 보간하여 채웁니다.

data.interpolate(method='linear', inplace=True)

평균 대체: 결측치를 해당 열의 평균값으로 대체합니다.

data.fillna(data.mean(), inplace=True)

2. 이상치 탐지 및 처리

Z-점수와 IQR 방법을 사용하여 이상치를 탐지하고 처리합니다.

Z-점수 (Z-score)

from scipy import stats

data['z_score'] = np.abs(stats.zscore(data['value']))
outliers = data[data['z_score'] > 3]

IQR (Interquartile Range) 방법

Q1 = data['value'].quantile(0.25)
Q3 = data['value'].quantile(0.75)
IQR = Q3 - Q1
outliers = data[(data['value'] < (Q1 - 1.5 * IQR)) | (data['value'] > (Q3 + 1.5 * IQR))]

3. 차분 (Differencing)

추세 및 계절성을 제거하여 시계열을 안정화합니다.

data['differenced'] = data['value'].diff()
data['differenced'].dropna().plot()
plt.show()

다변량 분석

다변량 분석은 여러 변수 간의 관계를 동시에 분석하는 통계 기법입니다.

여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 한번에 분석하는 통계적 기법 입니다.
이는 복잡한 데이터 집합에서 변수들 간의 상호작용을 이해하고, 중요한 패턴과 인사이트를 도출하는 데 유용합니다.

다변량 데이터의 이해

다변량 분석은 변수들 간의 상호작용과 복잡한 관계를 이해하고 예측하는 데 사용됩니다.

변수들 간의 상호작용 파악
- 다변량 분석은 단변량 분석에서는 간과할 수 있는 변수들 간의 상호작용을 파악할 수 있습니다. 이는 변수가 독립적으로가 아니라 상호 의존적으로 작용할 때 특히 중요합니다.
- 예: 소비자 데이터에서 연령과 소득 수준이 동시에 구매 패턴에 영향을 미칠 수 있습니다.
복잡한 관계 포착
- 다변량 데이터는 변수들 간의 복잡한 관계를 포착할 수 있어, 단순한 관계 분석을 넘어 더 깊은 인사이트를 제공합니다.
- 예: 고객 세분화를 통해 고객들의 다양한 특성을 기반으로 그룹을 나누고, 각 그룹의 행동 패턴을 분석할 수 있습니다.
패턴 예측
- 다변량 분석 기법을 사용하여 데이터에서 패턴을 예측하고, 미래의 행동이나 결과를 예측할 수 있습니다.
- 예: 여러 변수를 고려하여 소비자 구매 행동을 예측하고, 이를 기반으로 마케팅 전략을 세울 수 있습니다.

상관 분석

상관 분석에서 두개의 상관계수인 피어슨, 스피어만 상관계수에 데하여 알아 보겠습니다.

피어슨 상관계수 (Pearson Correlation)

정의: 두 변수 간의 선형 관계의 강도와 방향을 측정하는 통계적 방법입니다.
특징:
- 연속적인 수치 데이터 간의 선형 관계를 측정합니다.
- 데이터가 연속적이고 정규 분포를 따르는 경우에 적합합니다.
계산 방법:
- 피어슨 상관계수는 -1에서 1 사이의 값을 가지며, 1은 완벽한 양의 상관관계, -1은 완벽한 음의 상관관계, 0은 상관관계가 없음을 의미합니다.

import numpy as np
from scipy.stats import pearsonr

# 예제 데이터
x = np.random.rand(100)
y = np.random.rand(100)

# 피어슨 상관계수 계산
corr, _ = pearsonr(x, y)
print(f'Pearson correlation coefficient: {corr}')

# Pearson correlation coefficient: -0.09606113577342046

스피어만 상관계수 (Spearman Correlation)

정의: 두 변수의 순위에 기반하여 관계를 측정하는 비모수적 방법입니다.
특징:
- 순위 기반의 비선형 관계를 측정합니다.
- 데이터가 정규 분포를 따르지 않거나 순위형 데이터일 때 유용합니다.
계산 방법:
- 스피어만 상관계수는 -1에서 1 사이의 값을 가지며, 1은 완벽한 양의 순위 상관관계, -1은 완벽한 음의 순위 상관관계, 0은 순위 상관관계가 없음을 의미합니다.

from scipy.stats import spearmanr

# 예제 데이터
x = np.random.rand(100)
y = np.random.rand(100)

# 스피어만 상관계수 계산
corr, _ = spearmanr(x, y)
print(f'Spearman correlation coefficient: {corr}')

# Spearman correlation coefficient: 0.07144314431443144

주성분 분석 (PCA, Principal Component Analysis)

주성분 분석(PCA)은 고차원 데이터의 차원을 축소하여 가장 중요한 특성을 추출하는 통계 기법입니다.

PCA는 데이터의 분산이 최대가 되는 방향을 찾아, 중요한 정보를 유지하면서 차원을 축소합니다.
한번 주성분 분석의 단계를 한번 설명해 보겠습니다.

1. 데이터 표준화

각 변수의 평균을 0, 표준편차를 1로 맞추어 모든 변수의 비중을 맞춥니다.
이는 변수가 서로 다른 단위를 가질 때, 분석 결과에 미치는 영향을 줄이기 위해 필요합니다.

from sklearn.preprocessing import StandardScaler

# 예제 데이터 생성
import numpy as np
import pandas as pd

data = np.random.rand(100, 5)
df = pd.DataFrame(data, columns=['A', 'B', 'C', 'D', 'E'])

# 데이터 표준화
scaler = StandardScaler()
data_std = scaler.fit_transform(df)

2. 공분산 행렬 계산

표준화된 데이터의 변수들 간의 선형 관계를 나타내는 공분산 행렬을 계산합니다.

# 공분산 행렬 계산
cov_matrix = np.cov(data_std.T)
print("Covariance Matrix:\n", cov_matrix)

3. 고유값 분해

공분산 행렬의 고유값과 고유벡터를 계산합니다.
고유벡터는 데이터의 분산이 최대인 방향을 나타내며, 고유값은 그 분산의 크기를 나타냅니다.

# 고유값과 고유벡터 계산
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)
print("Eigenvalues:\n", eigenvalues)
print("Eigenvectors:\n", eigenvectors)

4. 주성분 선택

가장 큰 고유값에 해당하는 고유벡터부터 순서대로 주성분으로 선택합니다.
일반적으로, 전체 분산의 대부분을 설명하는 몇 개의 주성분만 선택합니다.

# 고유값 정렬
idx = np.argsort(eigenvalues)[::-1]
eigenvalues = eigenvalues[idx]
eigenvectors = eigenvectors[:, idx]

# 주성분 선택 (예: 2개)
n_components = 2
selected_eigenvectors = eigenvectors[:, :n_components]
print("Selected Eigenvectors:\n", selected_eigenvectors)

5. 새로운 특성 공간으로 데이터 투영

선택된 주성분에 원래 데이터를 투영하여 차원을 축소합니다.
이를 통해 데이터의 주요 정보를 유지하면서 차원을 줄일 수 있습니다.

# 데이터 투영
principal_components = data_std.dot(selected_eigenvectors)
print("Principal Components:\n", principal_components)

요인 분석 (Factor Analysis)

요인 분석은 변수들 사이의 관계를 분석하여 몇 가지 잠재적인 요인으로 요약하는 통계적 방법입니다.

이 방법은 관측된 변수들 뒤에 숨어 있는 잠재적 요인을 발견하는 데 중점을 둡니다.
요인 분석은 데이터의 잠재적 구조를 모델링하고, 관측된 변수들의 변동성을 설명할 수 있는 공통 요인을 찾아내어 변수의 수를 줄이고 데이터의 구조를 이해하는 데 도움을 줍니다.

요인 분석의 특징

요인 분석은 주로 3가지의 특징이 있습니다.

잠재적 요인 발견: 변수들이 하나 이상의 비관측된 잠재 변수(요인)에 의해 영향을 받는다는 가정 하에 분석이 이루어집니다.
PCA와의 차이점: PCA는 주로 데이터의 분산을 최대화하는 방향을 찾는 데 중점을 두는 반면, 요인 분석은 데이터 내 잠재적 구조를 모델링하는 데 초점을 맞춥니다.
응용 분야: 심리학, 사회과학, 마케팅 등에서 설문지 데이터의 구조를 분석하는 데 주로 사용됩니다.

from sklearn.decomposition import FactorAnalysis

# 요인 분석 적용
fa = FactorAnalysis(n_components=2)
factors = fa.fit_transform(data_std)

# 결과 시각화
import matplotlib.pyplot as plt

plt.scatter(factors[:, 0], factors[:, 1])
plt.xlabel('Factor 1')
plt.ylabel('Factor 2')
plt.title('Factor Analysis Result')
plt.show()

요인 분석의 목적

요인 분석의 목적에 데하여 설명을 해보겠습니다.

변수 축소: 여러 개의 변수들을 하나의 요인으로 묶어 데이터의 차원을 줄입니다.
불필요한 변수 제거: 요인에 포함되지 않거나 중요도가 낮은 변수를 탐색하여 제거할 수 있습니다.
변수 특성 파악: 관련된 변수들이 묶여 요인들의 상호 독립적인 특성을 파악할 수 있습니다.

저작자표시 비영리 동일조건

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

[Data Analysis] 기본 차트 유형 및 사용법 (0)	2024.07.25
[Data Analysis] Data Visualization (데이터 시각화) & 시각적 인지 (0)	2024.07.25
[Data Analysis] 가설 검정과 A/B Test, 시나리오 (0)	2024.07.20
[Data Analysis] 기초 통계, 상관 & 인과관계 (0)	2024.07.18
[Data Analysis] 데이터의 종류와 속성 & 데이터 탐색 (EDA) (0)	2024.07.18

Notice

시계열 데이터

시계열 데이터의 특성

시계열 분석 방법

통계적 방법

시계열 예측

시계열 데이터를 다룰 때 발생하는 주요 문제와 해결책

문제

해결책

1. 결측치 처리

2. 이상치 탐지 및 처리

3. 차분 (Differencing)

다변량 분석

다변량 데이터의 이해

상관 분석

피어슨 상관계수 (Pearson Correlation)

스피어만 상관계수 (Spearman Correlation)

주성분 분석 (PCA, Principal Component Analysis)

1. 데이터 표준화

2. 공분산 행렬 계산

3. 고유값 분해

4. 주성분 선택

5. 새로운 특성 공간으로 데이터 투영

요인 분석 (Factor Analysis)

요인 분석의 특징

요인 분석의 목적

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

시계열 데이터

시계열 데이터의 특성

시계열 분석 방법

통계적 방법

시계열 예측

시계열 데이터를 다룰 때 발생하는 주요 문제와 해결책

문제

해결책

1. 결측치 처리

2. 이상치 탐지 및 처리

3. 차분 (Differencing)

다변량 분석

다변량 데이터의 이해

상관 분석

피어슨 상관계수 (Pearson Correlation)

스피어만 상관계수 (Spearman Correlation)

주성분 분석 (PCA, Principal Component Analysis)

1. 데이터 표준화

2. 공분산 행렬 계산

3. 고유값 분해

4. 주성분 선택

5. 새로운 특성 공간으로 데이터 투영

요인 분석 (Factor Analysis)

요인 분석의 특징

요인 분석의 목적

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

티스토리툴바