My Dev & Engineering Repository

기초 통계 (basic statistics)

기술 통계 (Descriptive Statistics)

기술 통계(Descriptive Statistics)는 데이터 집합의 중심 경향, 분산도 및 전반적인 분포를 요약하여
데이터의 일반적인 형태와 특성을 빠르게 파악하는 데 사용되는 통계적 수치입니다.

이는 데이터 분석의 초기 단계에서 데이터의 기본적인 특성을 이해하고 요약하는 데 중요한 역할을 합니다.

주요 기술 통계 지표

중심 경향성 (Measures of Central Tendency)

평균 (Mean): 데이터의 모든 값을 더한 후 데이터의 개수로 나눈 값으로, 데이터의 중심을 나타냅니다.

import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
mean_value = data.mean()
print(f'평균: {mean_value}')

# 평균: 3.0

중앙값 (Median): 데이터셋을 정렬했을 때 중앙에 위치한 값으로, 데이터의 중간 값을 나타냅니다.

median_value = data.median()
print(f'중앙값: {median_value}')

# 중앙값: 3.0

최빈값 (Mode): 데이터셋에서 가장 자주 나타나는 값입니다.

mode_value = data.mode()[0]
print(f'최빈값: {mode_value}')

# 최빈값: 1

분산성 (Measures of Dispersion)

범위 (Range): 데이터셋에서 가장 큰 값과 가장 작은 값의 차이입니다.

range_value = data.max() - data.min()
print(f'범위: {range_value}')

# 범위: 4

분산 (Variance): 데이터의 값들이 평균으로부터 얼마나 떨어져 있는지를 제곱하여 평균한 값입니다.

variance_value = data.var()
print(f'분산: {variance_value}')

# 분산: 2.5

표준편차 (Standard Deviation): 분산의 제곱근으로, 데이터의 값들이 평균으로부터 얼마나 떨어져 있는지를 나타냅니다.

std_dev = data.std()
print(f'표준편차: {std_dev}')

# 표준편차: 1.5811388300841898

사분위수 (Quartiles): 데이터셋을 네 부분으로 나누는 값들로, Q1(25번째 백분위수), Q2(50번째 백분위수, 중앙값), Q3(75번째 백분위수)를 포함합니다.

Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
print(f'Q1: {Q1}, Q3: {Q3}, IQR: {IQR}')

# Q1: 2.0, Q3: 4.0, IQR: 2.0

형태 (Shape)

왜도 (Skewness): 데이터의 비대칭도를 나타내는 지표로, 값이 0에 가까울수록 대칭에 가까움을 의미합니다. 양의 왜도는 오른쪽으로 치우침을, 음의 왜도는 왼쪽으로 치우침을 나타냅니다.

skewness = data.skew()
print(f'왜도: {skewness}')

# 왜도: 0.0

첨도 (Kurtosis): 데이터의 봉우리의 높이를 나타내는 지표로, 값이 3보다 크면 뾰족한 분포를, 3보다 작으면 평평한 분포를 의미합니다.

kurtosis = data.kurt()
print(f'첨도: {kurtosis}')

# 첨도: -1.2000000000000002

Example: 데이터의 '정상 범위' 설정

데이터의 ‘정상 범위’를 설정하기 위해 데이터의 평균과 표준편차를 사용해 보겠습니다.

데이터의 평균과 표준편차를 사용하여 '정상 범위'를 설정할 수 있습니다.
예를 들어, 평균 ± 1표준편차 범위는 데이터의 약 68%를 포함하며, 이는 데이터가 정규 분포를 따른다고 가정할 때 유용합니다.

mean_value = data.mean()
std_dev = data.std()

normal_range_lower = mean_value - std_dev
normal_range_upper = mean_value + std_dev

print(f'정상 범위: {normal_range_lower} ~ {normal_range_upper}')

# 정상 범위: 1.4188611699158102 ~ 4.58113883008419

Correlation (상관관계)

상관관계는 두 변수 간의 관계를 나타내며, 한 변수의 변화가 다른 변수의 변화와 어떻게 연관되어 있는지를 나타내는 지표입니다.

상관관계는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다.
그러면 주요 상관 관계들에 데하여 알아보겠습니다.

피어슨 상관 계수 (Pearson Correlation Coefficient)

두 변수 간의 선형 관계를 측정하는 지표로, -1에서 1 사이의 값을 가집니다.
1에 가까울수록 강한 양의 상관관계를, -1에 가까울수록 강한 음의 상관관계를, 0에 가까울수록 상관관계가 없음을 의미합니다.

import pandas as pd
from scipy.stats import pearsonr

data = pd.DataFrame({
    'x': [1, 2, 3, 4, 5],
    'y': [2, 3, 5, 7, 11]
})

pearson_corr, _ = pearsonr(data['x'], data['y'])
print(f'피어슨 상관 계수: {pearson_corr}')

# 피어슨 상관 계수: 0.9722718241315029

스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)

두 변수 간의 비선형 관계를 측정하는 지표로, 데이터의 순위를 기반으로 계산합니다.
-1에서 1 사이의 값을 가지며, 피어슨 상관 계수와 유사한 의미를 가집니다.

from scipy.stats import spearmanr

spearman_corr, _ = spearmanr(data['x'], data['y'])
print(f'스피어만 순위 상관 계수: {spearman_corr}')

# 스피어만 순위 상관 계수: 0.9999999999999999

인과관계 (Causality)

인과관계는 한 변수(원인)의 변화가 다른 변수(결과)의 변화를 유발하는 관계를 나타냅니다.

상관관계와는 달리, 인과관계는 두 변수 간의 직접적인 원인-결과 관계를 의미합니다.

실험 설계 (Experimental Design)

통제된 환경에서 변수를 조작하여 원인과 결과의 관계를 직접 관찰하는 방법입니다.
무작위 대조 실험(Randomized Controlled Trials, RCT)이 대표적인 예입니다.
예시: 신약의 효과를 테스트하기 위해 실험군과 대조군을 무작위로 나누어 약물 투여와 효과를 비교합니다.

회귀 분석 (Regression Analysis)

한 변수(종속 변수)에 대한 다른 변수(독립 변수)의 영향을 측정하여 인과관계를 추론하는 통계적 방법입니다.

import statsmodels.api as sm

X = data['x']
Y = data['y']
X = sm.add_constant(X)  # 상수항 추가
model = sm.OLS(Y, X).fit()
print(model.summary())

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.945
Model:                            OLS   Adj. R-squared:                  0.927
Method:                 Least Squares   F-statistic:                     51.86
Date:                Thu, 18 Jul 2024   Prob (F-statistic):            0.00552
Time:                        07:34:48   Log-Likelihood:                -5.6451
No. Observations:                   5   AIC:                             15.29
Df Residuals:                       3   BIC:                             14.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.0000      1.013     -0.987      0.396      -4.225       2.225
x              2.2000      0.306      7.201      0.006       1.228       3.172
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.700
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.730
Skew:                           0.344   Prob(JB):                        0.694
Kurtosis:                       1.259   Cond. No.                         8.37
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
/usr/local/lib/python3.10/dist-packages/statsmodels/stats/stattools.py:74: ValueWarning: omni_normtest is not valid with less than 8 observations; 5 samples were given.
  warn("omni_normtest is not valid with less than 8 observations; %i "

경로 분석 (Path Analysis)

여러 변수 간의 인과관계를 동시에 분석하여 인과 경로를 추론하는 방법입니다.
구조 방정식 모델링(Structural Equation Modeling, SEM)도 이에 포함됩니다.

import pandas as pd
import numpy as np
from statsmodels.graphics.tsaplots import plot_pacf
import matplotlib.pyplot as plt

# 예제 데이터 생성
data = pd.DataFrame({
    'x': np.random.randn(50)  # 50개의 임의의 데이터 생성
})

# 시계열 데이터의 부분 자기상관함수(PACF) 분석
lags = min(len(data['x']) // 2 - 1, 20)
plot_pacf(data['x'], lags=lags)
plt.show()

상관관계와 인과관계는 뭐가 다른가요?

상관관계 (Correlation)

상관관계는 두 변수 간의 관계를 수치적으로 설명하는 지표로,
한 변수의 변화가 다른 변수의 변화와 어떻게 연관되어 있는지를 나타냅니다.

그러나 상관관계는 두 변수 간의 인과관계를 설명하지는 않습니다.

즉, 상관관계가 있다고 해서 한 변수가 다른 변수를 직접적으로 유발한다고 결론지을 수 없습니다.

정의: 두 변수 간의 관계를 수치적으로 설명.
설명: 상관관계는 변수 간의 연관성을 나타내지만, 인과관계를 설명하지 않음.
예시: 아이스크림 판매량과 수영장 사고 건수 간의 상관관계. 두 변수는 모두 여름철에 증가하지만, 아이스크림 판매량이 수영장 사고를 직접 유발하지는 않음.

인과관계 (Causality)

인과관계는 한 변수(원인)의 변화가 다른 변수(결과)의 변화를 직접적으로 유발한다는 것을 의미합니다.

인과관계를 증명하기 위해서는 실험 설계, 회귀 분석, 경로 분석 등의 방법을 사용하여 변수 간의 직접적인 원인-결과 관계를 밝혀야 합니다.

정의: 변수 A의 변화가 변수 B의 변화를 직접적으로 유발함.
설명: 인과관계는 두 변수 간의 원인과 결과의 관계를 설명.
예시: 흡연과 폐암 발생률 간의 인과관계. 연구를 통해 흡연이 폐암 발생의 직접적인 원인임을 증명함.

상관관계 실제 예시 (Example)

아이스크림 판매량과 수영장 사고 건수 간의 상관관계.
설명: 여름철에 아이스크림 판매량이 증가할 때 수영장 사고 건수도 증가하는 경향이 있습니다.
- 이는 두 변수 간에 상관관계가 있음을 나타내지만, 아이스크림 판매량이 수영장 사고를 직접적으로 유발한다고 결론지을 수는 없습니다.
- 두 변수는 모두 더운 날씨라는 공통된 외부 요인에 의해 영향을 받습니다.

import matplotlib.pyplot as plt

months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']
ice_cream_sales = [20, 25, 30, 40, 60, 80, 100, 90, 70, 50, 30, 20]
pool_accidents = [1, 1, 2, 3, 5, 7, 9, 8, 6, 4, 2, 1]

plt.plot(months, ice_cream_sales, label='Ice Cream Sales')
plt.plot(months, pool_accidents, label='Pool Accidents')
plt.xlabel('Month')
plt.ylabel('Count')
plt.title('Ice Cream Sales vs Pool Accidents')
plt.legend()
plt.show()

인과관계 실제 예시 (Example)

흡연과 폐암 발생률 간의 인과관계.
설명: 연구와 실험을 통해 흡연이 폐암 발생의 직접적인 원인임이 증명되었습니다.
이는 흡연이 폐암 발생을 직접적으로 유발하는 인과관계가 있음을 나타냅니다.
흡연을 하는 사람들이 비흡연자들에 비해 폐암 발생률이 유의미하게 높다는 결과는 인과관계를 뒷받침합니다.

import matplotlib.pyplot as plt

groups = ['Non-smokers', 'Smokers']
lung_cancer_rates = [10, 70]  # 단위: 100,000명 당 발생률

plt.bar(groups, lung_cancer_rates, color=['blue', 'red'])
plt.xlabel('Group')
plt.ylabel('Lung Cancer Rate')
plt.title('Lung Cancer Rates: Smokers vs Non-smokers')
plt.show()

비즈니스 의사결정에서의 응용

상관관계의 응용

상관관계를 통해 비즈니스 데이터에서 패턴과 트렌드를 식별할 수 있습니다.
이는 데이터 간의 관계를 이해하고, 이를 기반으로 예측하고 전략을 세우는 데 중요한 역할을 합니다.

비즈니스 데이터에서 패턴과 트렌드 식별: 상관관계를 분석함으로써 변수 간의 관계를 파악하고, 이를 기반으로 미래의 트렌드를 예측할 수 있습니다. 이는 제품 판매 예측, 시장 동향 분석, 고객 행동 분석 등에 유용합니다.
실무 예시
- 제품 판매 예측: 특정 시즌 동안의 판매 데이터를 분석하여 향후 판매량을 예측하고, 재고 관리 및 생산 계획을 최적화할 수 있습니다.
- 시장 동향 분석: 소셜 미디어 데이터를 분석하여 소비자 관심의 변화를 파악하고, 이를 기반으로 마케팅 전략을 조정할 수 있습니다.

인과관계의 응용

인과관계를 통해 마케팅 캠페인, 정책 변경 등의 효과를 분석할 수 있습니다.
이는 특정 변화가 비즈니스 결과에 미치는 영향을 이해하고, 이를 기반으로 의사결정을 내리는 데 필수적입니다.

마케팅 캠페인, 정책 변경 등의 효과 분석: 인과관계를 분석함으로써 특정 전략이나 변화가 실제로 어떤 영향을 미쳤는지 평가할 수 있습니다. 이를 통해 효과적인 전략을 유지하고, 비효율적인 전략을 개선할 수 있습니다.
실무 예시
- 마케팅 캠페인 효과 분석: 새로운 마케팅 캠페인의 효과를 측정하여, 캠페인이 매출 증가에 미친 영향을 평가하고, 성공적인 캠페인 전략을 반복할 수 있습니다.
- 정책 변경 효과 분석: 새로운 정책 도입 후, 고객 만족도와 매출에 미친 영향을 분석하여 정책의 효과를 평가하고, 필요한 조치를 취할 수 있습니다.

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

[Data Analysis] 시계열 데이터 & 다변량 분석 (0)	2024.07.21
[Data Analysis] 가설 검정과 A/B Test, 시나리오 (0)	2024.07.20
[Data Analysis] 데이터의 종류와 속성 & 데이터 탐색 (EDA) (0)	2024.07.18
[Data Analysis] Data Analysis - 데이터 분석 (0)	2024.07.17
[Data Analysis] 데이터 전처리 (Data Pre-Processing) (0)	2024.07.12

Notice

기초 통계 (basic statistics)

기술 통계 (Descriptive Statistics)

주요 기술 통계 지표

중심 경향성 (Measures of Central Tendency)

분산성 (Measures of Dispersion)

형태 (Shape)

Example: 데이터의 '정상 범위' 설정

Correlation (상관관계)

피어슨 상관 계수 (Pearson Correlation Coefficient)

스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)

인과관계 (Causality)

실험 설계 (Experimental Design)

회귀 분석 (Regression Analysis)

경로 분석 (Path Analysis)

상관관계와 인과관계는 뭐가 다른가요?

상관관계 (Correlation)

인과관계 (Causality)

상관관계 실제 예시 (Example)

인과관계 실제 예시 (Example)

비즈니스 의사결정에서의 응용

상관관계의 응용

인과관계의 응용

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

기초 통계 (basic statistics)

기술 통계 (Descriptive Statistics)

주요 기술 통계 지표

중심 경향성 (Measures of Central Tendency)

분산성 (Measures of Dispersion)

형태 (Shape)

Example: 데이터의 '정상 범위' 설정

Correlation (상관관계)

피어슨 상관 계수 (Pearson Correlation Coefficient)

스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)

인과관계 (Causality)

실험 설계 (Experimental Design)

회귀 분석 (Regression Analysis)

경로 분석 (Path Analysis)

상관관계와 인과관계는 뭐가 다른가요?

상관관계 (Correlation)

인과관계 (Causality)

상관관계 실제 예시 (Example)

인과관계 실제 예시 (Example)

비즈니스 의사결정에서의 응용

상관관계의 응용

인과관계의 응용

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

티스토리툴바