A A
[Data Analysis] 기초 톡계, 상관 & 인과관계

기초 톡계 (basic statistics)

기술 톡계 (Descriptive Statistics)

기술 톡계(Descriptive Statistics)λŠ” 데이터 μ§‘ν•©μ˜ 쀑심 κ²½ν–₯, 뢄산도 및 μ „λ°˜μ μΈ 뢄포λ₯Ό μš”μ•½ν•˜μ—¬
λ°μ΄ν„°μ˜ 일반적인 ν˜•νƒœμ™€ νŠΉμ„±μ„ λΉ λ₯΄κ²Œ νŒŒμ•…ν•˜λŠ” 데 μ‚¬μš©λ˜λŠ” 톡계적 μˆ˜μΉ˜μž…λ‹ˆλ‹€.
  • μ΄λŠ” 데이터 λΆ„μ„μ˜ 초기 λ‹¨κ³„μ—μ„œ λ°μ΄ν„°μ˜ 기본적인 νŠΉμ„±μ„ μ΄ν•΄ν•˜κ³  μš”μ•½ν•˜λŠ” 데 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.

μ£Όμš” 기술 톡계 μ§€ν‘œ

쀑심 κ²½ν–₯μ„± (Measures of Central Tendency)

  • 평균 (Mean): λ°μ΄ν„°μ˜ λͺ¨λ“  값을 λ”ν•œ ν›„ λ°μ΄ν„°μ˜ 개수둜 λ‚˜λˆˆ κ°’μœΌλ‘œ, λ°μ΄ν„°μ˜ 쀑심을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
mean_value = data.mean()
print(f'평균: {mean_value}')

# 평균: 3.0
  • 쀑앙값 (Median): 데이터셋을 μ •λ ¬ν–ˆμ„ λ•Œ 쀑앙에 μœ„μΉ˜ν•œ κ°’μœΌλ‘œ, λ°μ΄ν„°μ˜ 쀑간 값을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
median_value = data.median()
print(f'쀑앙값: {median_value}')

# 쀑앙값: 3.0
  • μ΅œλΉˆκ°’ (Mode): λ°μ΄ν„°μ…‹μ—μ„œ κ°€μž₯ 자주 λ‚˜νƒ€λ‚˜λŠ” κ°’μž…λ‹ˆλ‹€.
mode_value = data.mode()[0]
print(f'μ΅œλΉˆκ°’: {mode_value}')

# μ΅œλΉˆκ°’: 1

λΆ„μ‚°μ„± (Measures of Dispersion)

  • λ²”μœ„ (Range): λ°μ΄ν„°μ…‹μ—μ„œ κ°€μž₯ 큰 κ°’κ³Ό κ°€μž₯ μž‘μ€ κ°’μ˜ μ°¨μ΄μž…λ‹ˆλ‹€.
range_value = data.max() - data.min()
print(f'λ²”μœ„: {range_value}')

# λ²”μœ„: 4
  • λΆ„μ‚° (Variance): λ°μ΄ν„°μ˜ 값듀이 ν‰κ· μœΌλ‘œλΆ€ν„° μ–Όλ§ˆλ‚˜ λ–¨μ–΄μ Έ μžˆλŠ”μ§€λ₯Ό μ œκ³±ν•˜μ—¬ ν‰κ· ν•œ κ°’μž…λ‹ˆλ‹€.
variance_value = data.var()
print(f'λΆ„μ‚°: {variance_value}')

# λΆ„μ‚°: 2.5
  • ν‘œμ€€νŽΈμ°¨ (Standard Deviation): λΆ„μ‚°μ˜ 제곱근으둜, λ°μ΄ν„°μ˜ 값듀이 ν‰κ· μœΌλ‘œλΆ€ν„° μ–Όλ§ˆλ‚˜ λ–¨μ–΄μ Έ μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
std_dev = data.std()
print(f'ν‘œμ€€νŽΈμ°¨: {std_dev}')

# ν‘œμ€€νŽΈμ°¨: 1.5811388300841898
  • μ‚¬λΆ„μœ„μˆ˜ (Quartiles): 데이터셋을 λ„€ λΆ€λΆ„μœΌλ‘œ λ‚˜λˆ„λŠ” κ°’λ“€λ‘œ, Q1(25번째 λ°±λΆ„μœ„μˆ˜), Q2(50번째 λ°±λΆ„μœ„μˆ˜, 쀑앙값), Q3(75번째 λ°±λΆ„μœ„μˆ˜)λ₯Ό ν¬ν•¨ν•©λ‹ˆλ‹€.
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
print(f'Q1: {Q1}, Q3: {Q3}, IQR: {IQR}')

# Q1: 2.0, Q3: 4.0, IQR: 2.0

ν˜•νƒœ (Shape)

  • μ™œλ„ (Skewness): λ°μ΄ν„°μ˜ λΉ„λŒ€μΉ­λ„λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œλ‘œ, 값이 0에 κ°€κΉŒμšΈμˆ˜λ‘ λŒ€μΉ­μ— κ°€κΉŒμ›€μ„ μ˜λ―Έν•©λ‹ˆλ‹€. μ–‘μ˜ μ™œλ„λŠ” 였λ₯Έμͺ½μœΌλ‘œ μΉ˜μš°μΉ¨μ„, 음의 μ™œλ„λŠ” μ™Όμͺ½μœΌλ‘œ μΉ˜μš°μΉ¨μ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
skewness = data.skew()
print(f'μ™œλ„: {skewness}')

# μ™œλ„: 0.0
  • 첨도 (Kurtosis): λ°μ΄ν„°μ˜ λ΄‰μš°λ¦¬μ˜ 높이λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œλ‘œ, 값이 3보닀 크면 λΎ°μ‘±ν•œ 뢄포λ₯Ό, 3보닀 μž‘μœΌλ©΄ ν‰ν‰ν•œ 뢄포λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
kurtosis = data.kurt()
print(f'첨도: {kurtosis}')

# 첨도: -1.2000000000000002

Example: λ°μ΄ν„°μ˜ '정상 λ²”μœ„' μ„€μ •

λ°μ΄ν„°μ˜ ‘정상 λ²”μœ„’λ₯Ό μ„€μ •ν•˜κΈ° μœ„ν•΄ λ°μ΄ν„°μ˜ 평균과 ν‘œμ€€νŽΈμ°¨λ₯Ό μ‚¬μš©ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€.
  • λ°μ΄ν„°μ˜ 평균과 ν‘œμ€€νŽΈμ°¨λ₯Ό μ‚¬μš©ν•˜μ—¬ '정상 λ²”μœ„'λ₯Ό μ„€μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 예λ₯Ό λ“€μ–΄, 평균 ± 1ν‘œμ€€νŽΈμ°¨ λ²”μœ„λŠ” λ°μ΄ν„°μ˜ μ•½ 68%λ₯Ό ν¬ν•¨ν•˜λ©°, μ΄λŠ” 데이터가 μ •κ·œ 뢄포λ₯Ό λ”°λ₯Έλ‹€κ³  κ°€μ •ν•  λ•Œ μœ μš©ν•©λ‹ˆλ‹€.
mean_value = data.mean()
std_dev = data.std()

normal_range_lower = mean_value - std_dev
normal_range_upper = mean_value + std_dev

print(f'정상 λ²”μœ„: {normal_range_lower} ~ {normal_range_upper}')

# 정상 λ²”μœ„: 1.4188611699158102 ~ 4.58113883008419

Correlation (상관관계)

μƒκ΄€κ΄€κ³„λŠ” 두 λ³€μˆ˜ κ°„μ˜ 관계λ₯Ό λ‚˜νƒ€λ‚΄λ©°, ν•œ λ³€μˆ˜μ˜ λ³€ν™”κ°€ λ‹€λ₯Έ λ³€μˆ˜μ˜ 변화와 μ–΄λ–»κ²Œ μ—°κ΄€λ˜μ–΄ μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œμž…λ‹ˆλ‹€.
  • μƒκ΄€κ΄€κ³„λŠ” 두 λ³€μˆ˜ κ°„μ˜ μ„ ν˜• κ΄€κ³„μ˜ 강도와 λ°©ν–₯을 μΈ‘μ •ν•©λ‹ˆλ‹€.
  • 그러면 μ£Όμš” 상관 관계듀에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

ν”Όμ–΄μŠ¨ 상관 κ³„μˆ˜ (Pearson Correlation Coefficient)

  • 두 λ³€μˆ˜ κ°„μ˜ μ„ ν˜• 관계λ₯Ό μΈ‘μ •ν•˜λŠ” μ§€ν‘œλ‘œ, -1μ—μ„œ 1 μ‚¬μ΄μ˜ 값을 κ°€μ§‘λ‹ˆλ‹€.
  • 1에 κ°€κΉŒμšΈμˆ˜λ‘ κ°•ν•œ μ–‘μ˜ 상관관계λ₯Ό, -1에 κ°€κΉŒμšΈμˆ˜λ‘ κ°•ν•œ 음의 상관관계λ₯Ό, 0에 κ°€κΉŒμšΈμˆ˜λ‘ 상관관계가 μ—†μŒμ„ μ˜λ―Έν•©λ‹ˆλ‹€.
import pandas as pd
from scipy.stats import pearsonr

data = pd.DataFrame({
    'x': [1, 2, 3, 4, 5],
    'y': [2, 3, 5, 7, 11]
})

pearson_corr, _ = pearsonr(data['x'], data['y'])
print(f'ν”Όμ–΄μŠ¨ 상관 κ³„μˆ˜: {pearson_corr}')

# ν”Όμ–΄μŠ¨ 상관 κ³„μˆ˜: 0.9722718241315029

μŠ€ν”Όμ–΄λ§Œ μˆœμœ„ 상관 κ³„μˆ˜ (Spearman's Rank Correlation Coefficient)

  • 두 λ³€μˆ˜ κ°„μ˜ λΉ„μ„ ν˜• 관계λ₯Ό μΈ‘μ •ν•˜λŠ” μ§€ν‘œλ‘œ, λ°μ΄ν„°μ˜ μˆœμœ„λ₯Ό 기반으둜 κ³„μ‚°ν•©λ‹ˆλ‹€.
  • -1μ—μ„œ 1 μ‚¬μ΄μ˜ 값을 가지며, ν”Όμ–΄μŠ¨ 상관 κ³„μˆ˜μ™€ μœ μ‚¬ν•œ 의미λ₯Ό κ°€μ§‘λ‹ˆλ‹€.
from scipy.stats import spearmanr

spearman_corr, _ = spearmanr(data['x'], data['y'])
print(f'μŠ€ν”Όμ–΄λ§Œ μˆœμœ„ 상관 κ³„μˆ˜: {spearman_corr}')

# μŠ€ν”Όμ–΄λ§Œ μˆœμœ„ 상관 κ³„μˆ˜: 0.9999999999999999

인과관계 (Causality)

μΈκ³Όκ΄€κ³„λŠ” ν•œ λ³€μˆ˜(원인)의 λ³€ν™”κ°€ λ‹€λ₯Έ λ³€μˆ˜(κ²°κ³Ό)의 λ³€ν™”λ₯Ό μœ λ°œν•˜λŠ” 관계λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
  • μƒκ΄€κ΄€κ³„μ™€λŠ” 달리, μΈκ³Όκ΄€κ³„λŠ” 두 λ³€μˆ˜ κ°„μ˜ 직접적인 원인-κ²°κ³Ό 관계λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.

μ‹€ν—˜ 섀계 (Experimental Design)

  • ν†΅μ œλœ ν™˜κ²½μ—μ„œ λ³€μˆ˜λ₯Ό μ‘°μž‘ν•˜μ—¬ 원인과 결과의 관계λ₯Ό 직접 κ΄€μ°°ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€.
  • λ¬΄μž‘μœ„ λŒ€μ‘° μ‹€ν—˜(Randomized Controlled Trials, RCT)이 λŒ€ν‘œμ μΈ μ˜ˆμž…λ‹ˆλ‹€.
  • μ˜ˆμ‹œ: μ‹ μ•½μ˜ 효과λ₯Ό ν…ŒμŠ€νŠΈν•˜κΈ° μœ„ν•΄ μ‹€ν—˜κ΅°κ³Ό λŒ€μ‘°κ΅°μ„ λ¬΄μž‘μœ„λ‘œ λ‚˜λˆ„μ–΄ μ•½λ¬Ό νˆ¬μ—¬μ™€ 효과λ₯Ό λΉ„κ΅ν•©λ‹ˆλ‹€.

νšŒκ·€ 뢄석 (Regression Analysis)

  • ν•œ λ³€μˆ˜(쒅속 λ³€μˆ˜)에 λŒ€ν•œ λ‹€λ₯Έ λ³€μˆ˜(독립 λ³€μˆ˜)의 영ν–₯을 μΈ‘μ •ν•˜μ—¬ 인과관계λ₯Ό μΆ”λ‘ ν•˜λŠ” 톡계적 λ°©λ²•μž…λ‹ˆλ‹€.
import statsmodels.api as sm

X = data['x']
Y = data['y']
X = sm.add_constant(X)  # μƒμˆ˜ν•­ μΆ”κ°€
model = sm.OLS(Y, X).fit()
print(model.summary())

 

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.945
Model:                            OLS   Adj. R-squared:                  0.927
Method:                 Least Squares   F-statistic:                     51.86
Date:                Thu, 18 Jul 2024   Prob (F-statistic):            0.00552
Time:                        07:34:48   Log-Likelihood:                -5.6451
No. Observations:                   5   AIC:                             15.29
Df Residuals:                       3   BIC:                             14.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.0000      1.013     -0.987      0.396      -4.225       2.225
x              2.2000      0.306      7.201      0.006       1.228       3.172
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.700
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.730
Skew:                           0.344   Prob(JB):                        0.694
Kurtosis:                       1.259   Cond. No.                         8.37
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
/usr/local/lib/python3.10/dist-packages/statsmodels/stats/stattools.py:74: ValueWarning: omni_normtest is not valid with less than 8 observations; 5 samples were given.
  warn("omni_normtest is not valid with less than 8 observations; %i "

경둜 뢄석 (Path Analysis)

  • μ—¬λŸ¬ λ³€μˆ˜ κ°„μ˜ 인과관계λ₯Ό λ™μ‹œμ— λΆ„μ„ν•˜μ—¬ 인과 경둜λ₯Ό μΆ”λ‘ ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€.
  • ꡬ쑰 방정식 λͺ¨λΈλ§(Structural Equation Modeling, SEM)도 이에 ν¬ν•¨λ©λ‹ˆλ‹€.
import pandas as pd
import numpy as np
from statsmodels.graphics.tsaplots import plot_pacf
import matplotlib.pyplot as plt

# 예제 데이터 생성
data = pd.DataFrame({
    'x': np.random.randn(50)  # 50개의 μž„μ˜μ˜ 데이터 생성
})

# μ‹œκ³„μ—΄ λ°μ΄ν„°μ˜ λΆ€λΆ„ μžκΈ°μƒκ΄€ν•¨μˆ˜(PACF) 뢄석
lags = min(len(data['x']) // 2 - 1, 20)
plot_pacf(data['x'], lags=lags)
plt.show()


상관관계와 μΈκ³Όκ΄€κ³„λŠ” 뭐가 λ‹€λ₯Έκ°€μš”?

상관관계 (Correlation)

μƒκ΄€κ΄€κ³„λŠ” 두 λ³€μˆ˜ κ°„μ˜ 관계λ₯Ό 수치적으둜 μ„€λͺ…ν•˜λŠ” μ§€ν‘œλ‘œ,
ν•œ λ³€μˆ˜μ˜ λ³€ν™”κ°€ λ‹€λ₯Έ λ³€μˆ˜μ˜ 변화와 μ–΄λ–»κ²Œ μ—°κ΄€λ˜μ–΄ μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

 

κ·ΈλŸ¬λ‚˜ μƒκ΄€κ΄€κ³„λŠ” 두 λ³€μˆ˜ κ°„μ˜ 인과관계λ₯Ό μ„€λͺ…ν•˜μ§€λŠ” μ•ŠμŠ΅λ‹ˆλ‹€.

즉, 상관관계가 μžˆλ‹€κ³  ν•΄μ„œ ν•œ λ³€μˆ˜κ°€ λ‹€λ₯Έ λ³€μˆ˜λ₯Ό μ§μ ‘μ μœΌλ‘œ μœ λ°œν•œλ‹€κ³  결둠지을 수 μ—†μŠ΅λ‹ˆλ‹€.

  • μ •μ˜: 두 λ³€μˆ˜ κ°„μ˜ 관계λ₯Ό 수치적으둜 μ„€λͺ….
  • μ„€λͺ…: μƒκ΄€κ΄€κ³„λŠ” λ³€μˆ˜ κ°„μ˜ 연관성을 λ‚˜νƒ€λ‚΄μ§€λ§Œ, 인과관계λ₯Ό μ„€λͺ…ν•˜μ§€ μ•ŠμŒ.
  • μ˜ˆμ‹œ: μ•„μ΄μŠ€ν¬λ¦Ό νŒλ§€λŸ‰κ³Ό 수영μž₯ 사고 건수 κ°„μ˜ 상관관계. 두 λ³€μˆ˜λŠ” λͺ¨λ‘ 여름철에 μ¦κ°€ν•˜μ§€λ§Œ, μ•„μ΄μŠ€ν¬λ¦Ό νŒλ§€λŸ‰μ΄ 수영μž₯ 사고λ₯Ό 직접 μœ λ°œν•˜μ§€λŠ” μ•ŠμŒ.

인과관계 (Causality)

μΈκ³Όκ΄€κ³„λŠ” ν•œ λ³€μˆ˜(원인)의 λ³€ν™”κ°€ λ‹€λ₯Έ λ³€μˆ˜(κ²°κ³Ό)의 λ³€ν™”λ₯Ό μ§μ ‘μ μœΌλ‘œ μœ λ°œν•œλ‹€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€.

 

인과관계λ₯Ό 증λͺ…ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ‹€ν—˜ 섀계, νšŒκ·€ 뢄석, 경둜 뢄석 λ“±μ˜ 방법을 μ‚¬μš©ν•˜μ—¬ λ³€μˆ˜ κ°„μ˜ 직접적인 원인-κ²°κ³Ό 관계λ₯Ό λ°ν˜€μ•Ό ν•©λ‹ˆλ‹€.

  • μ •μ˜: λ³€μˆ˜ A의 λ³€ν™”κ°€ λ³€μˆ˜ B의 λ³€ν™”λ₯Ό μ§μ ‘μ μœΌλ‘œ μœ λ°œν•¨.
  • μ„€λͺ…: μΈκ³Όκ΄€κ³„λŠ” 두 λ³€μˆ˜ κ°„μ˜ 원인과 결과의 관계λ₯Ό μ„€λͺ….
  • μ˜ˆμ‹œ: 흑연과 폐암 λ°œμƒλ₯  κ°„μ˜ 인과관계. 연ꡬλ₯Ό 톡해 흑연이 폐암 λ°œμƒμ˜ 직접적인 μ›μΈμž„μ„ 증λͺ…함.

상관관계 μ‹€μ œ μ˜ˆμ‹œ (Example)

  • μ•„μ΄μŠ€ν¬λ¦Ό νŒλ§€λŸ‰κ³Ό 수영μž₯ 사고 건수 κ°„μ˜ 상관관계.
  • μ„€λͺ…: 여름철에 μ•„μ΄μŠ€ν¬λ¦Ό νŒλ§€λŸ‰μ΄ 증가할 λ•Œ 수영μž₯ 사고 κ±΄μˆ˜λ„ μ¦κ°€ν•˜λŠ” κ²½ν–₯이 μžˆμŠ΅λ‹ˆλ‹€.
    • μ΄λŠ” 두 λ³€μˆ˜ 간에 상관관계가 μžˆμŒμ„ λ‚˜νƒ€λ‚΄μ§€λ§Œ, μ•„μ΄μŠ€ν¬λ¦Ό νŒλ§€λŸ‰μ΄ 수영μž₯ 사고λ₯Ό μ§μ ‘μ μœΌλ‘œ μœ λ°œν•œλ‹€κ³  결둠지을 μˆ˜λŠ” μ—†μŠ΅λ‹ˆλ‹€.
    • 두 λ³€μˆ˜λŠ” λͺ¨λ‘ λ”μš΄ λ‚ μ”¨λΌλŠ” κ³΅ν†΅λœ μ™ΈλΆ€ μš”μΈμ— μ˜ν•΄ 영ν–₯을 λ°›μŠ΅λ‹ˆλ‹€.
import matplotlib.pyplot as plt

months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']
ice_cream_sales = [20, 25, 30, 40, 60, 80, 100, 90, 70, 50, 30, 20]
pool_accidents = [1, 1, 2, 3, 5, 7, 9, 8, 6, 4, 2, 1]

plt.plot(months, ice_cream_sales, label='Ice Cream Sales')
plt.plot(months, pool_accidents, label='Pool Accidents')
plt.xlabel('Month')
plt.ylabel('Count')
plt.title('Ice Cream Sales vs Pool Accidents')
plt.legend()
plt.show()


인과관계 μ‹€μ œ μ˜ˆμ‹œ (Example)

  • 흑연과 폐암 λ°œμƒλ₯  κ°„μ˜ 인과관계.
  • μ„€λͺ…: 연ꡬ와 μ‹€ν—˜μ„ 톡해 흑연이 폐암 λ°œμƒμ˜ 직접적인 μ›μΈμž„μ΄ 증λͺ…λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
  • μ΄λŠ” 흑연이 폐암 λ°œμƒμ„ μ§μ ‘μ μœΌλ‘œ μœ λ°œν•˜λŠ” 인과관계가 μžˆμŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
  • 흑연을 ν•˜λŠ” μ‚¬λžŒλ“€μ΄ λΉ„ν‘μ—°μžλ“€μ— λΉ„ν•΄ 폐암 λ°œμƒλ₯ μ΄ μœ μ˜λ―Έν•˜κ²Œ λ†’λ‹€λŠ” κ²°κ³ΌλŠ” 인과관계λ₯Ό λ’·λ°›μΉ¨ν•©λ‹ˆλ‹€.
import matplotlib.pyplot as plt

groups = ['Non-smokers', 'Smokers']
lung_cancer_rates = [10, 70]  # λ‹¨μœ„: 100,000λͺ… λ‹Ή λ°œμƒλ₯ 

plt.bar(groups, lung_cancer_rates, color=['blue', 'red'])
plt.xlabel('Group')
plt.ylabel('Lung Cancer Rate')
plt.title('Lung Cancer Rates: Smokers vs Non-smokers')
plt.show()


λΉ„μ¦ˆλ‹ˆμŠ€ μ˜μ‚¬κ²°μ •μ—μ„œμ˜ μ‘μš©

μƒκ΄€κ΄€κ³„μ˜ μ‘μš©

상관관계λ₯Ό 톡해 λΉ„μ¦ˆλ‹ˆμŠ€ λ°μ΄ν„°μ—μ„œ νŒ¨ν„΄κ³Ό νŠΈλ Œλ“œλ₯Ό 식별할 수 μžˆμŠ΅λ‹ˆλ‹€.
μ΄λŠ” 데이터 κ°„μ˜ 관계λ₯Ό μ΄ν•΄ν•˜κ³ , 이λ₯Ό 기반으둜 μ˜ˆμΈ‘ν•˜κ³  μ „λž΅μ„ μ„Έμš°λŠ” 데 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.
  • λΉ„μ¦ˆλ‹ˆμŠ€ λ°μ΄ν„°μ—μ„œ νŒ¨ν„΄κ³Ό νŠΈλ Œλ“œ 식별: 상관관계λ₯Ό λΆ„μ„ν•¨μœΌλ‘œμ¨ λ³€μˆ˜ κ°„μ˜ 관계λ₯Ό νŒŒμ•…ν•˜κ³ , 이λ₯Ό 기반으둜 미래의 νŠΈλ Œλ“œλ₯Ό μ˜ˆμΈ‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ œν’ˆ 판맀 예츑, μ‹œμž₯ 동ν–₯ 뢄석, 고객 행동 뢄석 등에 μœ μš©ν•©λ‹ˆλ‹€.
  • 싀무 μ˜ˆμ‹œ
    • μ œν’ˆ 판맀 예츑: νŠΉμ • μ‹œμ¦Œ λ™μ•ˆμ˜ 판맀 데이터λ₯Ό λΆ„μ„ν•˜μ—¬ ν–₯ν›„ νŒλ§€λŸ‰μ„ μ˜ˆμΈ‘ν•˜κ³ , 재고 관리 및 생산 κ³„νšμ„ μ΅œμ ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
    • μ‹œμž₯ 동ν–₯ 뢄석: μ†Œμ…œ λ―Έλ””μ–΄ 데이터λ₯Ό λΆ„μ„ν•˜μ—¬ μ†ŒλΉ„μž κ΄€μ‹¬μ˜ λ³€ν™”λ₯Ό νŒŒμ•…ν•˜κ³ , 이λ₯Ό 기반으둜 λ§ˆμΌ€νŒ… μ „λž΅μ„ μ‘°μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

μΈκ³Όκ΄€κ³„μ˜ μ‘μš©

인과관계λ₯Ό 톡해 λ§ˆμΌ€νŒ… 캠페인, μ •μ±… λ³€κ²½ λ“±μ˜ 효과λ₯Ό 뢄석할 수 μžˆμŠ΅λ‹ˆλ‹€.
μ΄λŠ” νŠΉμ • λ³€ν™”κ°€ λΉ„μ¦ˆλ‹ˆμŠ€ 결과에 λ―ΈμΉ˜λŠ” 영ν–₯을 μ΄ν•΄ν•˜κ³ , 이λ₯Ό 기반으둜 μ˜μ‚¬κ²°μ •μ„ λ‚΄λ¦¬λŠ” 데 ν•„μˆ˜μ μž…λ‹ˆλ‹€.
  • λ§ˆμΌ€νŒ… 캠페인, μ •μ±… λ³€κ²½ λ“±μ˜ 효과 뢄석: 인과관계λ₯Ό λΆ„μ„ν•¨μœΌλ‘œμ¨ νŠΉμ • μ „λž΅μ΄λ‚˜ λ³€ν™”κ°€ μ‹€μ œλ‘œ μ–΄λ–€ 영ν–₯을 λ―Έμ³€λŠ”μ§€ 평가할 수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 효과적인 μ „λž΅μ„ μœ μ§€ν•˜κ³ , λΉ„νš¨μœ¨μ μΈ μ „λž΅μ„ κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 싀무 μ˜ˆμ‹œ
    • λ§ˆμΌ€νŒ… 캠페인 효과 뢄석: μƒˆλ‘œμš΄ λ§ˆμΌ€νŒ… 캠페인의 효과λ₯Ό μΈ‘μ •ν•˜μ—¬, 캠페인이 맀좜 증가에 미친 영ν–₯을 ν‰κ°€ν•˜κ³ , 성곡적인 캠페인 μ „λž΅μ„ λ°˜λ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
    • μ •μ±… λ³€κ²½ 효과 뢄석: μƒˆλ‘œμš΄ μ •μ±… λ„μž… ν›„, 고객 λ§Œμ‘±λ„μ™€ λ§€μΆœμ— 미친 영ν–₯을 λΆ„μ„ν•˜μ—¬ μ •μ±…μ˜ 효과λ₯Ό ν‰κ°€ν•˜κ³ , ν•„μš”ν•œ 쑰치λ₯Ό μ·¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€.