π Data Analysis
μκ°νμ λμμΈ μμΉμκ°νμ λμμΈ μμΉμ 5κ°μ§κ° μμ΅λλ€. νλ² λ³΄λλ‘ νκ² μ΅λλ€.λͺ©μ μ±μ μ: μκ°νμ λͺ©μ μ λͺ
νν νλ κ².μ€λͺ
: μκ°νλ νΉμ μ§λ¬Έμ λ΅νκ±°λ, νΉμ μΈμ¬μ΄νΈλ₯Ό λμΆνκ±°λ, λ°μ΄ν°λ₯Ό λ μ½κ² μ΄ν΄ν μ μλλ‘ λλ μν μ ν©λλ€.μμ: λ§€μΆ μ¦κ°μ μμΈμ νμ
νκΈ° μν κ·Έλν, μ νλ³ ν맀λ λΉκ΅λ₯Ό μν μ°¨νΈ.κ°κ²°μ±μ μ: κ°κ²°νκ³ , 볡μ‘νμ§ μμμΌ ν¨.μ€λͺ
: λΆνμν μμλ₯Ό μ κ±°νμ¬ ν΅μ¬ μ 보λ₯Ό κ°κ²°νκ² μ λ¬ν΄μΌ ν©λλ€. μ§λμΉκ² 볡μ‘ν κ·Έλνλ μ€νλ € νΌλμ μ΄λν μ μμ΅λλ€.μμ: λΆνμν 그리λ λΌμΈ, κ³Όλν μμ μ¬μ©, λΆνμν ν
μ€νΈ λ±μ μ κ±°ν κ·Έλν.λͺ
νμ±μ μ: λ°μ΄ν°λ₯Ό λͺ
νν μ λ¬ν΄μΌ ν¨.μ€λͺ
: μ μ ν λ μ΄λΈ, μΆ, μ λͺ©μ μ¬μ©νμ¬ μ 보λ₯Ό λͺ
νν μ λ¬ν΄μΌ ν©λλ€...
π Data Analysis
κ³ κΈ μ°¨νΈ μ ν λ° μ¬μ©λ²μ΄λ²μλ κΈ°λ³Έμ μΈ μ°¨νΈκ° μλ, λ μμΈν λ°μ΄ν°μ κ°μ μκ΄κ΄κ³, λΉλλ±μ νμ
λͺ©μ μ μν μ°¨νΈλ€μ λ°νμ¬ μμλ³΄κ² μ΅λλ€.ννΈλ§΅ (Heatmap)ννΈλ§΅μ νλ ¬ νμμ λ°μ΄ν°λ₯Ό μμμΌλ‘ μκ°ννμ¬ λ°μ΄ν°μ ν¬κΈ°λ λΉλ λ±μ νμ
νκΈ° μν΄ μ¬μ©λλ λꡬμ
λλ€.μμμ΄ μ§μ΄μ§μλ‘ λ°μ΄ν° κ°μ΄ ν¬κ±°λ λΉλκ° λμμ λνλ
λλ€.μμμκ΄ νλ ¬: λ³μλ€ κ°μ μκ΄ κ΄κ³ μκ°νμΉμ¬μ΄νΈ ν΄λ¦: μΉνμ΄μ§μ μ¬μ©μ ν΄λ¦ λΉλλ₯Ό μκ°ν ννΈλ§΅ μμ (Heatmap Example)import seaborn as snsimport numpy as npimport matplotlib.pyplot as plt# μν λ°μ΄ν° μμ±data = np.random.rand(10, 12)# ννΈλ§΅ μμ±plt.fig..
π Data Analysis
λ§λ κ·Έλν (Bar Chart)λ§λ κ·Έλνλ 'λ²μ£Όν λ°μ΄ν°μ λΉλλ κ°'μ λνλ΄κΈ° μν΄ μ¬μ©λλ κΈ°λ³Έμ μΈ μκ°ν λꡬμ
λλ€.λ°μ΄ν° κ°μ μν λλ μμ§ λ§λλ‘ ννλλ©°, κ° λ§λμ κΈΈμ΄λ ν΄λΉ λ²μ£Όμ ν¬κΈ°λ λΉλλ₯Ό λνλ
λλ€.μμλΉμ¦λμ€: μλ³ λ§€μΆ λΉκ΅λ₯Ό ν΅ν΄ μ±κ³Ό λΆμκ΅μ‘: νλ
λ³ μ±μ λΉκ΅μλ£: λ³μλ³ νμ μ λΉκ΅import matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsimport numpy as np# λ°μ΄ν° μ μmonths = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']sales = [150, 200, 180, 220, 250, 230]# λ§λκ·Έλν μμ±plt.figure(figsize=..
π Data Analysis
λ°μ΄ν° μκ°νλ?λ°μ΄ν° μκ°νλ λ°μ΄ν°λ₯Ό κ·Έλν½μ μμλ‘ λ³ννμ¬ μκ°μ μΌλ‘ νννλ κ³Όμ μ
λλ€.μ΄λ₯Ό ν΅ν΄ 볡μ‘ν λ°μ΄ν°λ₯Ό μ΄ν΄νκΈ° μ½κ² λ§λ€κ³ , λ°μ΄ν°μμ μ€μν ν¨ν΄κ³Ό μΈμ¬μ΄νΈλ₯Ό λμΆν μ μμ΅λλ€.λ°μ΄ν° μκ°νμ μ€μμ±λ°μ΄ν°λ₯Ό μκ°ν νλκ²μ΄ μ€μν μ΄μ λ μλμ μ€λͺ
μ΄ μμ΅λλ€. λ°μ΄ν° μ΄ν΄λ ν₯μ: λ°μ΄ν° μκ°νλ λ°μ΄ν°λ₯Ό μκ°μ μΌλ‘ νννμ¬ μ΄ν΄νκΈ° μ½κ² λ§λλλ€. 볡μ‘ν μμΉ λ°μ΄ν°λ ν
μ€νΈ λ°μ΄ν°λ₯Ό κ·Έλνλ‘ νννλ©΄ λ μ§κ΄μ μΌλ‘ μ΄ν΄ν μ μμ΅λλ€.ν¨ν΄ μΈμ: λ°μ΄ν°λ₯Ό μκ°ννλ©΄ λ°μ΄ν° λ΄μ ν¨ν΄, νΈλ λ, μ΄μμΉλ₯Ό μ½κ² λ°κ²¬ν μ μμ΅λλ€. μ΄λ λ°μ΄ν° λΆμκ³Ό μμ¬κ²°μ μ μ€μν μν μ ν©λλ€.μμ¬μν΅ κ°ν: λ°μ΄ν°λ₯Ό μκ°μ μΌλ‘ νννλ©΄ λ°μ΄ν°λ₯Ό μ½κ² μ λ¬νκ³ μ€λͺ
ν μ μμ΄ μμ¬μν΅μ΄ ..
π Data Analysis
μκ³μ΄ λ°μ΄ν°μκ³μ΄ λ°μ΄ν°λ μκ° μμλλ‘ μ λ ¬λ λ°μ΄ν° ν¬μΈνΈμ μ°μμ
λλ€.μκ³μ΄ λ°μ΄ν°μ νΉμ± μΆμΈ (Trend): μ₯κΈ°μ μΈ λ°μ΄ν° μ¦κ° λλ κ°μ κ²½ν₯μ λνλ
λλ€.μ: νμ¬ λ§€μΆμ΄ ν΄λ§λ€ μ¦κ°νλ κ²½μ°.κ³μ μ± (Seasonality): νΉμ μκ° ν¨ν΄μ΄ λ°λ³΅λλ νμμΌλ‘, μ£ΌκΈ°μ μΈ λ³λμ ν¬ν¨ν©λλ€.μ: μ¬λ¦μ² μμ΄μ€ν¬λ¦Ό ν맀λ μ¦κ°.μ£ΌκΈ°μ± (Cyclicality): λΆκ·μΉμ μΈ κ°κ²©μΌλ‘ λ°λ³΅λλ λ³λμ λνλ
λλ€.μ: κ²½μ νΈν©κ³Ό λΆν© μ£ΌκΈ°.μ‘μ (Noise): λ°μ΄ν°μ ν¬ν¨λ λΆκ·μΉν λ³λμΌλ‘, μμΈ‘μ λ°©ν΄κ° λλ μμμ
λλ€.μκ³μ΄ λΆμ λ°©λ²μκ³μ΄ λΆν΄λ μκ³μ΄ λ°μ΄ν°λ₯Ό ꡬμ±νλ μ¬λ¬ μμ(μΆμΈ, κ³μ μ±, μ£ΌκΈ°μ±, μ‘μ)λ₯Ό λΆλ¦¬νμ¬ λΆμνλ λ°©λ²μ
λλ€.κ°λ² λͺ¨ν (Additive Model): ..
π Data Analysis
κ°μ€ κ²μ μ κΈ°μ΄κ°μ€ κ²μ μ νλ³Έ λ°μ΄ν°λ₯Ό μ¬μ©νμ¬ λͺ¨μ§λ¨μ λν ν΅κ³μ κ°μ€μ΄ νλΉνμ§λ₯Ό νλ¨νλ κ³Όμ μ
λλ€.μ΄λ₯Ό ν΅ν΄ μ°κ΅¬ κ°μ€μ μ§μ§ μ¬λΆλ₯Ό κ²°μ νκΈ° μν΄ ν΅κ³μ μ¦κ±°λ₯Ό νκ°ν©λλ€.κ°μ€ κ²μ νλ‘μΈμ€κ·λ¬΄ κ°μ€ (Null Hypothesis, H0): κΈ°λ³Έ κ°μ€λ‘, λ³νκ° μμμ μ£Όμ₯ν©λλ€.λ립 κ°μ€ (Alternative Hypothesis, H1): μ°κ΅¬ κ°μ€λ‘, λ³νλ₯Ό μ£Όμ₯ν©λλ€.κ²°μ κ·μΉ: ν΅κ³μ μ μμ±μ νκ°νμ¬ κ°μ€μ κΈ°κ°νκ±°λ μ±νν©λλ€. μ£Όλ‘ p-valueλ₯Ό μ¬μ©νμ¬ κ·λ¬΄ κ°μ€μ κΈ°κ° μ¬λΆλ₯Ό κ²°μ ν©λλ€.Tκ²μ (T-test)Tκ²μ μ λ κ·Έλ£Ή κ°μ νκ· μ°¨μ΄κ° ν΅κ³μ μΌλ‘ μ μλ―Ένμ§ κ²μ νλ λ°©λ²μ
λλ€.λ°μ΄ν°κ° μ κ· λΆν¬λ₯Ό λ°λ₯΄κ³ λ μ§λ¨μ μν ν¬κΈ°κ° λΉκ΅μ μμ λ μ¬μ©λ©λλ€.μ νλ
립 ..
π Data Analysis
κΈ°μ΄ ν΅κ³ (basic statistics)κΈ°μ ν΅κ³ (Descriptive Statistics)κΈ°μ ν΅κ³(Descriptive Statistics)λ λ°μ΄ν° μ§ν©μ μ€μ¬ κ²½ν₯, λΆμ°λ λ° μ λ°μ μΈ λΆν¬λ₯Ό μμ½νμ¬λ°μ΄ν°μ μΌλ°μ μΈ ννμ νΉμ±μ λΉ λ₯΄κ² νμ
νλ λ° μ¬μ©λλ ν΅κ³μ μμΉμ
λλ€.μ΄λ λ°μ΄ν° λΆμμ μ΄κΈ° λ¨κ³μμ λ°μ΄ν°μ κΈ°λ³Έμ μΈ νΉμ±μ μ΄ν΄νκ³ μμ½νλ λ° μ€μν μν μ ν©λλ€.μ£Όμ κΈ°μ ν΅κ³ μ§νμ€μ¬ κ²½ν₯μ± (Measures of Central Tendency)νκ· (Mean): λ°μ΄ν°μ λͺ¨λ κ°μ λν ν λ°μ΄ν°μ κ°μλ‘ λλ κ°μΌλ‘, λ°μ΄ν°μ μ€μ¬μ λνλ
λλ€.import pandas as pddata = pd.Series([1, 2, 3, 4, 5])mean_value = data.m..
π Data Analysis
λ°μ΄ν°μ μ’
λ₯μ μμ±λ°μ΄ν°μ μ’
λ₯μ μμ±μ λ°νμ¬ μμλ³΄κ² μ΅λλ€.μ λμ λ°μ΄ν° (Quantitative Data)μ λμ λ°μ΄ν°λ μμΉλ‘ ννλλ λ°μ΄ν°λ‘, μμ μΈ‘μ μ΄ κ°λ₯ν λ°μ΄ν°μ
λλ€.μμ: λμ΄, μλ, ν맀λ λ±μ λ°μ΄ν°μ
λλ€.νΉμ§:μμΉ λ°μ΄ν°λ₯Ό ν΅ν΄ ν΅κ³ λΆμκ³Ό μμΈ‘ λͺ¨λΈλ§μ΄ κ°λ₯νλλ€.μμΉν λ°μ΄ν°μ λ²μ£Όν λ°μ΄ν°, λ κ°μ§ μ£Όμ ννλ‘ λλ©λλ€. μ μ±μ λ°μ΄ν° (Qualitative Data)μμΉκ° μλ μλ―Έμ νΉμ±μΌλ‘ λΆλ₯λλ λ°μ΄ν°μ
λλ€.μμ: λκΈ, λμμ, μμ± λ±.νΉμ§:ν
μ€νΈ, μ΄λ―Έμ§, λμμ λ± λ€μν νμμ κ°μ§ μ μμ΅λλ€.μ λμ λ°μ΄ν°μ λ¬λ¦¬ ν΅κ³ λΆμμ΄ μ΄λ ΅μ΅λλ€.μ©λ: ν
μ€νΈ λΆμ, κ°μ λΆμ, μ½ν
μΈ λΆμ λ±μ μ¬μ©λ©λλ€. μμΉν λ°μ΄ν° (Numerical Data)μμΉ..
π Data Analysis
μ΄λ² κΈμμλ λ°μ΄ν° λΆμμ κ΄ν κ°λ
λ° λ΄μ©μ νλ² λ³΄λλ‘ νκ² μ΅λλ€.λ°μ΄ν° λΆμ κ°μλ°μ΄ν° λΆμμ΄λ? λ°μ΄ν°λ‘λΆν° μ μλ―Έν μ 보λ₯Ό μΆμΆνκ³ κ²°κ³Όλ₯Ό λΆμνμ¬ κ²°μ μ μ§μνλ κ³Όμ μ
λλ€.λν λ°μ΄ν°λ₯Ό ν΅ν΄ ν΅μ°°λ ₯μ μ»κ³ λΉμ¦λμ€ κ²°μ μ λ΄λ¦¬λ κ³Όνμ μ κ·Όλ²μ
λλ€.λ°μ΄ν° λΆμ κ³Όμ λ°μ΄ν° λΆμ κ³Όμ μ μμ κ·Έλ¦Όμ²λΌ 7λ¨κ³λ‘ ꡬμ±λ©λλ€. νλ² μμΈν μμ λ³΄κ² μ΅λλ€.1. λͺ©ν λ° μ§λ¬Έ μ μλ°μ΄ν° λΆμμ μμνκΈ° μ μ λΆμμ λͺ©νμ ν΄κ²°νκ³ μ νλ μ§λ¬Έμ λͺ
νν μ μν©λλ€.μ΄λ₯Ό ν΅ν΄ λΆμμ λ°©ν₯μ μ€μ νκ³ , νμν λ°μ΄ν°λ₯Ό μμ§ν μ μμ΅λλ€.2. λ°μ΄ν° μμ§λΆμμ νμν λ°μ΄ν°λ₯Ό μμ§νλ λ¨κ³μ
λλ€.λ°μ΄ν°λ λ΄λΆ μμ€ν
, μΈλΆ λ°μ΄ν° μμ€, μΉ ν¬λ‘€λ§, API λ±μ ν΅ν΄ μμ§ν μ μμ΅λλ€.3. λ°μ΄ν° μ μ ..
π Data Analysis
Data Preprocessing (λ°μ΄ν° μ μ²λ¦¬) κ°μλ°μ΄ν° μ μ²λ¦¬λ?λ°μ΄ν° μ μ²λ¦¬λ μμ λ°μ΄ν°λ₯Ό λΆμ λ° λͺ¨λΈλ§μ μ ν©νκ² λ³ννλ κ³Όμ μ μλ―Έν©λλ€.μ΄λ λ°μ΄ν°μ μ μ , λ³ν, ν΅ν© λ±μ ν¬ν¨νλ©°, λ°μ΄ν° νμ§μ λμ¬ μ λ’°μ± μλ λΆμμ κ°λ₯νκ² ν©λλ€. λ°μ΄ν° μ μ²λ¦¬μ μ€μμ± λ° νμμ±λ°μ΄ν° μ μ²λ¦¬λ λ€μκ³Ό κ°μ μ΄μ λ‘ λ§€μ° μ€μν©λλ€.λ°μ΄ν° νμ§ ν₯μ: μ ννκ³ μΌκ΄λ λ°μ΄ν°λ₯Ό ν보νμ¬ λΆμμ κΈ°μ΄λ₯Ό νΌνΌν ν©λλ€.λͺ¨λΈ μ±λ₯ μ΅μ ν: μ μ ν μ μ²λ¦¬λ λ°μ΄ν°λ λͺ¨λΈμ μ±λ₯μ ν₯μμν€κ³ , μμΈ‘ μ νλλ₯Ό λμ
λλ€.λΆμμ μ λ’°μ± ν₯μ: κΉ¨λν λ°μ΄ν°λ₯Ό μ¬μ©ν¨μΌλ‘μ¨ λΆμ κ²°κ³Όμ μ λ’°μ±μ λμ
λλ€.λ°μ΄ν° νμ©μ ν¨μ¨μ± ν₯μ: λ°μ΄ν° μ μ²λ¦¬λ₯Ό ν΅ν΄ λΆμ μμ
μ΄ λ ν¨μ¨μ μΌλ‘ μνλ μ μμ΅λλ€. λ°μ΄ν° μ ..