πŸ“ˆ Data Engineering

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] κ³ κΈ‰ 차트 μœ ν˜• & μΈν„°λ ‰ν‹°λΈŒ μ‹œκ°ν™”

κ³ κΈ‰ 차트 μœ ν˜• 및 μ‚¬μš©λ²•μ΄λ²ˆμ—λŠ” 기본적인 μ°¨νŠΈκ°€ μ•„λ‹Œ, 더 μžμ„Έν•œ λ°μ΄ν„°μ˜ κ°„μ˜ 상관관계, λΉˆλ„λ“±μ˜ νŒŒμ•… λͺ©μ μ„ μœ„ν•œ μ°¨νŠΈλ“€μ— λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.히트맡 (Heatmap)νžˆνŠΈλ§΅μ€ ν–‰λ ¬ ν˜•μ‹μ˜ 데이터λ₯Ό μƒ‰μƒμœΌλ‘œ μ‹œκ°ν™”ν•˜μ—¬ λ°μ΄ν„°μ˜ ν¬κΈ°λ‚˜ λΉˆλ„ 등을 νŒŒμ•…ν•˜κΈ° μœ„ν•΄ μ‚¬μš©λ˜λŠ” λ„κ΅¬μž…λ‹ˆλ‹€.색상이 μ§™μ–΄μ§ˆμˆ˜λ‘ 데이터 값이 ν¬κ±°λ‚˜ λΉˆλ„κ°€ λ†’μŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.μ˜ˆμ‹œμƒκ΄€ ν–‰λ ¬: λ³€μˆ˜λ“€ κ°„μ˜ 상관 관계 μ‹œκ°ν™”μ›Ήμ‚¬μ΄νŠΈ 클릭: μ›ΉνŽ˜μ΄μ§€μ˜ μ‚¬μš©μž 클릭 λΉˆλ„λ₯Ό μ‹œκ°ν™” νžˆνŠΈλ§΅ μ˜ˆμ‹œ (Heatmap Example)import seaborn as snsimport numpy as npimport matplotlib.pyplot as plt# μƒ˜ν”Œ 데이터 생성data = np.random.rand(10, 12)# 히트맡 생성plt.fig..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] κΈ°λ³Έ 차트 μœ ν˜• 및 μ‚¬μš©λ²•

λ§‰λŒ€ κ·Έλž˜ν”„ (Bar Chart)λ§‰λŒ€ κ·Έλž˜ν”„λŠ” 'λ²”μ£Όν˜• λ°μ΄ν„°μ˜ λΉˆλ„λ‚˜ κ°’'을 λ‚˜νƒ€λ‚΄κΈ° μœ„ν•΄ μ‚¬μš©λ˜λŠ” 기본적인 μ‹œκ°ν™” λ„κ΅¬μž…λ‹ˆλ‹€.데이터 값은 μˆ˜ν‰ λ˜λŠ” 수직 λ§‰λŒ€λ‘œ ν‘œν˜„λ˜λ©°, 각 λ§‰λŒ€μ˜ κΈΈμ΄λŠ” ν•΄λ‹Ή λ²”μ£Όμ˜ ν¬κΈ°λ‚˜ λΉˆλ„λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€.μ˜ˆμ‹œλΉ„μ¦ˆλ‹ˆμŠ€: 월별 맀좜 비ꡐλ₯Ό 톡해 μ„±κ³Ό λΆ„μ„κ΅μœ‘: 학년별 성적 λΉ„κ΅μ˜λ£Œ: 병원별 ν™˜μž 수 비ꡐimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsimport numpy as np# 데이터 μ •μ˜months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']sales = [150, 200, 180, 220, 250, 230]# λ§‰λŒ€κ·Έλž˜ν”„ 생성plt.figure(figsize=..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] Data Visualization (데이터 μ‹œκ°ν™”) & μ‹œκ°μ  인지

데이터 μ‹œκ°ν™”λž€?데이터 μ‹œκ°ν™”λŠ” 데이터λ₯Ό κ·Έλž˜ν”½μ  μš”μ†Œλ‘œ λ³€ν™˜ν•˜μ—¬ μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.이λ₯Ό 톡해 λ³΅μž‘ν•œ 데이터λ₯Ό μ΄ν•΄ν•˜κΈ° μ‰½κ²Œ λ§Œλ“€κ³ , λ°μ΄ν„°μ—μ„œ μ€‘μš”ν•œ νŒ¨ν„΄κ³Ό μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.데이터 μ‹œκ°ν™”μ˜ μ€‘μš”μ„±λ°μ΄ν„°λ₯Ό μ‹œκ°ν™” ν•˜λŠ”κ²ƒμ΄ μ€‘μš”ν•œ μ΄μœ λŠ” μ•„λž˜μ— μ„€λͺ…이 μžˆμŠ΅λ‹ˆλ‹€. λ°μ΄ν„° 이해도 ν–₯상: 데이터 μ‹œκ°ν™”λŠ” 데이터λ₯Ό μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•˜μ—¬ μ΄ν•΄ν•˜κΈ° μ‰½κ²Œ λ§Œλ“­λ‹ˆλ‹€. λ³΅μž‘ν•œ 수치 λ°μ΄ν„°λ‚˜ ν…μŠ€νŠΈ 데이터λ₯Ό κ·Έλž˜ν”„λ‘œ ν‘œν˜„ν•˜λ©΄ 더 μ§κ΄€μ μœΌλ‘œ 이해할 수 μžˆμŠ΅λ‹ˆλ‹€.νŒ¨ν„΄ 인식: 데이터λ₯Ό μ‹œκ°ν™”ν•˜λ©΄ 데이터 λ‚΄μ˜ νŒ¨ν„΄, νŠΈλ Œλ“œ, μ΄μƒμΉ˜λ₯Ό μ‰½κ²Œ λ°œκ²¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 데이터 뢄석과 μ˜μ‚¬κ²°μ •μ— μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.μ˜μ‚¬μ†Œν†΅ κ°•ν™”: 데이터λ₯Ό μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•˜λ©΄ 데이터λ₯Ό μ‰½κ²Œ μ „λ‹¬ν•˜κ³  μ„€λͺ…ν•  수 μžˆμ–΄ μ˜μ‚¬μ†Œν†΅μ΄ ..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Getting Data Part.1

Getting Datafrom collections import Counterimport math, random, csv, json, refrom bs4 import BeautifulSoupimport requests μ˜ˆλ₯Ό λ“€μ–΄, beautifulsoup 같은, μ–΄λ–€ λͺ¨λ“ˆμ΄ μ„€μΉ˜λ˜μ§€ μ•Šμ•˜λ‹€λ©΄? μ–΄λ–»κ²Œ ν•΄μ•Ό ν• κΉŒμš”?googling: μ•„λ‚˜μ½˜λ‹€ beautifulsoup μ„€μΉ˜ 방법ꡬ글 λ‹΅λ³€μ—μ„œ μ•„λ‚˜μ½˜λ‹€ ν΄λΌμš°λ“œλ₯Ό μ°ΎμœΌμ„Έμš”. λͺ¨λ“ˆλ“€μ΄ ν…ŒμŠ€νŠΈλ˜κ³  μ•ˆμ „ν•œ κ³³μž…λ‹ˆλ‹€.이제, μ—¬λŸ¬λΆ„μ€ λΆ€λ„λŸ¬μš΄ μ •λ„λ‘œ λ§Žμ€ μ‹œκ°„μ„ acquiring(νšλ“), cleaning(정리), and transforming data(데이터 λ³€ν™˜)에 ν• μ• ν•˜κ²Œ 될 κ²ƒμž…λ‹ˆλ‹€.stdin and stdoutNumber of lines containing num..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Gradient Descent (경사 ν•˜κ°•λ²•)

Gradient Descent (경사 ν•˜κ°•λ²•)경사 ν•˜κ°•λ²•(Gradient Descent)은 μ΅œμ ν™” μ•Œκ³ λ¦¬μ¦˜ 쀑 ν•˜λ‚˜λ‘œ, 주어진 ν•¨μˆ˜μ˜ μ΅œμ†Œκ°’μ„ μ°ΎλŠ” λ°©λ²•μž…λ‹ˆλ‹€.이 μ•Œκ³ λ¦¬μ¦˜μ€ λ¨Έμ‹  λŸ¬λ‹κ³Ό λ”₯ λŸ¬λ‹ λͺ¨λΈμ˜ ν•™μŠ΅ κ³Όμ •μ—μ„œ 주둜 μ‚¬μš©λ©λ‹ˆλ‹€.κ²½μ‚¬ν•˜κ°•λ²•μ˜ 아이디어 (The Idea Behind Gradient Descent)μš°λ¦¬λŠ” μ’…μ’… ν•¨μˆ˜ 𝑓λ₯Ό μ΅œλŒ€ν™”(λ˜λŠ” μ΅œμ†Œν™”)ν•΄μ•Ό ν•  ν•„μš”κ°€ μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.즉, μš°λ¦¬λŠ” κ°€λŠ₯ν•œ κ°€μž₯ μž‘μ€(λ˜λŠ” κ°€μž₯ 큰) 값을 μƒμ„±ν•˜λŠ” μž…λ ₯ vλ₯Ό μ°Ύμ•„μ•Ό ν•©λ‹ˆλ‹€.그리고 μ΄λ•Œ, ν•¨μˆ˜ 𝑓λ₯Ό μ΅œλŒ€ν™”(λ˜λŠ” μ΅œμ†Œν™”)ν•΄μ•Ό ν•©λ‹ˆλ‹€. 즉, κ°€λŠ₯ν•œ κ°€μž₯ μž‘μ€(λ˜λŠ” κ°€μž₯ 큰) 값을 λ§Œλ“œλŠ” μž…λ ₯ 𝑣λ₯Ό μ°Ύμ•„μ•Ό ν•©λ‹ˆλ‹€.이것은 λ§Žμ€ λ¬Έμ œμ—μ„œ λ°œμƒν•˜λŠ” μΌμž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, λΉ„μš© ν•¨μˆ˜(cost function)λ₯Ό μ΅œμ†Œ..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] μ‹œκ³„μ—΄ 데이터 & λ‹€λ³€λŸ‰ 뢄석

μ‹œκ³„μ—΄ λ°μ΄ν„°μ‹œκ³„μ—΄ λ°μ΄ν„°λŠ” μ‹œκ°„ μˆœμ„œλŒ€λ‘œ μ •λ ¬λœ 데이터 포인트의 μ—°μ†μž…λ‹ˆλ‹€.μ‹œκ³„μ—΄ λ°μ΄ν„°μ˜ νŠΉμ„± μΆ”μ„Έ (Trend): μž₯기적인 데이터 증가 λ˜λŠ” κ°μ†Œ κ²½ν–₯을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.예: νšŒμ‚¬ 맀좜이 ν•΄λ§ˆλ‹€ μ¦κ°€ν•˜λŠ” 경우.κ³„μ ˆμ„± (Seasonality): νŠΉμ • μ‹œκ°„ νŒ¨ν„΄μ΄ λ°˜λ³΅λ˜λŠ” ν˜„μƒμœΌλ‘œ, 주기적인 변동을 ν¬ν•¨ν•©λ‹ˆλ‹€.예: 여름철 μ•„μ΄μŠ€ν¬λ¦Ό νŒλ§€λŸ‰ 증가.μ£ΌκΈ°μ„± (Cyclicality): λΆˆκ·œμΉ™μ μΈ κ°„κ²©μœΌλ‘œ λ°˜λ³΅λ˜λŠ” 변동을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.예: 경제 ν˜Έν™©κ³Ό λΆˆν™© μ£ΌκΈ°.작음 (Noise): 데이터에 ν¬ν•¨λœ λΆˆκ·œμΉ™ν•œ λ³€λ™μœΌλ‘œ, μ˜ˆμΈ‘μ— λ°©ν•΄κ°€ λ˜λŠ” μš”μ†Œμž…λ‹ˆλ‹€.μ‹œκ³„μ—΄ 뢄석 λ°©λ²•μ‹œκ³„μ—΄ λΆ„ν•΄λŠ” μ‹œκ³„μ—΄ 데이터λ₯Ό κ΅¬μ„±ν•˜λŠ” μ—¬λŸ¬ μš”μ†Œ(μΆ”μ„Έ, κ³„μ ˆμ„±, μ£ΌκΈ°μ„±, 작음)λ₯Ό λΆ„λ¦¬ν•˜μ—¬ λΆ„μ„ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€.가법 λͺ¨ν˜• (Additive Model): ..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] κ°€μ„€ κ²€μ •κ³Ό A/B Test, μ‹œλ‚˜λ¦¬μ˜€

κ°€μ„€ κ²€μ •μ˜ κΈ°μ΄ˆκ°€μ„€ 검정은 ν‘œλ³Έ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ λͺ¨μ§‘단에 λŒ€ν•œ 톡계적 가섀이 νƒ€λ‹Ήν•œμ§€λ₯Ό νŒλ‹¨ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.이λ₯Ό 톡해 연ꡬ κ°€μ„€μ˜ 지지 μ—¬λΆ€λ₯Ό κ²°μ •ν•˜κΈ° μœ„ν•΄ 톡계적 증거λ₯Ό ν‰κ°€ν•©λ‹ˆλ‹€.κ°€μ„€ κ²€μ • ν”„λ‘œμ„ΈμŠ€κ·€λ¬΄ κ°€μ„€ (Null Hypothesis, H0): κΈ°λ³Έ κ°€μ„€λ‘œ, λ³€ν™”κ°€ μ—†μŒμ„ μ£Όμž₯ν•©λ‹ˆλ‹€.λŒ€λ¦½ κ°€μ„€ (Alternative Hypothesis, H1): 연ꡬ κ°€μ„€λ‘œ, λ³€ν™”λ₯Ό μ£Όμž₯ν•©λ‹ˆλ‹€.κ²°μ • κ·œμΉ™: 톡계적 μœ μ˜μ„±μ„ ν‰κ°€ν•˜μ—¬ 가섀을 κΈ°κ°ν•˜κ±°λ‚˜ μ±„νƒν•©λ‹ˆλ‹€. 주둜 p-valueλ₯Ό μ‚¬μš©ν•˜μ—¬ 귀무 κ°€μ„€μ˜ 기각 μ—¬λΆ€λ₯Ό κ²°μ •ν•©λ‹ˆλ‹€.Tκ²€μ • (T-test)T검정은 두 κ·Έλ£Ή κ°„μ˜ 평균 차이가 ν†΅κ³„μ μœΌλ‘œ μœ μ˜λ―Έν•œμ§€ κ²€μ •ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€.데이터가 μ •κ·œ 뢄포λ₯Ό λ”°λ₯΄κ³  두 μ§‘λ‹¨μ˜ μƒ˜ν”Œ 크기가 비ꡐ적 μž‘μ„ λ•Œ μ‚¬μš©λ©λ‹ˆλ‹€.μœ ν˜•λ…λ¦½ ..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] 기초 톡계, 상관 & 인과관계

기초 톡계 (basic statistics)기술 톡계 (Descriptive Statistics)기술 톡계(Descriptive Statistics)λŠ” 데이터 μ§‘ν•©μ˜ 쀑심 κ²½ν–₯, 뢄산도 및 μ „λ°˜μ μΈ 뢄포λ₯Ό μš”μ•½ν•˜μ—¬λ°μ΄ν„°μ˜ 일반적인 ν˜•νƒœμ™€ νŠΉμ„±μ„ λΉ λ₯΄κ²Œ νŒŒμ•…ν•˜λŠ” 데 μ‚¬μš©λ˜λŠ” 톡계적 μˆ˜μΉ˜μž…λ‹ˆλ‹€.μ΄λŠ” 데이터 λΆ„μ„μ˜ 초기 λ‹¨κ³„μ—μ„œ λ°μ΄ν„°μ˜ 기본적인 νŠΉμ„±μ„ μ΄ν•΄ν•˜κ³  μš”μ•½ν•˜λŠ” 데 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.μ£Όμš” 기술 톡계 μ§€ν‘œμ€‘μ‹¬ κ²½ν–₯μ„± (Measures of Central Tendency)평균 (Mean): λ°μ΄ν„°μ˜ λͺ¨λ“  값을 λ”ν•œ ν›„ λ°μ΄ν„°μ˜ 개수둜 λ‚˜λˆˆ κ°’μœΌλ‘œ, λ°μ΄ν„°μ˜ 쀑심을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.import pandas as pddata = pd.Series([1, 2, 3, 4, 5])mean_value = data.m..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] λ°μ΄ν„°μ˜ μ’…λ₯˜μ™€ 속성 & 데이터 탐색 (EDA)

λ°μ΄ν„°μ˜ μ’…λ₯˜μ™€ μ†μ„±λ°μ΄ν„°μ˜ μ’…λ₯˜μ™€ 속성에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.μ •λŸ‰μ  데이터 (Quantitative Data)μ •λŸ‰μ  λ°μ΄ν„°λŠ” 수치둜 ν‘œν˜„λ˜λŠ” λ°μ΄ν„°λ‘œ, 양적 츑정이 κ°€λŠ₯ν•œ λ°μ΄ν„°μž…λ‹ˆλ‹€.μ˜ˆμ‹œ: λ‚˜μ΄, μ†Œλ“, νŒλ§€λŸ‰ λ“±μ˜ λ°μ΄ν„°μž…λ‹ˆλ‹€.νŠΉμ§•:수치 데이터λ₯Ό 톡해 톡계 뢄석과 예츑 λͺ¨λΈλ§μ΄ κ°€λŠ₯νž™λ‹ˆλ‹€.μˆ˜μΉ˜ν˜• 데이터와 λ²”μ£Όν˜• 데이터, 두 가지 μ£Όμš” ν˜•νƒœλ‘œ λ‚˜λ‰©λ‹ˆλ‹€. μ •μ„±μ  데이터 (Qualitative Data)μˆ˜μΉ˜κ°€ μ•„λ‹Œ μ˜λ―Έμ™€ νŠΉμ„±μœΌλ‘œ λΆ„λ₯˜λ˜λŠ” λ°μ΄ν„°μž…λ‹ˆλ‹€.μ˜ˆμ‹œ: λŒ“κΈ€, λ™μ˜μƒ, μŒμ„± λ“±.νŠΉμ§•:ν…μŠ€νŠΈ, 이미지, λ™μ˜μƒ λ“± λ‹€μ–‘ν•œ ν˜•μ‹μ„ κ°€μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.μ •λŸ‰μ  데이터와 달리 톡계 뢄석이 μ–΄λ ΅μŠ΅λ‹ˆλ‹€.μš©λ„: ν…μŠ€νŠΈ 뢄석, 감정 뢄석, μ½˜ν…μΈ  뢄석 등에 μ‚¬μš©λ©λ‹ˆλ‹€. μˆ˜μΉ˜ν˜• 데이터 (Numerical Data)수치..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] Data Analysis - 데이터 뢄석

이번 κΈ€μ—μ„œλŠ” 데이터 뢄석에 κ΄€ν•œ κ°œλ… 및 λ‚΄μš©μ„ ν•œλ²ˆ 보도둝 ν•˜κ² μŠ΅λ‹ˆλ‹€.데이터 뢄석 κ°œμš”λ°μ΄ν„° λΆ„μ„μ΄λž€? λ°μ΄ν„°λ‘œλΆ€ν„° μœ μ˜λ―Έν•œ 정보λ₯Ό μΆ”μΆœν•˜κ³  κ²°κ³Όλ₯Ό λΆ„μ„ν•˜μ—¬ 결정을 μ§€μ›ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.λ˜ν•œ 데이터λ₯Ό 톡해 톡찰λ ₯을 μ–»κ³  λΉ„μ¦ˆλ‹ˆμŠ€ 결정을 λ‚΄λ¦¬λŠ” 과학적 μ ‘κ·Όλ²•μž…λ‹ˆλ‹€.데이터 뢄석 과정데이터 뢄석 과정은 μœ„μ˜ 그림처럼 7λ‹¨κ³„λ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€. ν•œλ²ˆ μžμ„Ένžˆ μ•Œμ•„ λ³΄κ² μŠ΅λ‹ˆλ‹€.1. λͺ©ν‘œ 및 질문 μ •μ˜λ°μ΄ν„° 뢄석을 μ‹œμž‘ν•˜κΈ° 전에 λΆ„μ„μ˜ λͺ©ν‘œμ™€ ν•΄κ²°ν•˜κ³ μž ν•˜λŠ” μ§ˆλ¬Έμ„ λͺ…ν™•νžˆ μ •μ˜ν•©λ‹ˆλ‹€.이λ₯Ό 톡해 λΆ„μ„μ˜ λ°©ν–₯을 μ„€μ •ν•˜κ³ , ν•„μš”ν•œ 데이터λ₯Ό μˆ˜μ§‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€.2. 데이터 μˆ˜μ§‘λΆ„μ„μ— ν•„μš”ν•œ 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” λ‹¨κ³„μž…λ‹ˆλ‹€.λ°μ΄ν„°λŠ” λ‚΄λΆ€ μ‹œμŠ€ν…œ, μ™ΈλΆ€ 데이터 μ†ŒμŠ€, μ›Ή 크둀링, API 등을 톡해 μˆ˜μ§‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€.3. 데이터 μ •μ œ..

Bigbread1129
'πŸ“ˆ Data Engineering' μΉ΄ν…Œκ³ λ¦¬μ˜ κΈ€ λͺ©λ‘ (4 Page)