πŸ“ˆ Data Engineering

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Statistics (톡계학)

Describing a Single Set of Data (단일 데이터 μ„ΈνŠΈ)단일 데이터 μ„ΈνŠΈ(describing a single set of data)λŠ” ν•˜λ‚˜μ˜ 데이터 μ„ΈνŠΈμ— λŒ€ν•œ νŠΉμ„±μ΄λ‚˜ νŠΉμ§ˆμ„ μ„€λͺ…ν•˜κ³  λΆ„μ„ν•˜λŠ” 과정을 μ˜λ―Έν•©λ‹ˆλ‹€.이λ₯Ό 톡해 λ°μ΄ν„°μ˜ 쀑심 κ²½ν–₯, λΆ„μ‚°, ν˜•νƒœ 및 뢄포 등을 νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.예λ₯Ό 듀어보면, λͺ¨κΈˆ ν™œλ™ λ‹¨μ²΄μ˜ 뢀사μž₯이 νšŒμ›λ“€μ΄ 친ꡬλ₯Ό μ–Όλ§ˆλ‚˜ 가지고 μžˆλŠ”μ§€μ— λŒ€ν•œ μ„€λͺ…을 μš”μ²­ν–ˆμŠ΅λ‹ˆλ‹€.from collections import Counterfrom linear_algebra import sum_of_squares, dotimport mathfrom operator import addnum_friends = [100,49,41,40,25,21,21,19,19,18,18,16..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] 데이터 μ „μ²˜λ¦¬ (Data Pre-Processing)

Data Preprocessing (데이터 μ „μ²˜λ¦¬) κ°œμš”λ°μ΄ν„° μ „μ²˜λ¦¬λž€?데이터 μ „μ²˜λ¦¬λŠ” μ›μ‹œ 데이터λ₯Ό 뢄석 및 λͺ¨λΈλ§μ— μ ν•©ν•˜κ²Œ λ³€ν™˜ν•˜λŠ” 과정을 μ˜λ―Έν•©λ‹ˆλ‹€.μ΄λŠ” λ°μ΄ν„°μ˜ μ •μ œ, λ³€ν™˜, 톡합 등을 ν¬ν•¨ν•˜λ©°, 데이터 ν’ˆμ§ˆμ„ λ†’μ—¬ μ‹ λ’°μ„± μžˆλŠ” 뢄석을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. λ°μ΄ν„° μ „μ²˜λ¦¬μ˜ μ€‘μš”μ„± 및 ν•„μš”μ„±λ°μ΄ν„° μ „μ²˜λ¦¬λŠ” λ‹€μŒκ³Ό 같은 이유둜 맀우 μ€‘μš”ν•©λ‹ˆλ‹€.데이터 ν’ˆμ§ˆ ν–₯상: μ •ν™•ν•˜κ³  μΌκ΄€λœ 데이터λ₯Ό ν™•λ³΄ν•˜μ—¬ λΆ„μ„μ˜ 기초λ₯Ό 튼튼히 ν•©λ‹ˆλ‹€.λͺ¨λΈ μ„±λŠ₯ μ΅œμ ν™”: 적절히 μ „μ²˜λ¦¬λœ λ°μ΄ν„°λŠ” λͺ¨λΈμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κ³ , 예츑 정확도λ₯Ό λ†’μž…λ‹ˆλ‹€.λΆ„μ„μ˜ μ‹ λ’°μ„± ν–₯상: κΉ¨λ—ν•œ 데이터λ₯Ό μ‚¬μš©ν•¨μœΌλ‘œμ¨ 뢄석 결과의 신뒰성을 λ†’μž…λ‹ˆλ‹€.데이터 ν™œμš©μ˜ νš¨μœ¨μ„± ν–₯상: 데이터 μ „μ²˜λ¦¬λ₯Ό 톡해 뢄석 μž‘μ—…μ΄ 더 효율적으둜 μˆ˜ν–‰λ  수 μžˆμŠ΅λ‹ˆλ‹€. λ°μ΄ν„° μ „..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] 데이터 μˆ˜μ§‘ (Crawling, Scrapping)

데이터 μˆ˜μ§‘ν¬λ‘€λ§ (Crawling)크둀링(crawling)은 μžλ™ν™”λœ 슀크립트λ₯Ό μ‚¬μš©ν•˜μ—¬ μ›Ή νŽ˜μ΄μ§€λ₯Ό νƒμƒ‰ν•˜κ³  데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€.μ΄λŠ” μ›Ή μ‚¬μ΄νŠΈ 전체 λ˜λŠ” λ‹€μˆ˜μ˜ νŽ˜μ΄μ§€λ₯Ό νƒμƒ‰ν•˜λ©΄μ„œ 데이터λ₯Ό μΆ”μΆœν•˜λŠ” κ³Όμ •μœΌλ‘œ, 검색 μ—”μ§„μ˜ ν¬λ‘€λŸ¬μ™€ μœ μ‚¬ν•©λ‹ˆλ‹€.μžλ™ν™”λœ 슀크립트: ν¬λ‘€λŸ¬λŠ” νŠΉμ • κ·œμΉ™μ— 따라 μ›Ή νŽ˜μ΄μ§€λ₯Ό λ°©λ¬Έν•˜κ³ , ν•΄λ‹Ή νŽ˜μ΄μ§€μ˜ μ½˜ν…μΈ λ₯Ό μˆ˜μ§‘ν•˜λŠ” μžλ™ν™”λœ μŠ€ν¬λ¦½νŠΈμž…λ‹ˆλ‹€.전체 μ‚¬μ΄νŠΈ λ˜λŠ” λ‹€μˆ˜μ˜ νŽ˜μ΄μ§€ 탐색: 크둀링은 일반적으둜 전체 μ›Ή μ‚¬μ΄νŠΈλ₯Ό νƒμƒ‰ν•˜κ±°λ‚˜, λ‹€μˆ˜μ˜ νŽ˜μ΄μ§€λ₯Ό 순차적으둜 λ°©λ¬Έν•˜μ—¬ 데이터λ₯Ό μˆ˜μ§‘ν•©λ‹ˆλ‹€.검색 μ—”μ§„μ˜ ν¬λ‘€λŸ¬μ™€ μœ μ‚¬: 검색 엔진 ν¬λ‘€λŸ¬λŠ” μ›Ή νŽ˜μ΄μ§€λ₯Ό μΈλ±μ‹±ν•˜μ—¬ 검색 κ²°κ³Όλ₯Ό μ œκ³΅ν•˜λŠ”λ°, 이와 μœ μ‚¬ν•œ λ°©μ‹μœΌλ‘œ 데이터λ₯Ό μˆ˜μ§‘ν•©λ‹ˆλ‹€. μŠ€ν¬λž˜ν•‘ (Scrapping)μŠ€ν¬λž˜ν•‘(scrap..

πŸ“ˆ Data Engineering/πŸ“Š Data Analysis

[Data Analysis] λ°μ΄ν„°μ˜ ν™œμš© 및 κ΅¬ν˜„

λ°μ΄ν„°μ˜ ν˜•νƒœλ°μ΄ν„°λŠ” λ¬΄μ—‡μΌκΉŒμš”? λ°μ΄ν„°λŠ” μ˜μ‚¬κ²°μ • 및 뢄석을 μœ„ν•œ μ›μžμž¬ μž…λ‹ˆλ‹€.λ˜ν•œ μ •λ³΄μ˜ λ‹¨μœ„λ‘œ, λ‹€μ–‘ν•œ ν˜•νƒœλ‘œ μ‘΄μž¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.μ›μ‹œ 데이터(raw data)λŠ” 직접 μˆ˜μ§‘λœ μ •λ³΄λ‘œ, 아직 κ°€κ³΅λ˜μ§€ μ•Šμ€ μƒνƒœμž…λ‹ˆλ‹€.λ°μ΄ν„°λŠ” μ˜μ‚¬κ²°μ • 및 뢄석을 μœ„ν•œ μ›μžμž¬λ‘œ, 이λ₯Ό 톡해 톡찰λ ₯(insight)을 μ–»κ³ , λ‹€μ–‘ν•œ 문제λ₯Ό ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ°μ΄ν„°μ˜ μ€‘μš”μ„±λ°μ΄ν„°λŠ” ν˜„λŒ€ μ‚¬νšŒμ—μ„œ ν•„μˆ˜μ μΈ μžμ›μœΌλ‘œ 자리작고 μžˆμŠ΅λ‹ˆλ‹€.μ˜μ‚¬κ²°μ • 도ꡬ - 데이터 쀑심 μ‚¬κ³ κ³Όκ±°μ—λŠ” κ²½ν—˜κ³Ό 직관에 μ˜μ‘΄ν•œ μ˜μ‚¬κ²°μ •μ΄ μ£Όλ₯Ό μ΄λ€˜λ‹€λ©΄, μ˜€λŠ˜λ‚ μ—λŠ” 데이터 쀑심 사고(data-driven thinking)κ°€ μ€‘μš”ν•©λ‹ˆλ‹€.데이터 쀑심 μ‚¬κ³ λŠ” μ˜μ‚¬κ²°μ • κ³Όμ •μ—μ„œ 객관적이고 과학적인 접근을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. λΉ…데이터 μ‹œλŒ€λΉ…λ°μ΄ν„°λŠ” λ§‰λŒ€ν•œ μ–‘μ˜ 데이..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Linear Algebra (μ„ ν˜•λŒ€μˆ˜)

Linear AlgebraLinear Algebra (μ„ ν˜•λŒ€μˆ˜ν•™)은 벑터 곡간, ν–‰λ ¬, μ„ ν˜• λ³€ν™˜ λ“±μ˜ κ°œλ…μ„ μ—°κ΅¬ν•˜λŠ” μˆ˜ν•™μ˜ ν•œ λΆ„μ•Όμž…λ‹ˆλ‹€μ£Όλ‘œ 닀차원 κ³΅κ°„μ—μ„œμ˜ 벑터와 ν–‰λ ¬μ˜ μ—°μ‚° 및 이듀 κ°„μ˜ 관계λ₯Ό 닀루며, 곡학, 물리학, 컴퓨터 κ³Όν•™ λ“± λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.λ˜ν•œ λ§Žμ€ 데이터 κ³Όν•™ κ°œλ…κ³Ό κΈ°μˆ μ„ λ’·λ°›μΉ¨ν•©λ‹ˆλ‹€.import re, math, random # regexes, math functions, random numbersimport matplotlib.pyplot as plt # pyplotfrom collections import defaultdict, Counterfrom functools import partial, reduce VectorsVectorsλŠ” μ–΄λ–€ finite..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Introduction to Numpy part.2

BroadcastingNumpy의 Broadcasting은 μ„œλ‘œ λ‹€λ₯Έ 크기의 λ°°μ—΄ κ°„μ˜ 연산을 κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” κ°•λ ₯ν•œ κΈ°λŠ₯μž…λ‹ˆλ‹€. Broadcasting을 톡해 NumpyλŠ” 더 μž‘μ€ 배열을 더 큰 λ°°μ—΄κ³Ό λ™μΌν•œ λͺ¨μ–‘μœΌλ‘œ ν™•μž₯ν•˜μ—¬ μš”μ†Œλ³„(element-wise) 연산을 μˆ˜ν–‰ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ°˜λ³΅λ¬Έμ„ μ‚¬μš©ν•˜μ§€ μ•Šκ³ λ„ 효율적인 벑터화 연산을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.λΈŒλ‘œλ“œμΊμŠ€νŠΈλŠ” μ‚°μˆ  μ—°μ‚° 쀑에 numpyκ°€ λ‹€μ–‘ν•œ λͺ¨μ–‘을 가진 배열을 μ–΄λ–»κ²Œ μ²˜λ¦¬ν•˜λŠ”μ§€ μ„€λͺ…ν•©λ‹ˆλ‹€.νŠΉμ • μ œμ•½ 쑰건에 따라 더 μž‘μ€ 배열은 더 큰 배열에 걸쳐 "λΈŒλ‘œλ“œμΊμŠ€νŠΈ"λ˜μ–΄ ν˜Έν™˜ κ°€λŠ₯ν•œ λͺ¨μ–‘을 κ°–μŠ΅λ‹ˆλ‹€.ExamplesA (2d array): 5 x 4B (1d array): 1Result (2d array): 5 x 4..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Introduction to Numpy part.1

Introduction to Numpy NumpyλŠ” numberal Python의 μ•½μžλ‘œ, 수치 계산을 μ§€μ›ν•˜κΈ° μœ„ν•œ Python 라이브러리 νŒ¨ν‚€μ§€ μž…λ‹ˆλ‹€.Numpyμ—μ„œ 기본적인 데이터 κ΅¬μ‘°λŠ” ndarrayλΌλŠ” 닀차원 λ°°μ—΄ κ°μ²΄μž…λ‹ˆλ‹€.NumpyλŠ” ndarray의 μš”μ†Œλ“€μ„ 효율적으둜 μ‘°μž‘ν•  수 μžˆλŠ” 일련의 ν•¨μˆ˜λ“€μ„ μ œκ³΅ν•œλ‹€λŠ” νŠΉμ§•μ΄ μžˆμŠ΅λ‹ˆλ‹€.μ„€λͺ…μ„œλ₯Ό 보렀면 μ•„λž˜ 링크λ₯Ό μ°Έκ³ ν•˜μ„Έμš”. NumPy documentation — NumPy v2.0 ManualThe reference guide contains a detailed description of the functions, modules, and objects included in NumPy. The reference describes how the met..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Visualizing Data

데이터 μ‹œκ°ν™”λ₯Ό μœ„ν•œ 두 가지 μ£Όμš” μš©λ„λ°μ΄ν„°λ₯Ό νƒμƒ‰ν•˜λ €λ©΄? 두 가지 μ£Όμš” μš©λ„μ— λ°ν•˜μ—¬ μ•Œμ•„μ•Ό ν•©λ‹ˆλ‹€. νƒμƒ‰μ  데이터 뢄석 (Exploratory Data Analysis, EDA)λͺ©μ : λ°μ΄ν„°μ˜ νŒ¨ν„΄, νŠΈλ Œλ“œ, μ΄μƒμΉ˜λ₯Ό μ‹λ³„ν•˜κ³  μ΄ν•΄ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. μ΄λŠ” λ°μ΄ν„°μ˜ ꡬ쑰λ₯Ό νŒŒμ•…ν•˜κ³  톡계적 관계λ₯Ό λ°œκ²¬ν•˜λŠ” 초기 λ‹¨κ³„μ—μ„œ 맀우 μ€‘μš”ν•©λ‹ˆλ‹€.도ꡬ: νžˆμŠ€ν† κ·Έλž¨, λ°•μŠ€ ν”Œλ‘―, 산점도, 열지도와 같은 κ·Έλž˜ν”„κ°€ 주둜 μ‚¬μš©λ©λ‹ˆλ‹€.μ„€λͺ…적 데이터 뢄석 (Explanatory Data Analysis)λͺ©μ : νŠΉμ • λ°œκ²¬μ΄λ‚˜ 톡찰을 μ „λ‹¬ν•˜κΈ° μœ„ν•΄ 데이터λ₯Ό μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•©λ‹ˆλ‹€. μ΄λŠ” 데이터λ₯Ό 톡해 μ΄μ•ΌκΈ°ν•˜κ±°λ‚˜ μ˜μ‚¬ 결정을 μ§€μ›ν•˜λŠ” κ³Όμ •μ—μ„œ μ€‘μš”ν•©λ‹ˆλ‹€.도ꡬ: λ§‰λŒ€ κ·Έλž˜ν”„, 파이 차트, μ„  κ·Έλž˜ν”„, λŒ€μ‹œλ³΄λ“œ 등이 주둜 μ‚¬μš©λ©λ‹ˆ..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Crash_Course in Python Part.2

The Not-So-BasicsSortingx = [4,1,2,3]y = sorted(x) # is [1,2,3,4], x is unchangedx.sort() # now x is [1,2,3,4]# sort the list by absolute value from largest to smallestx = sorted([-4,1,-2,3], key=abs, reverse=True) # is [-4,3,-2,1]# sort the words and counts from highest count to lowestwc = sorted(word_counts.items(), key=lambda x: x[1], # x[1] λ‘λ²ˆμ§Έ 값을 κΈ°μ€€μœΌλ‘œ μ •λ ¬ rev..

πŸ“ˆ Data Engineering/πŸ“ Data Mining

[Data Mining] Crash_Course in Python Part.1

곡백 μ„œμ‹ μ§€μ •λ§Žμ€ 언어듀이 μ½”λ“œ λΈ”λ‘λ“€μ˜ 경계λ₯Ό μ •ν•˜κΈ° μœ„ν•΄ κ΄„ν˜Έλ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. νŒŒμ΄μ¬μ€ 이걸 indentation(' : ') 이라고 λΆ€λ¦…λ‹ˆλ‹€.for i in [1, 2, 3, 4, 5]: print(i) for j in [1, 2, 3, 4, 5]: print(j) print(i + j) print(i)print("done looping")1122334455612132435465723142536475834152637485945162738495105done looping κ΄„ν˜Έ 및 κ΄„ν˜Έ μ•ˆμ— 곡백을 λ¬΄μ‹œν•˜λŠ” κ²½μš°μž…λ‹ˆλ‹€.long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + ..

Bigbread1129
'πŸ“ˆ Data Engineering' μΉ΄ν…Œκ³ λ¦¬μ˜ κΈ€ λͺ©λ‘ (5 Page)