π Data Engineering/π Data Mining
2024.07.14
Describing a Single Set of Data (λ¨μΌ λ°μ΄ν° μΈνΈ)λ¨μΌ λ°μ΄ν° μΈνΈ(describing a single set of data)λ νλμ λ°μ΄ν° μΈνΈμ λν νΉμ±μ΄λ νΉμ§μ μ€λͺ
νκ³ λΆμνλ κ³Όμ μ μλ―Έν©λλ€.μ΄λ₯Ό ν΅ν΄ λ°μ΄ν°μ μ€μ¬ κ²½ν₯, λΆμ°, νν λ° λΆν¬ λ±μ νμ
ν μ μμ΅λλ€.μλ₯Ό λ€μ΄λ³΄λ©΄, λͺ¨κΈ νλ λ¨μ²΄μ λΆμ¬μ₯μ΄ νμλ€μ΄ μΉκ΅¬λ₯Ό μΌλ§λ κ°μ§κ³ μλμ§μ λν μ€λͺ
μ μμ²νμ΅λλ€.from collections import Counterfrom linear_algebra import sum_of_squares, dotimport mathfrom operator import addnum_friends = [100,49,41,40,25,21,21,19,19,18,18,16..
π Data Engineering/π Data Analysis
2024.07.12
Data Preprocessing (λ°μ΄ν° μ μ²λ¦¬) κ°μλ°μ΄ν° μ μ²λ¦¬λ?λ°μ΄ν° μ μ²λ¦¬λ μμ λ°μ΄ν°λ₯Ό λΆμ λ° λͺ¨λΈλ§μ μ ν©νκ² λ³ννλ κ³Όμ μ μλ―Έν©λλ€.μ΄λ λ°μ΄ν°μ μ μ , λ³ν, ν΅ν© λ±μ ν¬ν¨νλ©°, λ°μ΄ν° νμ§μ λμ¬ μ λ’°μ± μλ λΆμμ κ°λ₯νκ² ν©λλ€. λ°μ΄ν° μ μ²λ¦¬μ μ€μμ± λ° νμμ±λ°μ΄ν° μ μ²λ¦¬λ λ€μκ³Ό κ°μ μ΄μ λ‘ λ§€μ° μ€μν©λλ€.λ°μ΄ν° νμ§ ν₯μ: μ ννκ³ μΌκ΄λ λ°μ΄ν°λ₯Ό ν보νμ¬ λΆμμ κΈ°μ΄λ₯Ό νΌνΌν ν©λλ€.λͺ¨λΈ μ±λ₯ μ΅μ ν: μ μ ν μ μ²λ¦¬λ λ°μ΄ν°λ λͺ¨λΈμ μ±λ₯μ ν₯μμν€κ³ , μμΈ‘ μ νλλ₯Ό λμ
λλ€.λΆμμ μ λ’°μ± ν₯μ: κΉ¨λν λ°μ΄ν°λ₯Ό μ¬μ©ν¨μΌλ‘μ¨ λΆμ κ²°κ³Όμ μ λ’°μ±μ λμ
λλ€.λ°μ΄ν° νμ©μ ν¨μ¨μ± ν₯μ: λ°μ΄ν° μ μ²λ¦¬λ₯Ό ν΅ν΄ λΆμ μμ
μ΄ λ ν¨μ¨μ μΌλ‘ μνλ μ μμ΅λλ€. λ°μ΄ν° μ ..
π Data Engineering/π Data Analysis
2024.07.12
λ°μ΄ν° μμ§ν¬λ‘€λ§ (Crawling)ν¬λ‘€λ§(crawling)μ μλνλ μ€ν¬λ¦½νΈλ₯Ό μ¬μ©νμ¬ μΉ νμ΄μ§λ₯Ό νμνκ³ λ°μ΄ν°λ₯Ό μμ§νλ λ°©λ²μ
λλ€.μ΄λ μΉ μ¬μ΄νΈ μ 체 λλ λ€μμ νμ΄μ§λ₯Ό νμνλ©΄μ λ°μ΄ν°λ₯Ό μΆμΆνλ κ³Όμ μΌλ‘, κ²μ μμ§μ ν¬λ‘€λ¬μ μ μ¬ν©λλ€.μλνλ μ€ν¬λ¦½νΈ: ν¬λ‘€λ¬λ νΉμ κ·μΉμ λ°λΌ μΉ νμ΄μ§λ₯Ό λ°©λ¬Ένκ³ , ν΄λΉ νμ΄μ§μ μ½ν
μΈ λ₯Ό μμ§νλ μλνλ μ€ν¬λ¦½νΈμ
λλ€.μ 체 μ¬μ΄νΈ λλ λ€μμ νμ΄μ§ νμ: ν¬λ‘€λ§μ μΌλ°μ μΌλ‘ μ 체 μΉ μ¬μ΄νΈλ₯Ό νμνκ±°λ, λ€μμ νμ΄μ§λ₯Ό μμ°¨μ μΌλ‘ λ°©λ¬Ένμ¬ λ°μ΄ν°λ₯Ό μμ§ν©λλ€.κ²μ μμ§μ ν¬λ‘€λ¬μ μ μ¬: κ²μ μμ§ ν¬λ‘€λ¬λ μΉ νμ΄μ§λ₯Ό μΈλ±μ±νμ¬ κ²μ κ²°κ³Όλ₯Ό μ 곡νλλ°, μ΄μ μ μ¬ν λ°©μμΌλ‘ λ°μ΄ν°λ₯Ό μμ§ν©λλ€. μ€ν¬λν (Scrapping)μ€ν¬λν(scrap..
π Data Engineering/π Data Analysis
2024.07.12
λ°μ΄ν°μ ννλ°μ΄ν°λ 무μμΌκΉμ? λ°μ΄ν°λ μμ¬κ²°μ λ° λΆμμ μν μμμ¬ μ
λλ€.λν μ 보μ λ¨μλ‘, λ€μν ννλ‘ μ‘΄μ¬ν μ μμ΅λλ€.μμ λ°μ΄ν°(raw data)λ μ§μ μμ§λ μ 보λ‘, μμ§ κ°κ³΅λμ§ μμ μνμ
λλ€.λ°μ΄ν°λ μμ¬κ²°μ λ° λΆμμ μν μμμ¬λ‘, μ΄λ₯Ό ν΅ν΄ ν΅μ°°λ ₯(insight)μ μ»κ³ , λ€μν λ¬Έμ λ₯Ό ν΄κ²°ν μ μμ΅λλ€. λ°μ΄ν°μ μ€μμ±λ°μ΄ν°λ νλ μ¬νμμ νμμ μΈ μμμΌλ‘ μ리μ‘κ³ μμ΅λλ€.μμ¬κ²°μ λꡬ - λ°μ΄ν° μ€μ¬ μ¬κ³ κ³Όκ±°μλ κ²½νκ³Ό μ§κ΄μ μμ‘΄ν μμ¬κ²°μ μ΄ μ£Όλ₯Ό μ΄λ€λ€λ©΄, μ€λλ μλ λ°μ΄ν° μ€μ¬ μ¬κ³ (data-driven thinking)κ° μ€μν©λλ€.λ°μ΄ν° μ€μ¬ μ¬κ³ λ μμ¬κ²°μ κ³Όμ μμ κ°κ΄μ μ΄κ³ κ³Όνμ μΈ μ κ·Όμ κ°λ₯νκ² ν©λλ€. λΉ
λ°μ΄ν° μλλΉ
λ°μ΄ν°λ λ§λν μμ λ°μ΄..
π Data Engineering/π Data Mining
2024.07.09
Linear AlgebraLinear Algebra (μ νλμν)μ λ²‘ν° κ³΅κ°, νλ ¬, μ ν λ³ν λ±μ κ°λ
μ μ°κ΅¬νλ μνμ ν λΆμΌμ
λλ€μ£Όλ‘ λ€μ°¨μ 곡κ°μμμ 벑ν°μ νλ ¬μ μ°μ° λ° μ΄λ€ κ°μ κ΄κ³λ₯Ό λ€λ£¨λ©°, 곡ν, 물리ν, μ»΄ν¨ν° κ³Όν λ± λ€μν λΆμΌμμ μ€μν μν μ ν©λλ€.λν λ§μ λ°μ΄ν° κ³Όν κ°λ
κ³Ό κΈ°μ μ λ·λ°μΉ¨ν©λλ€.import re, math, random # regexes, math functions, random numbersimport matplotlib.pyplot as plt # pyplotfrom collections import defaultdict, Counterfrom functools import partial, reduce VectorsVectorsλ μ΄λ€ finite..
π Data Engineering/π Data Mining
2024.07.05
BroadcastingNumpyμ Broadcastingμ μλ‘ λ€λ₯Έ ν¬κΈ°μ λ°°μ΄ κ°μ μ°μ°μ κ°λ₯νκ² νλ κ°λ ₯ν κΈ°λ₯μ
λλ€. Broadcastingμ ν΅ν΄ Numpyλ λ μμ λ°°μ΄μ λ ν° λ°°μ΄κ³Ό λμΌν λͺ¨μμΌλ‘ νμ₯νμ¬ μμλ³(element-wise) μ°μ°μ μνν μ μμ΅λλ€. μ΄λ λ°λ³΅λ¬Έμ μ¬μ©νμ§ μκ³ λ ν¨μ¨μ μΈ λ²‘ν°ν μ°μ°μ κ°λ₯νκ² ν©λλ€.λΈλ‘λμΊμ€νΈλ μ°μ μ°μ° μ€μ numpyκ° λ€μν λͺ¨μμ κ°μ§ λ°°μ΄μ μ΄λ»κ² μ²λ¦¬νλμ§ μ€λͺ
ν©λλ€.νΉμ μ μ½ μ‘°κ±΄μ λ°λΌ λ μμ λ°°μ΄μ λ ν° λ°°μ΄μ κ±Έμ³ "λΈλ‘λμΊμ€νΈ"λμ΄ νΈν κ°λ₯ν λͺ¨μμ κ°μ΅λλ€.ExamplesA (2d array): 5 x 4B (1d array): 1Result (2d array): 5 x 4..
π Data Engineering/π Data Mining
2024.06.26
Introduction to Numpy Numpyλ numberal Pythonμ μ½μλ‘, μμΉ κ³μ°μ μ§μνκΈ° μν Python λΌμ΄λΈλ¬λ¦¬ ν¨ν€μ§ μ
λλ€.Numpyμμ κΈ°λ³Έμ μΈ λ°μ΄ν° ꡬ쑰λ ndarrayλΌλ λ€μ°¨μ λ°°μ΄ κ°μ²΄μ
λλ€.Numpyλ ndarrayμ μμλ€μ ν¨μ¨μ μΌλ‘ μ‘°μν μ μλ μΌλ ¨μ ν¨μλ€μ μ 곡νλ€λ νΉμ§μ΄ μμ΅λλ€.μ€λͺ
μλ₯Ό λ³΄λ €λ©΄ μλ λ§ν¬λ₯Ό μ°Έκ³ νμΈμ. NumPy documentation — NumPy v2.0 ManualThe reference guide contains a detailed description of the functions, modules, and objects included in NumPy. The reference describes how the met..
π Data Engineering/π Data Mining
2024.06.25
λ°μ΄ν° μκ°νλ₯Ό μν λ κ°μ§ μ£Όμ μ©λλ°μ΄ν°λ₯Ό νμνλ €λ©΄? λ κ°μ§ μ£Όμ μ©λμ λ°νμ¬ μμμΌ ν©λλ€. νμμ λ°μ΄ν° λΆμ (Exploratory Data Analysis, EDA)λͺ©μ : λ°μ΄ν°μ ν¨ν΄, νΈλ λ, μ΄μμΉλ₯Ό μλ³νκ³ μ΄ν΄νλ λ° μ¬μ©λ©λλ€. μ΄λ λ°μ΄ν°μ ꡬ쑰λ₯Ό νμ
νκ³ ν΅κ³μ κ΄κ³λ₯Ό λ°κ²¬νλ μ΄κΈ° λ¨κ³μμ λ§€μ° μ€μν©λλ€.λꡬ: νμ€ν κ·Έλ¨, λ°μ€ νλ‘―, μ°μ λ, μ΄μ§λμ κ°μ κ·Έλνκ° μ£Όλ‘ μ¬μ©λ©λλ€.μ€λͺ
μ λ°μ΄ν° λΆμ (Explanatory Data Analysis)λͺ©μ : νΉμ λ°κ²¬μ΄λ ν΅μ°°μ μ λ¬νκΈ° μν΄ λ°μ΄ν°λ₯Ό μκ°μ μΌλ‘ ννν©λλ€. μ΄λ λ°μ΄ν°λ₯Ό ν΅ν΄ μ΄μΌκΈ°νκ±°λ μμ¬ κ²°μ μ μ§μνλ κ³Όμ μμ μ€μν©λλ€.λꡬ: λ§λ κ·Έλν, νμ΄ μ°¨νΈ, μ κ·Έλν, λμ보λ λ±μ΄ μ£Όλ‘ μ¬μ©λ©λ..
π Data Engineering/π Data Mining
2024.06.25
The Not-So-BasicsSortingx = [4,1,2,3]y = sorted(x) # is [1,2,3,4], x is unchangedx.sort() # now x is [1,2,3,4]# sort the list by absolute value from largest to smallestx = sorted([-4,1,-2,3], key=abs, reverse=True) # is [-4,3,-2,1]# sort the words and counts from highest count to lowestwc = sorted(word_counts.items(), key=lambda x: x[1], # x[1] λλ²μ§Έ κ°μ κΈ°μ€μΌλ‘ μ λ ¬ rev..
π Data Engineering/π Data Mining
2024.06.25
곡백 μμ μ§μ λ§μ μΈμ΄λ€μ΄ μ½λ λΈλ‘λ€μ κ²½κ³λ₯Ό μ νκΈ° μν΄ κ΄νΈλ₯Ό μ¬μ©ν©λλ€. νμ΄μ¬μ μ΄κ±Έ indentation(' : ') μ΄λΌκ³ λΆλ¦
λλ€.for i in [1, 2, 3, 4, 5]: print(i) for j in [1, 2, 3, 4, 5]: print(j) print(i + j) print(i)print("done looping")1122334455612132435465723142536475834152637485945162738495105done looping κ΄νΈ λ° κ΄νΈ μμ 곡백μ 무μνλ κ²½μ°μ
λλ€.long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + ..