๐ Data Engineering/๐ Machine Learning
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ์ต๊ณผ ํ๊ฐ ๊ณผ์ ์์ ์ค์ํ ์์๋ค์ ๋ํด ๋ค๋ฃจ๊ฒ ์ต๋๋ค.ํ๋ จ ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ์ ๋ถํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ํํ ํ๊ฐํ๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ์ธํ๊ธฐ ์ํด ๋ฐ์ดํฐ์
์ ํ๋ จ ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ๋ก ๋ถํ ํฉ๋๋ค.ํ๋ จ ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐ ์ฌ์ฉ๋๋ฉฐ, ํ
์คํธ ๋ฐ์ดํฐ๋ ํ์ต๋์ง ์์ ๋ฐ์ดํฐ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.์ผ๋ฐ์ ์ธ ๋น์จ:Train(ํ๋ จ ๋ฐ์ดํฐ) : Test(ํ
์คํธ ๋ฐ์ดํฐ) = 70:30Train(ํ๋ จ ๋ฐ์ดํฐ) : Test(ํ
์คํธ ๋ฐ์ดํฐ) = 80:20๋ฐ์ดํฐ ๋ถํ ๋ฐฉ๋ฒTrain(ํ๋ จ ๋ฐ์ดํฐ) & Test(ํ
์คํธ ๋ฐ์ดํฐ)๋ฅผ ์ด๋ ํ ๋น์จ๋ก ๋๋๋์ง ์์์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ์ด๋ ํ ๋ฐฉ๋ฒ์ผ๋ก ๋ถ๋ฆฌํ ๊น์?์์ ๋ถํ (Random Split):๋ฐ์ดํฐ๋ฅผ ๋ฌด์์๋ก ์์ ํ, ์ง์ ๋ ๋น์จ์ ๋ฐ๋ผ..
๐ Data Engineering/๐ Machine Learning
์ด๋ฒ์๋ Naive Bayes (๋์ด๋ธ ๋ฒ ์ด์ฆ)๋ผ๋ ๊ฐ๋
์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค.Naive Bayes (๋์ด๋ธ ๋ฒ ์ด์ฆ)๋์ด๋ธ ๋ฒ ์ด์ฆ(Naive Bayes)๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ํ์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์ํํ๋ ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์
๋๋ค.์ด ์๊ณ ๋ฆฌ์ฆ์ ๋
๋ฆฝ ๋ณ์๋ค์ด ์๋ก ๋
๋ฆฝ์ ์ด๋ผ๊ณ ๊ฐ์ ํ์ฌ ์๋ํฉ๋๋ค.์ด๋ฌํ ๊ฐ์ ํ์์ ๋์ด๋ธ ๋ฒ ์ด์ฆ๋ ๊ฐ๋จํ์ง๋ง ๊ฐ๋ ฅํ ๋ถ๋ฅ ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค.Bayes' Theorem (๋ฒ ์ด์ฆ ์ ๋ฆฌ)๋์ด๋ธ ๋ฒ ์ด์ฆ ์๊ณ ๋ฆฌ์ฆ์ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ๊ธฐ๋ฐ์ ๋๊ณ ์์ต๋๋ค.๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ์ฉํ์ฌ ํน์ ์ฌ๊ฑด์ ์ฌํ ํ๋ฅ ์ ๊ณ์ฐํ๋ ์ํ์ ์๋ฆฌ์
๋๋ค. ์๋๋ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ์์์
๋๋ค. P(AโฃB)P(A|B)P(AโฃB): ์ฌ๊ฑด B๊ฐ ์ผ์ด๋ฌ์ ๋ ์ฌ๊ฑด A๊ฐ ์ผ์ด๋ ํ๋ฅ (์ฌํ ํ๋ฅ , Posterior ..
๐ Data Engineering/๐ Machine Learning
์ด๋ฒ์๋ Linear Regression (์ ํํ๊ท)์ ๋ฐํ์ฌ ์์๋ณด๊ฒ ์ต๋๋ค.Linear Regression (์ ํํ๊ท)์ ํ ํ๊ท(Linear Regression)๋ ๋จธ์ ๋ฌ๋์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ํ๊ท ๋ถ์ ๊ธฐ๋ฒ ์ค ํ๋๋ก,๋
๋ฆฝ ๋ณ์์ ์ข
์ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ํ ๋ฐฉ์ ์์ผ๋ก ํํํฉ๋๋ค.์ด ๋ฐฉ๋ฒ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๊ฐ์ฅ ์ ๋ง๋ ์ง์ ์ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ์
๋๋ค.์ ํ ํ๊ท๋ ๋ชจ๋ธ์ด ๋น๊ต์ ๊ฐ๋จํ๊ณ ํด์์ด ์ฉ์ดํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.ํ๊ท ๋ฐฉ์ ์์ ํ ํ๊ท ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ํํ์ ๋ฐฉ์ ์์ ์ฌ์ฉํฉ๋๋ค. Y = β0 โ +β1โX + ฯต Y: ์ข
์ ๋ณ์ (์์ธกํ๋ ค๋ ๊ฐ)X: ๋
๋ฆฝ ๋ณ์ (์ค๋ช
๋ณ์)β0: ์ ํธ (Intercept)β1โ: ๊ธฐ์ธ๊ธฐ (Slope)ฯต: ์ค์ฐจ ํญ (Error Term, ๋ชจ๋ธ์ ์์ธก๊ณผ ์ค์ ..
๐ Data Engineering/๐ Machine Learning
์ด๋ฒ์๋ Supervised Learning (์ง๋ํ์ต)์ ๋ฐํ ๊ฐ๋
์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค.Supervised Learning (์ง๋ํ์ต)์ง๋ํ์ต์ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ๋ก, ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ ์๊ณ ๋ฆฌ์ฆ์
๋๋ค.์
๋ ฅ ๋ฐ์ดํฐ์ ์ด์ ์์ํ๋ ์ถ๋ ฅ ๊ฐ(๋ชฉํ ๋๋ ๋ผ๋ฒจ)์ด ์ฃผ์ด์ง๋ฉฐ, ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ตํ์ฌ ์๋ก์ด ์
๋ ฅ์ ๋ํด ์์ธก์ ์ํํ ์ ์์ต๋๋ค.์ง๋ํ์ต์ ํฌ๊ฒ ํ๊ท(Regression)์ ๋ถ๋ฅ(Classification)๋ก ๋๋ฉ๋๋ค.Regression (ํ๊ท)ํ๊ท๋ ์ฐ์์ ์ธ ์ซ์ ๊ฐ์ ์์ธกํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.์๋ฅผ ๋ค์ด, ์ฃผํ์ ๋ฉด์ , ๋ฐฉ ๊ฐ์, ์์น ๋ฑ์ ๊ธฐ๋ฐ์ผ๋ก ์ฃผํ ๊ฐ๊ฒฉ์ ์์ธกํ๋ ๊ฒฝ์ฐ๊ฐ ์ด์ ํด๋นํฉ๋๋ค.ํ๊ท ๋ฌธ์ ์์๋ ์์ธกํ๋ ค๋ ๊ฐ์ด ์ฐ์์ ์ธ ์ซ์๋ก ํํ๋ฉ๋๋ค.์..
๐ Data Engineering/๐น๏ธ ํผ๊ณต๋จธ์
Gradient Boosting (๊ทธ๋ ์ด์ธํธ ๋ถ์คํ
)๊ทธ๋ ์ด๋์ธํธ ๋ถ์คํ
(Gradient Boosting)์ ์์ ๊ฒฐ์ ํธ๋ฆฌ๋ค์ ์ฌ์ฉํ์ฌ ์ด์ ํธ๋ฆฌ์ ์ค์ฐจ๋ฅผ ๋ณด์ํ๋ ๋ฐฉ์์ผ๋ก ์์๋ธ์ ๊ตฌ์ฑํ๋ ๊ธฐ๋ฒ์
๋๋ค.์ฌ์ดํท๋ฐ์ GradientBoostingClassifier๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๊น์ด๊ฐ 3์ธ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ 100๊ฐ ์ฌ์ฉํฉ๋๋ค. ์์ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ณผ๋์ ํฉ์ ๊ฐํ๊ณ , ์ผ๋ฐ์ ์ผ๋ก ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ธฐ๋ํ ์ ์์ต๋๋ค.'๊ทธ๋ ์ด๋์ธํธ'๋ผ๋ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด, ์ด ๋ฐฉ๋ฒ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํธ๋ฆฌ๋ฅผ ์์๋ธ์ ์ถ๊ฐํฉ๋๋ค. ๋ถ๋ฅ ๋ฌธ์ ์์๋ ๋ก์ง์คํฑ ์์ค ํจ์๋ฅผ ์ฌ์ฉํ๊ณ , ํ๊ท ๋ฌธ์ ์์๋ ํ๊ท ์ ๊ณฑ ์ค์ฐจ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์๋ฆฌ์ฒ๋ผ, ๊ทธ๋ ์ด๋์ธํธ ๋ถ์คํ
์ ์์ค ํจ์์ ์ต์์ ์ ์ฐพ๊ธฐ ์ํด ๋ชจ๋ธ..
๐ Data Engineering/๐น๏ธ ํผ๊ณต๋จธ์
Extra Trees (์์คํธ๋ผ ํธ๋ฆฌ)์์คํธ๋ผ ํธ๋ฆฌ(Extra Trees)๋ ๋๋ค ํฌ๋ ์คํธ์ ๋งค์ฐ ์ ์ฌํ๊ฒ ๋์ํ๋ฉฐ, ๊ธฐ๋ณธ์ ์ผ๋ก 100๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ํ๋ จํฉ๋๋ค.์ด ๋ชจ๋ธ์ ๋๋ค ํฌ๋ ์คํธ์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋๋ถ๋ถ์ ๊ฒฐ์ ํธ๋ฆฌ ๋งค๊ฐ๋ณ์๋ฅผ ์ง์ํ๊ณ , ์ผ๋ถ ํน์ฑ์ ๋๋คํ๊ฒ ์ ํํ์ฌ ๋
ธ๋๋ฅผ ๋ถํ ํ๋ ๋ฐ ์ฌ์ฉํฉ๋๋ค.๋๋ค ํฌ๋ ์คํธ์ ์์คํธ๋ผ ํธ๋ฆฌ์ ์ฃผ์ ์ฐจ์ด์ ์ ๋ถํธ์คํธ๋ฉ ์ํ์ ์ฌ์ฉํ์ง ์๋๋ค๋ ์ ์
๋๋ค.์ฆ, ๊ฐ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ง๋ค ๋ ์ ์ฒด ํ๋ จ ์ธํธ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋์ , ๋
ธ๋๋ฅผ ๋ถํ ํ ๋ ๊ฐ์ฅ ์ข์ ๋ถํ ์ ์ฐพ์ง ์๊ณ ๋ฌด์์๋ก ๋ถํ ํฉ๋๋ค.์ฌ์ค, ์ด์ ์ DecisionTreeClassifier์ spliter ๋งค๊ฐ๋ณ์๋ฅผ 'random'์ผ๋ก ์ค์ ํ ๊ฒ์ด ๋ฐ๋ก ์์คํธ๋ผ ํธ๋ฆฌ์์ ์ฌ์ฉํ๋ ๋ฐฉ์์
๋๋ค.๊ฐ ๊ฒฐ์ ํธ๋ฆฌ์์ ํน์ฑ์ ๋ฌด..
๐ Data Engineering/๐น๏ธ ํผ๊ณต๋จธ์
์ ํ ๋ฐ์ดํฐ์ ๋น์ ํ ๋ฐ์ดํฐ๋๋ค ํฌ๋ ์คํธ์ ๋ํด ๋ฐฐ์ฐ๊ธฐ ์ ์ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃจ์๋ ๋ฐ์ดํฐ๋ฅผ ๋๋์๋ณด๊ฒ ์ต๋๋ค.๊ธธ์ด, ๋์ด, ๋ฌด๊ฒ ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ๋ CSV ํ์ผ์ ๊ฐ์ง๋ฐํ ์ ๋ฆฌ๋์ด ์์์ฃ .์ด๋ฒ์๋ ์ฌ์ฉํ ์์ธ ๋ฐ์ดํฐ๋ CSV ํ์ผ์ด์์ต๋๋ค.# CSV ํ์ผ ์์length, height, width8.4, 2.11, 1.4113.7, 3.53, 2.0์ด๋ฐ ํํ์ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ฐ์ดํฐ(structured data)๋ผ๊ณ ๋ถ๋ฆ
๋๋ค. ์ฝ๊ฒ ๋งํด, ์ด๋ค ๊ตฌ์กฐ๋ก ๋์ด์๋ค๋ ๋ป์ด์ฃ .์ด๋ฐ ๋ฐ์ดํฐ๋ CSV๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค(DataBase), ํน์ ์์
(Excel)์ ์ ์ฅํ๊ธฐ ์ฝ์ต๋๋ค.์จ๋ผ์ธ ์ผํ๋ชฐ์ ์ง์ด๋ ์ํ๊ณผ ์ฐ๋ฆฌ๊ฐ ๊ตฌ๋งคํ ์ผํ ์ ๋ณด๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ์ฅ๋๋ ์ ํ ๋ฐ์ดํฐ์ ์ํฉ๋๋ค.์ฌ์ค ํ๋ก๊ทธ๋๋จธ๊ฐ ..
๐ Data Engineering/๐น๏ธ ํผ๊ณต๋จธ์
Validation Set (๊ฒ์ฆ ์ธํธ)Test Dataset์ ์ฌ์ฉํ์ง ์์ผ๋ฉด ๋ชจ๋ธ์ด ๊ณผ๋์ ํฉ์ธ์ง ๊ณผ์์ ํฉ์ธ์ง ํ๋จํ๊ธฐ ์ด๋ ต์ต๋๋ค.ํ
์คํธ ์ธํธ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ์ด๋ฅผ ์ธก์ ํ๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ Training Dataset์ ๋๋๋ ๋ฐฉ๋ฒ์
๋๋ค.์ด ๋๋ Dataset๋ฅผ Validation Set (๊ฒ์ฆ ์ธํธ)๋ผ๊ณ ๋ถ๋ฆ
๋๋ค.์ ์ฒด ๋ฐ์ดํฐ์
์ด 100%๋ผ๊ณ ํ๋ฉด ์ ์ฒด ๋ฐ์ดํฐ์
์ค์์ 20%๋ง Test Dataset์ผ๋ก ๋ง๋ค๊ณ , 80%๋ฅผ Train Dataset์ผ๋ก ๊ตฌ์ฑํ์ผ๋ฉด, ์ด Training Dataset์ค 20%๋ฅผ ๋ผ์ด ๋ด์ด์ Validation Dataset์ผ๋ก ๋๋๋๋ค.Training Dataset์์ Model์ Trainingํ๊ณ Validation Set๋ก ๋ชจ๋ธ์ ํ๊ฐํฉ๋๋ค.์ด๋ฐ์์ผ๋ก Test ํ๊ณ ์ถ..
๐ Data Engineering/๐ Machine Learning
์ด๋ฒ๊ธ๋ถํฐ๋ Machine Learning (๋จธ์ ๋ฌ๋)์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.Machine Learning ์๊ฐMachine Learning (๊ธฐ๊ณํ์ต)์ ๋ฌด์์ผ๊น์? ๋จธ์ ๋ฌ๋์ ์ธ๊ณต์ง๋ฅ์ ํ ๋ถ์ผ๋ก, ๋ฐ์ดํฐ์์ ํจํด์ ํ์ตํ๊ณ ์์ธกํ๊ฑฐ๋ ์์ฌ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํฉ๋๋ค.์ฌ๋์ ๊ฐ์
์์ด๋ ์ค์ค๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ง ์์คํ
์
๋๋ค.๋ํ ์ฃผ์ ํน์ง์ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ตํ๋ฉด์ ์ง์์ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ชจ๋ธ์
๋๋ค.๊ทธ๋ฌ๋ฉด ํ๋ฒ ์์๋ฅผ ๋ค์ด์ ๋จธ์ ๋ฌ๋์ด ์๋ค๋ฉด ์ด๋ป๊ฒ ๋ ๊น์?๋จธ์ ๋ฌ๋์ด ์๋ค๋ฉด? (์คํธ๋ฉ์ผ ์์)์ ํต์ ์ ๊ทผ: ์คํธ์ผ๋ก ์์ฌ๋๋ ๋จ์ด์ ๋ํ ๋ธ๋๋ฆฌ์คํธ๋ฅผ ๊ตฌ์ถํ๊ณ , ์๋ก์ด ๋จ์ด๊ฐ ์์ ๋๋ง๋ค ์ถ๊ฐํฉ๋๋ค.์ด ๊ณผ์ ์๋ ์คํธ์ผ๋ก ์์ฌ๋๋ ๋จ์ด๋ฅผ ์ ํ๊ธฐ ์ํด ์ ๋ฌธ๊ฐ๊ฐ ..
๐ Data Engineering/๐ Data Analysis
์๊ฐํ์ ๋์์ธ ์์น์๊ฐํ์ ๋์์ธ ์์น์ 5๊ฐ์ง๊ฐ ์์ต๋๋ค. ํ๋ฒ ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.๋ชฉ์ ์ฑ์ ์: ์๊ฐํ์ ๋ชฉ์ ์ ๋ช
ํํ ํ๋ ๊ฒ.์ค๋ช
: ์๊ฐํ๋ ํน์ ์ง๋ฌธ์ ๋ตํ๊ฑฐ๋, ํน์ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๊ฑฐ๋, ๋ฐ์ดํฐ๋ฅผ ๋ ์ฝ๊ฒ ์ดํดํ ์ ์๋๋ก ๋๋ ์ญํ ์ ํฉ๋๋ค.์์: ๋งค์ถ ์ฆ๊ฐ์ ์์ธ์ ํ์
ํ๊ธฐ ์ํ ๊ทธ๋ํ, ์ ํ๋ณ ํ๋งค๋ ๋น๊ต๋ฅผ ์ํ ์ฐจํธ.๊ฐ๊ฒฐ์ฑ์ ์: ๊ฐ๊ฒฐํ๊ณ , ๋ณต์กํ์ง ์์์ผ ํจ.์ค๋ช
: ๋ถํ์ํ ์์๋ฅผ ์ ๊ฑฐํ์ฌ ํต์ฌ ์ ๋ณด๋ฅผ ๊ฐ๊ฒฐํ๊ฒ ์ ๋ฌํด์ผ ํฉ๋๋ค. ์ง๋์น๊ฒ ๋ณต์กํ ๊ทธ๋ํ๋ ์คํ๋ ค ํผ๋์ ์ด๋ํ ์ ์์ต๋๋ค.์์: ๋ถํ์ํ ๊ทธ๋ฆฌ๋ ๋ผ์ธ, ๊ณผ๋ํ ์์ ์ฌ์ฉ, ๋ถํ์ํ ํ
์คํธ ๋ฑ์ ์ ๊ฑฐํ ๊ทธ๋ํ.๋ช
ํ์ฑ์ ์: ๋ฐ์ดํฐ๋ฅผ ๋ช
ํํ ์ ๋ฌํด์ผ ํจ.์ค๋ช
: ์ ์ ํ ๋ ์ด๋ธ, ์ถ, ์ ๋ชฉ์ ์ฌ์ฉํ์ฌ ์ ๋ณด๋ฅผ ๋ช
ํํ ์ ๋ฌํด์ผ ํฉ๋๋ค...