๐Ÿ“ˆ Data Engineering

๐Ÿ“ˆ Data Engineering/๐Ÿ“‡ Machine Learning

[ML] Model์˜ ํ•™์Šต๊ณผ ํ‰๊ฐ€

๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ํ•™์Šต๊ณผ ํ‰๊ฐ€ ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ์š”์†Œ๋“ค์— ๋Œ€ํ•ด ๋‹ค๋ฃจ๊ฒ ์Šต๋‹ˆ๋‹ค.ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํ• ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ •ํ™•ํžˆ ํ‰๊ฐ€ํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์…‹์„ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค.ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋ฉฐ, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ํ•™์Šต๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ์—์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.์ผ๋ฐ˜์ ์ธ ๋น„์œจ:Train(ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ) : Test(ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ) = 70:30Train(ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ) : Test(ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ) = 80:20๋ฐ์ดํ„ฐ ๋ถ„ํ•  ๋ฐฉ๋ฒ•Train(ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ) & Test(ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ)๋ฅผ ์–ด๋– ํ•œ ๋น„์œจ๋กœ ๋‚˜๋ˆ„๋Š”์ง€ ์•Œ์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์–ด๋– ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ถ„๋ฆฌํ• ๊นŒ์š”?์ž„์˜ ๋ถ„ํ• (Random Split):๋ฐ์ดํ„ฐ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ž์€ ํ›„, ์ง€์ •๋œ ๋น„์œจ์— ๋”ฐ๋ผ..

๐Ÿ“ˆ Data Engineering/๐Ÿ“‡ Machine Learning

[ML] Naive Bayes (๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ)

์ด๋ฒˆ์—๋Š” Naive Bayes (๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ)๋ผ๋Š” ๊ฐœ๋…์— ๋ฐํ•˜์—ฌ ํ•œ๋ฒˆ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.Naive Bayes (๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ)๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ(Naive Bayes)๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ํ™œ์šฉํ•˜์—ฌ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์ง€๋„ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋…๋ฆฝ ๋ณ€์ˆ˜๋“ค์ด ์„œ๋กœ ๋…๋ฆฝ์ ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜์—ฌ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.์ด๋Ÿฌํ•œ ๊ฐ€์ • ํ•˜์—์„œ ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ๋Š” ๊ฐ„๋‹จํ•˜์ง€๋งŒ ๊ฐ•๋ ฅํ•œ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.Bayes' Theorem (๋ฒ ์ด์ฆˆ ์ •๋ฆฌ)๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์— ๊ธฐ๋ฐ˜์„ ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ์‚ฌ๊ฑด์˜ ์‚ฌํ›„ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๋Š” ์ˆ˜ํ•™์  ์›๋ฆฌ์ž…๋‹ˆ๋‹ค. ์•„๋ž˜๋Š” ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ์ˆ˜์‹์ž…๋‹ˆ๋‹ค. P(AโˆฃB)P(A|B)P(AโˆฃB): ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚ฌ์„ ๋•Œ ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ  (์‚ฌํ›„ ํ™•๋ฅ , Posterior ..

๐Ÿ“ˆ Data Engineering/๐Ÿ“‡ Machine Learning

[ML] Linear Regression (์„ ํ˜•ํšŒ๊ท€)

์ด๋ฒˆ์—๋Š” Linear Regression (์„ ํ˜•ํšŒ๊ท€)์— ๋ฐํ•˜์—ฌ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.Linear Regression (์„ ํ˜•ํšŒ๊ท€)์„ ํ˜• ํšŒ๊ท€(Linear Regression)๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ํšŒ๊ท€ ๋ถ„์„ ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ,๋…๋ฆฝ ๋ณ€์ˆ˜์™€ ์ข…์† ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์„ ํ˜• ๋ฐฉ์ •์‹์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.์ด ๋ฐฉ๋ฒ•์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ๊ฐ€์žฅ ์ž˜ ๋งž๋Š” ์ง์„ ์„ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.์„ ํ˜• ํšŒ๊ท€๋Š” ๋ชจ๋ธ์ด ๋น„๊ต์  ๊ฐ„๋‹จํ•˜๊ณ  ํ•ด์„์ด ์šฉ์ดํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.ํšŒ๊ท€ ๋ฐฉ์ •์‹์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ์˜ ๋ฐฉ์ •์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Y = β0 โ€‹ +β1โ€‹X + ฯต Y: ์ข…์† ๋ณ€์ˆ˜ (์˜ˆ์ธกํ•˜๋ ค๋Š” ๊ฐ’)X: ๋…๋ฆฝ ๋ณ€์ˆ˜ (์„ค๋ช… ๋ณ€์ˆ˜)β0: ์ ˆํŽธ (Intercept)β1โ€‹: ๊ธฐ์šธ๊ธฐ (Slope)ฯต: ์˜ค์ฐจ ํ•ญ (Error Term, ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ณผ ์‹ค์ œ ..

๐Ÿ“ˆ Data Engineering/๐Ÿ“‡ Machine Learning

[ML] Supervised Learning (์ง€๋„ํ•™์Šต)

์ด๋ฒˆ์—๋Š” Supervised Learning (์ง€๋„ํ•™์Šต)์— ๋ฐํ•œ ๊ฐœ๋…์— ๋ฐํ•˜์—ฌ ํ•œ๋ฒˆ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.Supervised Learning (์ง€๋„ํ•™์Šต)์ง€๋„ํ•™์Šต์€ ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ๋กœ, ๋ผ๋ฒจ์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ์ด์— ์ƒ์‘ํ•˜๋Š” ์ถœ๋ ฅ ๊ฐ’(๋ชฉํ‘œ ๋˜๋Š” ๋ผ๋ฒจ)์ด ์ฃผ์–ด์ง€๋ฉฐ, ๋ชจ๋ธ์€ ์ด ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž…๋ ฅ์— ๋Œ€ํ•ด ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.์ง€๋„ํ•™์Šต์€ ํฌ๊ฒŒ ํšŒ๊ท€(Regression)์™€ ๋ถ„๋ฅ˜(Classification)๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.Regression (ํšŒ๊ท€)ํšŒ๊ท€๋Š” ์—ฐ์†์ ์ธ ์ˆซ์ž ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.์˜ˆ๋ฅผ ๋“ค์–ด, ์ฃผํƒ์˜ ๋ฉด์ , ๋ฐฉ ๊ฐœ์ˆ˜, ์œ„์น˜ ๋“ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฃผํƒ ๊ฐ€๊ฒฉ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ด์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.ํšŒ๊ท€ ๋ฌธ์ œ์—์„œ๋Š” ์˜ˆ์ธกํ•˜๋ ค๋Š” ๊ฐ’์ด ์—ฐ์†์ ์ธ ์ˆซ์ž๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.์˜ˆ..

๐Ÿ“ˆ Data Engineering/๐Ÿ•น๏ธ ํ˜ผ๊ณต๋จธ์‹ 

[ํ˜ผ๊ณต๋จธ์‹ ] Tree's Ensemble - Gradient Boosting (๊ทธ๋ ˆ์ด์–ธํŠธ ๋ถ€์ŠคํŒ…)

Gradient Boosting (๊ทธ๋ ˆ์ด์–ธํŠธ ๋ถ€์ŠคํŒ…)๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ…(Gradient Boosting)์€ ์–•์€ ๊ฒฐ์ • ํŠธ๋ฆฌ๋“ค์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด์ „ ํŠธ๋ฆฌ์˜ ์˜ค์ฐจ๋ฅผ ๋ณด์™„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์•™์ƒ๋ธ”์„ ๊ตฌ์„ฑํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.์‚ฌ์ดํ‚ท๋Ÿฐ์˜ GradientBoostingClassifier๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ๊นŠ์ด๊ฐ€ 3์ธ ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ 100๊ฐœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์–•์€ ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณผ๋Œ€์ ํ•ฉ์— ๊ฐ•ํ•˜๊ณ , ์ผ๋ฐ˜์ ์œผ๋กœ ๋†’์€ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.'๊ทธ๋ ˆ์ด๋””์–ธํŠธ'๋ผ๋Š” ์ด๋ฆ„์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด, ์ด ๋ฐฉ๋ฒ•์€ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠธ๋ฆฌ๋ฅผ ์•™์ƒ๋ธ”์— ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ๋Š” ๋กœ์ง€์Šคํ‹ฑ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ํšŒ๊ท€ ๋ฌธ์ œ์—์„œ๋Š” ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ์›๋ฆฌ์ฒ˜๋Ÿผ, ๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ…์€ ์†์‹ค ํ•จ์ˆ˜์˜ ์ตœ์†Œ์ ์„ ์ฐพ๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ..

๐Ÿ“ˆ Data Engineering/๐Ÿ•น๏ธ ํ˜ผ๊ณต๋จธ์‹ 

[ํ˜ผ๊ณต๋จธ์‹ ] Tree's Ensemble - Extra Tree (์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ)

Extra Trees (์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ)์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ(Extra Trees)๋Š” ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์™€ ๋งค์šฐ ์œ ์‚ฌํ•˜๊ฒŒ ๋™์ž‘ํ•˜๋ฉฐ, ๊ธฐ๋ณธ์ ์œผ๋กœ 100๊ฐœ์˜ ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.์ด ๋ชจ๋ธ์€ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฐ์ • ํŠธ๋ฆฌ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ง€์›ํ•˜๊ณ , ์ผ๋ถ€ ํŠน์„ฑ์„ ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒํ•˜์—ฌ ๋…ธ๋“œ๋ฅผ ๋ถ„ํ• ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์™€ ์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ์˜ ์ฃผ์š” ์ฐจ์ด์ ์€ ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.์ฆ‰, ๊ฐ ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ๋งŒ๋“ค ๋•Œ ์ „์ฒด ํ›ˆ๋ จ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋Œ€์‹ , ๋…ธ๋“œ๋ฅผ ๋ถ„ํ• ํ•  ๋•Œ ๊ฐ€์žฅ ์ข‹์€ ๋ถ„ํ• ์„ ์ฐพ์ง€ ์•Š๊ณ  ๋ฌด์ž‘์œ„๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค.์‚ฌ์‹ค, ์ด์ „์— DecisionTreeClassifier์˜ spliter ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ 'random'์œผ๋กœ ์„ค์ •ํ•œ ๊ฒƒ์ด ๋ฐ”๋กœ ์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.๊ฐ ๊ฒฐ์ • ํŠธ๋ฆฌ์—์„œ ํŠน์„ฑ์„ ๋ฌด..

๐Ÿ“ˆ Data Engineering/๐Ÿ•น๏ธ ํ˜ผ๊ณต๋จธ์‹ 

[ํ˜ผ๊ณต๋จธ์‹ ] Tree's Ensemble - Random Forest (๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ)

์ •ํ˜• ๋ฐ์ดํ„ฐ์™€ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์— ๋Œ€ํ•ด ๋ฐฐ์šฐ๊ธฐ ์ „์— ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃจ์—ˆ๋˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋˜๋Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.๊ธธ์ด, ๋†’์ด, ๋ฌด๊ฒŒ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋Š” CSV ํŒŒ์ผ์— ๊ฐ€์ง€๋Ÿฐํžˆ ์ •๋ฆฌ๋˜์–ด ์žˆ์—ˆ์ฃ .์ด๋ฒˆ์—๋„ ์‚ฌ์šฉํ•œ ์™€์ธ ๋ฐ์ดํ„ฐ๋„ CSV ํŒŒ์ผ์ด์—ˆ์Šต๋‹ˆ๋‹ค.# CSV ํŒŒ์ผ ์˜ˆ์‹œlength, height, width8.4, 2.11, 1.4113.7, 3.53, 2.0์ด๋Ÿฐ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ •ํ˜• ๋ฐ์ดํ„ฐ(structured data)๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด, ์–ด๋–ค ๊ตฌ์กฐ๋กœ ๋˜์–ด์žˆ๋‹ค๋Š” ๋œป์ด์ฃ .์ด๋Ÿฐ ๋ฐ์ดํ„ฐ๋Š” CSV๋‚˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค(DataBase), ํ˜น์€ ์—‘์…€(Excel)์— ์ €์žฅํ•˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค.์˜จ๋ผ์ธ ์‡ผํ•‘๋ชฐ์— ์ง„์—ด๋œ ์ƒํ’ˆ๊ณผ ์šฐ๋ฆฌ๊ฐ€ ๊ตฌ๋งคํ•œ ์‡ผํ•‘ ์ •๋ณด๋Š” ๋ชจ๋‘ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ์ €์žฅ๋˜๋Š” ์ •ํ˜• ๋ฐ์ดํ„ฐ์— ์†ํ•ฉ๋‹ˆ๋‹ค.์‚ฌ์‹ค ํ”„๋กœ๊ทธ๋ž˜๋จธ๊ฐ€ ..

๐Ÿ“ˆ Data Engineering/๐Ÿ•น๏ธ ํ˜ผ๊ณต๋จธ์‹ 

[ํ˜ผ๊ณต๋จธ์‹ ] Cross-Validation & Grid Search

Validation Set (๊ฒ€์ฆ ์„ธํŠธ)Test Dataset์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์œผ๋ฉด ๋ชจ๋ธ์ด ๊ณผ๋Œ€์ ํ•ฉ์ธ์ง€ ๊ณผ์†Œ์ ํ•ฉ์ธ์ง€ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์ด๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์€ Training Dataset์„ ๋‚˜๋ˆ„๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.์ด ๋‚˜๋ˆˆ Dataset๋ฅผ Validation Set (๊ฒ€์ฆ ์„ธํŠธ)๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์ด 100%๋ผ๊ณ  ํ•˜๋ฉด ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ์ค‘์—์„œ 20%๋งŒ Test Dataset์œผ๋กœ ๋งŒ๋“ค๊ณ , 80%๋ฅผ Train Dataset์œผ๋กœ ๊ตฌ์„ฑํ–ˆ์œผ๋ฉด, ์ด Training Dataset์ค‘ 20%๋ฅผ ๋–ผ์–ด ๋‚ด์–ด์„œ Validation Dataset์œผ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค.Training Dataset์—์„œ Model์„ Trainingํ•˜๊ณ  Validation Set๋กœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.์ด๋Ÿฐ์‹์œผ๋กœ Test ํ•˜๊ณ  ์‹ถ..

๐Ÿ“ˆ Data Engineering/๐Ÿ“‡ Machine Learning

[ML] Machine Learning (๋จธ์‹ ๋Ÿฌ๋‹) Intro

์ด๋ฒˆ๊ธ€๋ถ€ํ„ฐ๋Š” Machine Learning (๋จธ์‹ ๋Ÿฌ๋‹)์— ๋ฐํ•˜์—ฌ ํ•œ๋ฒˆ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.Machine Learning ์†Œ๊ฐœMachine Learning (๊ธฐ๊ณ„ํ•™์Šต)์€ ๋ฌด์—‡์ผ๊นŒ์š”? ๋จธ์‹ ๋Ÿฌ๋‹์€ ์ธ๊ณต์ง€๋Šฅ์˜ ํ•œ ๋ถ„์•ผ๋กœ, ๋ฐ์ดํ„ฐ์—์„œ ํŒจํ„ด์„ ํ•™์Šตํ•˜๊ณ  ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ์˜์‚ฌ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.์‚ฌ๋žŒ์˜ ๊ฐœ์ž… ์—†์ด๋„ ์Šค์Šค๋กœ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.๋˜ํ•œ ์ฃผ์š” ํŠน์ง•์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•˜๋ฉด์„œ ์ง€์†์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.๊ทธ๋Ÿฌ๋ฉด ํ•œ๋ฒˆ ์˜ˆ์‹œ๋ฅผ ๋“ค์–ด์„œ ๋จธ์‹ ๋Ÿฌ๋‹์ด ์—†๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ๋ ๊นŒ์š”?๋จธ์‹ ๋Ÿฌ๋‹์ด ์—†๋‹ค๋ฉด? (์ŠคํŒธ๋ฉ”์ผ ์˜ˆ์‹œ)์ „ํ†ต์  ์ ‘๊ทผ: ์ŠคํŒธ์œผ๋กœ ์˜์‹ฌ๋˜๋Š” ๋‹จ์–ด์— ๋Œ€ํ•œ ๋ธ”๋ž™๋ฆฌ์ŠคํŠธ๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ , ์ƒˆ๋กœ์šด ๋‹จ์–ด๊ฐ€ ์žˆ์„ ๋•Œ๋งˆ๋‹ค ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.์ด ๊ณผ์ •์—๋Š” ์ŠคํŒธ์œผ๋กœ ์˜์‹ฌ๋˜๋Š” ๋‹จ์–ด๋ฅผ ์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ „๋ฌธ๊ฐ€๊ฐ€ ..

๐Ÿ“ˆ Data Engineering/๐Ÿ“Š Data Analysis

[Data Analysis] ์‹œ๊ฐํ™”์˜ ๋””์ž์ธ ์›์น™ & ์Šคํ† ๋ฆฌํ…”๋ง

์‹œ๊ฐํ™”์˜ ๋””์ž์ธ ์›์น™์‹œ๊ฐํ™”์˜ ๋””์ž์ธ ์›์น™์€ 5๊ฐ€์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•œ๋ฒˆ ๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.๋ชฉ์ ์„ฑ์ •์˜: ์‹œ๊ฐํ™”์˜ ๋ชฉ์ ์„ ๋ช…ํ™•ํžˆ ํ•˜๋Š” ๊ฒƒ.์„ค๋ช…: ์‹œ๊ฐํ™”๋Š” ํŠน์ • ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ฑฐ๋‚˜, ํŠน์ • ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•˜๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.์˜ˆ์‹œ: ๋งค์ถœ ์ฆ๊ฐ€์˜ ์›์ธ์„ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•œ ๊ทธ๋ž˜ํ”„, ์ œํ’ˆ๋ณ„ ํŒ๋งค๋Ÿ‰ ๋น„๊ต๋ฅผ ์œ„ํ•œ ์ฐจํŠธ.๊ฐ„๊ฒฐ์„ฑ์ •์˜: ๊ฐ„๊ฒฐํ•˜๊ณ , ๋ณต์žกํ•˜์ง€ ์•Š์•„์•ผ ํ•จ.์„ค๋ช…: ๋ถˆํ•„์š”ํ•œ ์š”์†Œ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ํ•ต์‹ฌ ์ •๋ณด๋ฅผ ๊ฐ„๊ฒฐํ•˜๊ฒŒ ์ „๋‹ฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ง€๋‚˜์น˜๊ฒŒ ๋ณต์žกํ•œ ๊ทธ๋ž˜ํ”„๋Š” ์˜คํžˆ๋ ค ํ˜ผ๋ž€์„ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.์˜ˆ์‹œ: ๋ถˆํ•„์š”ํ•œ ๊ทธ๋ฆฌ๋“œ ๋ผ์ธ, ๊ณผ๋„ํ•œ ์ƒ‰์ƒ ์‚ฌ์šฉ, ๋ถˆํ•„์š”ํ•œ ํ…์ŠคํŠธ ๋“ฑ์„ ์ œ๊ฑฐํ•œ ๊ทธ๋ž˜ํ”„.๋ช…ํ™•์„ฑ์ •์˜: ๋ฐ์ดํ„ฐ๋ฅผ ๋ช…ํ™•ํžˆ ์ „๋‹ฌํ•ด์•ผ ํ•จ.์„ค๋ช…: ์ ์ ˆํ•œ ๋ ˆ์ด๋ธ”, ์ถ•, ์ œ๋ชฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋ณด๋ฅผ ๋ช…ํ™•ํžˆ ์ „๋‹ฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค...

Bigbread1129
'๐Ÿ“ˆ Data Engineering' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (3 Page)