๋ฐ์ํ
์ด๋ฒ์๋ Supervised Learning (์ง๋ํ์ต)์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค.
Supervised Learning (์ง๋ํ์ต) ์ด๋?
์ง๋ํ์ต์ Machine Learning(๊ธฐ๊ณํ์ต)์ ํ ๋ถ์ผ๋ก, ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ทธ์ ๋์ํ๋ ์ ๋ต(๋ ์ด๋ธ)์ ํจ๊ป ์ ๊ณต๋ฐ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ์๊ณ ๋ฆฌ์ฆ์ ์๋ก์ด ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ์ ํํ ์ถ๋ ฅ์ ์์ธกํ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋ญ๋๋ค.
์ฃผ์ํ ํน์ง๋ค์ ๋ฐํ์ฌ ๋ ์ดํด๋ณด๋ฉด
1. ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ ์ฌ์ฉ
- ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ์๋ ์ ๋ ฅ๊ฐ๊ณผ ๊ทธ์ ๋์ํ๋ ์ ๋ต์ด ํจ๊ป ์ ๊ณต๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์์๋ ์ด๋ฏธ์ง(์ ๋ ฅ)์ ๊ทธ ์ด๋ฏธ์ง๊ฐ ๋ํ๋ด๋ ๊ฐ์ฒด์ ์ด๋ฆ(์ถ๋ ฅ)์ด ์์ ์ด๋ฃน๋๋ค.
- ์ฌ์ง๊ณผ ๊ทธ ์ฌ์ง์ ํ๊ทธ(์: "๊ฐ์์ง", "๊ณ ์์ด")๊ฐ ์์ผ๋ก ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ์ ์ด ์ ๋ณด๋ฅผ ํ์ตํ์ฌ ์๋ก์ด ์ฌ์ง์ ํ๊ทธ๋ฅผ ์์ธกํ ์ ์์ต๋๋ค.
2. ์์ธก ๋ชจ๋ธ ํ์ต
- ์๊ณ ๋ฆฌ์ฆ์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํ์ตํ์ฌ ํจ์๋ฅผ ๊ทผ์ฌํํฉ๋๋ค.
- ์ด ํจ์๋ ์๋ก์ด ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ์ถ๋ ฅ์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
3. ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์
- ๋ชจ๋ธ์ ๊ถ๊ทน์ ์ธ ๋ชฉํ๋ ํ์ต ๋ฐ์ดํฐ๋ฟ๋ง ์๋๋ผ ์ฒ์ ๋ณด๋ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ํํ ์์ธก์ ํ๋ ๊ฒ์ ๋๋ค.
- ์ด๋ฅผ ์ํด ๋ค์ํ ๊ธฐ๋ฒ๋ค(์ ๊ทํ, ๊ต์ฐจ ๊ฒ์ฆ ๋ฑ)์ด ์ฌ์ฉ๋ฉ๋๋ค.
- ๋ํ ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ๋ฟ๋ง ์๋๋ผ ์๋ก์ด ๋ฐ์ดํฐ์์๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋๋ก ํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
Supervised Learning (์ง๋ํ์ต)์ ์ฃผ์ ๋ถ๋ฅ
๊ทธ๋ฌ๋ฉด ์ง๋ ํ์ต์ ์ฃผ๋ก ์ด๋ ํ ๋ถ๋ฅ ๊ณผ์ ์ด ์์๊น์? ํฌ๊ฒ ํ๊ท (Regression), ๋ถ๋ฅ (Classification)์ด ์์ต๋๋ค.
1. ํ๊ท (Regression)
- ์ฐ์์ ์ธ ๊ฐ์ ์์ธกํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ฃผํ์ ํน์ฑ(๋ฉด์ , ๋ฐฉ์ ๊ฐ์ ๋ฑ)์ ๋ฐํ์ผ๋ก ์ฃผํ ๊ฐ๊ฒฉ์ ์์ธกํ๋ ๊ฒ์ด ํ๊ท ๋ฌธ์ ์ ๋๋ค.
- ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ: ์ ํ ํ๊ท, ๋คํญ ํ๊ท, ๊ฒฐ์ ํธ๋ฆฌ ํ๊ท, ๋๋ค ํฌ๋ ์คํธ ํ๊ท ๋ฑ
2. ๋ถ๋ฅ (Classification)
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ ์ ์๋ ๋ฒ์ฃผ ์ค ํ๋๋ก ๋ถ๋ฅํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ด๋ฉ์ผ์ด ์คํธ์ธ์ง ์๋์ง๋ฅผ ๋ถ๋ฅํ๋ ๋ฌธ์ ๊ฐ ๋ถ๋ฅ ๋ฌธ์ ์ ๋๋ค.
- ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ: ๋ก์ง์คํฑ ํ๊ท, ๊ฒฐ์ ํธ๋ฆฌ, ๋๋ค ํฌ๋ ์คํธ, ์ํฌํธ ๋ฒกํฐ ๋จธ์ (SVM), ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ฑ
Supervised Learning (์ง๋ํ์ต)์ ์ฃผ์ ๊ฐ๋
3๊ฐ์ง์ ๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ฐํ์ฌ ์์๋ณด๊ฒ ์ต๋๋ค. ์ผ๋ฐํ(Generalization), ๊ณผ๋์ ํฉ(Overfitting), ๊ณผ์์ ํฉ(Underfitting)์ ๋๋ค.
- ์ผ๋ฐํ(Generalization): ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ์์ ํ์ตํ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ์์ธกํ ์ ์๋ ๋ฅ๋ ฅ์ ๋งํฉ๋๋ค. ์ข์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ํจํด์ ์ ํฌ์ฐฉํ๊ณ , ์ด๋ฅผ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ์ฉํ ์ ์์์ ์๋ฏธํฉ๋๋ค.
- ๊ณผ๋์ ํฉ(Overfitting): ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ์ ๋๋ฌด ์ ํํ๊ฒ ๋ง์ถ๋ ค๋ ๊ฒฝํฅ์ ๋ณด์ด๋ฉด์, ๋ฐ์ดํฐ์ ํฌํจ๋ ๋
ธ์ด์ฆ๊น์ง ํ์ตํ๋ ํ์์
๋๋ค. ์ด๋ก ์ธํด ํ๋ จ ๋ฐ์ดํฐ์์๋ ๋์ ์ ํ๋๋ฅผ ๋ณด์ด์ง๋ง, ํ
์คํธ ๋ฐ์ดํฐ์์๋ ์ฑ๋ฅ์ด ์ ํ๋ฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ณต์กํ ๋ชจ๋ธ์์ ๋ฐ์ํฉ๋๋ค. ํด๊ฒฐ ๋ฐฉ๋ฒ์ 4๊ฐ์ง๊ฐ ์์ต๋๋ค.
- a) ๊ท์ (Regularization): L1, L2 ์ ๊ทํ ๋ฑ์ ํตํด ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ์ ํํฉ๋๋ค.
- b) ๊ต์ฐจ ๊ฒ์ฆ (Cross-Validation): ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๋ถ๋ถ์ผ๋ก ๋๋์ด ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๊ณ ๊ฒ์ฆํฉ๋๋ค.
- c) ๋ฐ์ดํฐ ์ฆ๊ฐ (Data Augmentation): ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ธ์์ ์ผ๋ก ๋๋ ค ๋ค์์ฑ์ ์ฆ๊ฐ์ํต๋๋ค.
- d) ๋๋กญ์์ (Dropout): ์ ๊ฒฝ๋ง์์ ์ผ๋ถ ๋ด๋ฐ์ ๋๋คํ๊ฒ ๋นํ์ฑํํ์ฌ ๊ณผ๋์ ํฉ์ ๋ฐฉ์งํฉ๋๋ค.
- ๊ณผ์์ ํฉ(Underfitting): ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ์ ํจํด์ ์ ๋๋ก ํ์ตํ์ง ๋ชปํ๋ ํ์์
๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๋ จ ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ ๋ชจ๋์์ ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์
๋๋ค. ๋๋ฌด ๋จ์ํ ๋ชจ๋ธ์์ ์์ฃผ ๋ฐ์ํฉ๋๋ค. ํด๊ฒฐ๋ฐฉ๋ฒ์ ์๋์ ์์ต๋๋ค.
- a) ๋ชจ๋ธ ๋ณต์ก๋ ์ฆ๊ฐ: ๋ ๋ณต์กํ ๋ชจ๋ธ(์: ๋ ๊น์ ์ ๊ฒฝ๋ง)์ ์ฌ์ฉํฉ๋๋ค.
- b) ํน์ฑ ๊ณตํ: ์๋ก์ด ํน์ฑ์ ์์ฑํ๊ฑฐ๋ ๊ธฐ์กด ํน์ฑ์ ๋ณํํ์ฌ ๋ชจ๋ธ์ ํํ๋ ฅ์ ๋์ ๋๋ค.
- c) ํ์ต ์๊ฐ ์ฆ๊ฐ: ๋ ์ค๋ ์๊ฐ ๋์ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค.
Supervised Learning (์ง๋ํ์ต) Process
๊ทธ๋ฌ๋ฉด Supervised Learning (์ง๋ํ์ต)์ Process๋ ๋ฌด์์ด ์์๊น์?
- ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฒ๋ฆฌ
- ๊ด๋ จ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ ์ ํฉ๋๋ค.
- ๊ฒฐ์ธก์น ์ฒ๋ฆฌ, ์ด์์น ์ ๊ฑฐ, ํน์ฑ ์ค์ผ์ผ๋ง ๋ฑ์ ์์ ์ ์ํํฉ๋๋ค.
- ๋ฐ์ดํฐ ๋ถํ
- ์ผ๋ฐ์ ์ผ๋ก ํ๋ จ ์ธํธ(60-80%), ๊ฒ์ฆ ์ธํธ(10-20%), ํ ์คํธ ์ธํธ(10-20%)๋ก ๋๋๋๋ค.
- ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ต, ํ๋, ์ต์ข ํ๊ฐ๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ํํ ์ ์์ต๋๋ค.
- ๋ชจ๋ธ ์ ํ ๋ฐ ํ์ต
- ๋ฌธ์ ์ ์ ํฉํ ์๊ณ ๋ฆฌ์ฆ์ ์ ํํฉ๋๋ค.
- ์ ํํ ๋ชจ๋ธ์ ํ๋ จ ๋ฐ์ดํฐ๋ก ํ์ต์ํต๋๋ค.
- ๋ชจ๋ธ ํ๊ฐ ๋ฐ ํ๋
- ๊ฒ์ฆ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค.
- ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋, ํน์ฑ ์ ํ ๋ฑ์ ํตํด ๋ชจ๋ธ์ ๊ฐ์ ํฉ๋๋ค.
- ์ต์ข
ํ๊ฐ ๋ฐ ๋ฐฐํฌ
- ํ ์คํธ ์ธํธ๋ก ์ต์ข ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค.
- ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ์ ๋ณด์ด๋ฉด ์ค์ ํ๊ฒฝ์ ๋ชจ๋ธ์ ๋ฐฐํฌํฉ๋๋ค.
์ด๋ ๊ฒ ์ง๋ํ์ต์ ๊ธฐ๋ณธ ๊ฐ๋ ๊ณผ ํ๋ก์ธ์ค, ๊ทธ๋ฆฌ๊ณ ๊ณผ๋์ ํฉ๊ณผ ๊ณผ์์ ํฉ ํด๊ฒฐ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์์ต๋๋ค.
๊ทธ๋ฌ๋ฉด ๋ค์๊ธ์์ ์ง๋ํ์ต์๋ ์ด๋ ํ Machine Learning ๊ธฐ๋ฒ์ด ์ฐ์ด๋์ง ํ๋ฒ ๋ณด๊ฒ ์ต๋๋ค.
๋ฐ์ํ
'๐ Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Logistic Regression (๋ก์ง์คํฑ ํ๊ท) (0) | 2024.08.07 |
---|---|
[ML] K-Nearest Neighbors, K-NN (K-์ต๊ทผ์ ์ด์) (0) | 2024.08.07 |
[ML] Model์ ํ์ต๊ณผ ํ๊ฐ (0) | 2024.08.02 |
[ML] Naive Bayes (๋์ด๋ธ ๋ฒ ์ด์ฆ) (0) | 2024.08.01 |
[ML] Linear Regression (์ ํํ๊ท) (0) | 2024.08.01 |