๋ฐ์ํ
Deep Learning Model Optimization (๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ต์ ํ) ๊ธฐ๋ฒ์ ๋ฐํ์ฌ ์ค๋ช ํด ๋ณด๊ฒ ์ต๋๋ค.
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด์๋ ๋ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํด์ผ ํฉ๋๋ค. ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ ์ ํ ์ค์ ์ด ํ์ํฉ๋๋ค. ์๋๋ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ทธ ์ค์ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ์ ๋ฆฌ์ ๋๋ค.
๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ ๋ฆฌ
1. ํ์ต๋ฅ (Learning Rate)
- ์ ์: ํ์ต๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์์ ๊ฐ์ค์น๊ฐ ์ ๋ฐ์ดํธ๋๋ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค.
- ์ํฅ:
- ๋์ ํ์ต๋ฅ : ํ์ต ์๋๊ฐ ๋นจ๋ผ์ง ์ ์์ง๋ง, ์์ค ํจ์๊ฐ ์ต์๊ฐ์ ๋๋ฌํ์ง ๋ชปํ๊ณ ๋ฐ์ฐํ ์ํ์ด ์์ต๋๋ค.
- ๋ฎ์ ํ์ต๋ฅ : ํ์ต ์๋๋ ๋๋ ค์ง์ง๋ง, ์์ค ํจ์๊ฐ ๋ ์์ ์ ์ผ๋ก ์ต์๊ฐ์ ๋๋ฌํ ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค.
- ์ค์ ๋ฐฉ๋ฒ:
- ํ์ต๋ฅ ์ ์คํ์ ์ผ๋ก ์ค์ ํ๋ฉฐ, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ธฐ์ค์ผ๋ก ์กฐ์ ํฉ๋๋ค.
- ์ผ๋ฐ์ ์ผ๋ก 0.001 ๋๋ 0.01๋ถํฐ ์์ํ๋ฉฐ, ํ์์ ๋ฐ๋ผ ํ์ต๋ฅ ์ค์ผ์ค๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํ์ต ์งํ์ ๋ฐ๋ผ ์กฐ์ ํ ์ ์์ต๋๋ค.
2. ๋ฐฐ์น ํฌ๊ธฐ (Batch Size)
- ์ ์: ๋ฐฐ์น ํฌ๊ธฐ๋ ํ ๋ฒ์ ์ ๋ฐ์ดํธ์ ์ฌ์ฉ๋๋ ํ๋ จ ์ํ์ ์๋ฅผ ์๋ฏธํฉ๋๋ค.
- ์ํฅ:
- ์์ ๋ฐฐ์น ํฌ๊ธฐ: ๊ฐ์ค์น๊ฐ ๋ ๋น๋ฒํ๊ฒ ์ ๋ฐ์ดํธ๋์ด ํ์ต ์๋๊ฐ ๋นจ๋ผ์ง ์ ์์ง๋ง, ํ์ต ๊ณผ์ ์์ ๋ ธ์ด์ฆ๊ฐ ์ฆ๊ฐํ ์ํ์ด ์์ต๋๋ค.
- ํฐ ๋ฐฐ์น ํฌ๊ธฐ: ๋ ์์ ์ ์ธ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ๊ฐ๋ฅํ์ง๋ง, ํ์ต ์๋๊ฐ ๋๋ ค์ง ์ ์์ต๋๋ค.
- ์ค์ ๋ฐฉ๋ฒ:
- ์ผ๋ฐ์ ์ผ๋ก 32, 64, 128, 256๊ณผ ๊ฐ์ 2์ ์ ๊ณฑ์๋ก ์ค์ ํฉ๋๋ค.
- ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ํ์ต ์๋๋ฅผ ๊ณ ๋ คํ์ฌ ์ ์ ํ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ ํํฉ๋๋ค.
3. ๋๋กญ์์ ๋น์จ (Dropout Rate)
- ์ ์: ๋๋กญ์์ ๋น์จ์ ํ์ต ์ค ๊ฐ ํ์ต ๋จ๊ณ์์ ๋ฌด์์๋ก ๋นํ์ฑํํ ๋ด๋ฐ์ ๋น์จ์ ์๋ฏธํฉ๋๋ค.
- ์ํฅ:
- ๋์ ๋๋กญ์์ ๋น์จ: ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์์ง๋ง, ํ์ต ์๋๊ฐ ๋๋ ค์ง๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ต๋๋ค.
- ๋ฎ์ ๋๋กญ์์ ๋น์จ: ๋ชจ๋ธ์ด ๊ณผ์ ํฉํ ๊ฐ๋ฅ์ฑ์ด ์ฆ๊ฐํฉ๋๋ค.
- ์ค์ ๋ฐฉ๋ฒ:
- ์ผ๋ฐ์ ์ผ๋ก 0.2์์ 0.5 ์ฌ์ด์ ๊ฐ์ ์ฌ์ฉํฉ๋๋ค.
- ๋๋กญ์์ ๋น์จ์ ์คํ์ ์ผ๋ก ์ค์ ํ๋ฉฐ, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ธฐ์ค์ผ๋ก ์กฐ์ ํฉ๋๋ค.
4. ์ ๊ทํ ๋ฐฉ๋ฒ (L1, L2)
- ์ ์: ์ ๊ทํ๋ ์์ค ํจ์์ ์ ๊ทํ ํญ์ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ ์ดํ๊ณ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- L1 ์ ๊ทํ: ๊ฐ์ค์น์ ์ ๋๊ฐ ํฉ์ ์ต์ํํ์ฌ ๊ฐ์ค์น๋ฅผ ํฌ์ํ๊ฒ ๋ง๋ค์ด ์ผ๋ถ ๊ฐ์ค์น๋ฅผ 0์ผ๋ก ๋ง๋ญ๋๋ค.
- L2 ์ ๊ทํ: ๊ฐ์ค์น์ ์ ๊ณฑํฉ์ ์ต์ํํ์ฌ ๊ฐ์ค์น์ ํฌ๊ธฐ๋ฅผ ์ค์ฌ ๊ณผ์ ํฉ์ ๋ฐฉ์งํฉ๋๋ค.
- ์ค์ ๋ฐฉ๋ฒ:
- λ ๊ฐ์ ์คํ์ ์ผ๋ก ์ค์ ํ๊ณ , ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ธฐ์ค์ผ๋ก ์กฐ์ ํฉ๋๋ค.
- ์ผ๋ฐ์ ์ผ๋ก L2 ์ ๊ทํ๊ฐ ๋ ์์ฃผ ์ฌ์ฉ๋ฉ๋๋ค.
5. ๋คํธ์ํฌ ๊น์ด์ ํญ
- ์ ์: ๋คํธ์ํฌ ๊น์ด๋ ์ ๊ฒฝ๋ง์ ์ธต(layer)์ ์๋ฅผ ์๋ฏธํ๊ณ , ๋คํธ์ํฌ ํญ์ ๊ฐ ์ธต์ ๋ด๋ฐ ์๋ฅผ ์๋ฏธํฉ๋๋ค.
- ์ํฅ:
- ๊น์ ๋คํธ์ํฌ: ๋ ๋ณต์กํ ํจํด์ ํ์ตํ ์ ์์ง๋ง, ๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ๋ฌธ์ ์ ๊ณผ์ ํฉ์ ์ํ์ด ์ฆ๊ฐํ ์ ์์ต๋๋ค.
- ๋์ ๋คํธ์ํฌ: ๋ ๋ง์ ํน์ง์ ํ์ตํ ์ ์์ง๋ง, ๋ง์ ๊ณ์ฐ ์์์ ์๊ตฌํฉ๋๋ค.
- ์ค์ ๋ฐฉ๋ฒ:
- ๋ฌธ์ ์ ๋ณต์ก์ฑ๊ณผ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ ์ ํ ๊น์ด์ ํญ์ ์ ํํฉ๋๋ค.
- ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด ๋๋กญ์์, ์ ๊ทํ์ ๊ฐ์ ๊ธฐ๋ฒ์ ํจ๊ป ์ฌ์ฉํฉ๋๋ค.
6. ์ํฌํฌ (Epoch)
- ์ ์: ์ํฌํฌ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต์์ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ํ ๋ฒ ์์ ํ ํ์ตํ๋ ์ฃผ๊ธฐ๋ฅผ ์๋ฏธํฉ๋๋ค. ์ํฌํฌ ์๋ ๋ชจ๋ธ์ด ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ช ๋ฒ ๋ฐ๋ณตํด์ ํ์ตํ๋์ง๋ฅผ ๋ํ๋ ๋๋ค.
- ํ์ต ๊ณผ์ ์์์ ์ญํ :
- ํ์ต ๊ณผ์ : ์ํฌํฌ ์๊ฐ ์ฆ๊ฐํ ์๋ก ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ์ ์๋ ๋ชจ๋ ์ํ์ ์ฌ๋ฌ ๋ฒ ํ์ตํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๊ฐ์ค์น๊ฐ ์ ์ง์ ์ผ๋ก ์กฐ์ ๋๊ณ ์ต์ ์ ๊ฐ์ค์น๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด ์ด๋ฃจ์ด์ง๋๋ค.
- ์ ์ ํ ์ํฌํฌ ์ ์ ํ์ ์ค์์ฑ:
- ๊ณผ์์ ํฉ: ์ํฌํฌ ์๊ฐ ๋๋ฌด ์ ์ผ๋ฉด ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํด ํ์ต์ด ๋ ๋ ์ํ๊ฐ ๋ ์ ์์ต๋๋ค.
- ๊ณผ์ ํฉ: ์ํฌํฌ ์๊ฐ ๋๋ฌด ๋ง์ผ๋ฉด ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ์ ๊ณผ๋ํ๊ฒ ํ์ตํ์ฌ ๊ณผ์ ํฉ ์ํ๊ฐ ๋ ์ ์์ต๋๋ค.
- ์ ์ ํ ์ํฌํฌ ์: ์กฐ๊ธฐ ์ข ๋ฃ(Early Stopping)์ ๊ฐ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ์ ํ ์ํฌํฌ ์๋ฅผ ์ค์ ํฉ๋๋ค.
๋ฐ์ํ
'๐ฅ๏ธ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DL] Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ) (0) | 2024.09.18 |
---|---|
[DL] Finetuning (ํ์ธํ๋) (0) | 2024.09.18 |
[DL] Transfer Learning - ์ ์ด ํ์ต (0) | 2024.05.19 |
[DL] ๋ํ์ ์ธ CNN Network - LeNet 5, AlexNet, ZFNet, VGGNet, GoogLeNet, ResNet (0) | 2024.05.16 |
[DL] Convolution & Pooling Layer ๊ตฌํํด๋ณด๊ธฐ (0) | 2024.05.13 |