A A
[DL] Deep Learning Model Optimization (๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ์ตœ์ ํ™”)
Deep Learning Model Optimization (๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ์ตœ์ ํ™”) ๊ธฐ๋ฒ•์— ๋ฐํ•˜์—ฌ ์„ค๋ช…ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค์–‘ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ตœ์ ํ™”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ชจ๋ธ์˜ ํ•™์Šต ๊ณผ์ •์— ์ค‘์š”ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ์ ์ ˆํ•œ ์„ค์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜๋Š” ์ฃผ์š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ทธ ์„ค์ • ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ์ •๋ฆฌ์ž…๋‹ˆ๋‹ค.

 

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ •๋ฆฌ

1. ํ•™์Šต๋ฅ  (Learning Rate)

  • ์ •์˜: ํ•™์Šต๋ฅ ์€ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์—์„œ ๊ฐ€์ค‘์น˜๊ฐ€ ์—…๋ฐ์ดํŠธ๋˜๋Š” ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค.
  • ์˜ํ–ฅ:
    • ๋†’์€ ํ•™์Šต๋ฅ : ํ•™์Šต ์†๋„๊ฐ€ ๋นจ๋ผ์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ, ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์ตœ์†Ÿ๊ฐ’์— ๋„๋‹ฌํ•˜์ง€ ๋ชปํ•˜๊ณ  ๋ฐœ์‚ฐํ•  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋‚ฎ์€ ํ•™์Šต๋ฅ : ํ•™์Šต ์†๋„๋Š” ๋Š๋ ค์ง€์ง€๋งŒ, ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ๋” ์•ˆ์ •์ ์œผ๋กœ ์ตœ์†Ÿ๊ฐ’์— ๋„๋‹ฌํ•  ๊ฐ€๋Šฅ์„ฑ์ด ํฝ๋‹ˆ๋‹ค.
  • ์„ค์ • ๋ฐฉ๋ฒ•:
    • ํ•™์Šต๋ฅ ์€ ์‹คํ—˜์ ์œผ๋กœ ์„ค์ •ํ•˜๋ฉฐ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ธฐ์ค€์œผ๋กœ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์ผ๋ฐ˜์ ์œผ๋กœ 0.001 ๋˜๋Š” 0.01๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋ฉฐ, ํ•„์š”์— ๋”ฐ๋ผ ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„๋ง ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ์ง„ํ–‰์— ๋”ฐ๋ผ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ๋ฐฐ์น˜ ํฌ๊ธฐ (Batch Size)

  • ์ •์˜: ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” ํ•œ ๋ฒˆ์˜ ์—…๋ฐ์ดํŠธ์— ์‚ฌ์šฉ๋˜๋Š” ํ›ˆ๋ จ ์ƒ˜ํ”Œ์˜ ์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ์˜ํ–ฅ:
    • ์ž‘์€ ๋ฐฐ์น˜ ํฌ๊ธฐ: ๊ฐ€์ค‘์น˜๊ฐ€ ๋” ๋นˆ๋ฒˆํ•˜๊ฒŒ ์—…๋ฐ์ดํŠธ๋˜์–ด ํ•™์Šต ์†๋„๊ฐ€ ๋นจ๋ผ์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ, ํ•™์Šต ๊ณผ์ •์—์„œ ๋…ธ์ด์ฆˆ๊ฐ€ ์ฆ๊ฐ€ํ•  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ: ๋” ์•ˆ์ •์ ์ธ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ํ•™์Šต ์†๋„๊ฐ€ ๋Š๋ ค์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์„ค์ • ๋ฐฉ๋ฒ•:
    • ์ผ๋ฐ˜์ ์œผ๋กœ 32, 64, 128, 256๊ณผ ๊ฐ™์€ 2์˜ ์ œ๊ณฑ์ˆ˜๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ํ•™์Šต ์†๋„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์ ์ ˆํ•œ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

3. ๋“œ๋กญ์•„์›ƒ ๋น„์œจ (Dropout Rate)

  • ์ •์˜: ๋“œ๋กญ์•„์›ƒ ๋น„์œจ์€ ํ•™์Šต ์ค‘ ๊ฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๋ฌด์ž‘์œ„๋กœ ๋น„ํ™œ์„ฑํ™”ํ•  ๋‰ด๋Ÿฐ์˜ ๋น„์œจ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ์˜ํ–ฅ:
    • ๋†’์€ ๋“œ๋กญ์•„์›ƒ ๋น„์œจ: ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ•™์Šต ์†๋„๊ฐ€ ๋Š๋ ค์ง€๊ณ  ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋‚ฎ์€ ๋“œ๋กญ์•„์›ƒ ๋น„์œจ: ๋ชจ๋ธ์ด ๊ณผ์ ํ•ฉํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์„ค์ • ๋ฐฉ๋ฒ•:
    • ์ผ๋ฐ˜์ ์œผ๋กœ 0.2์—์„œ 0.5 ์‚ฌ์ด์˜ ๊ฐ’์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋“œ๋กญ์•„์›ƒ ๋น„์œจ์€ ์‹คํ—˜์ ์œผ๋กœ ์„ค์ •ํ•˜๋ฉฐ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ธฐ์ค€์œผ๋กœ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

4. ์ •๊ทœํ™” ๋ฐฉ๋ฒ• (L1, L2)

  • ์ •์˜: ์ •๊ทœํ™”๋Š” ์†์‹ค ํ•จ์ˆ˜์— ์ •๊ทœํ™” ํ•ญ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ œ์–ดํ•˜๊ณ  ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • L1 ์ •๊ทœํ™”: ๊ฐ€์ค‘์น˜์˜ ์ ˆ๋Œ€๊ฐ’ ํ•ฉ์„ ์ตœ์†Œํ™”ํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ํฌ์†Œํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ์ผ๋ถ€ ๊ฐ€์ค‘์น˜๋ฅผ 0์œผ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  • L2 ์ •๊ทœํ™”: ๊ฐ€์ค‘์น˜์˜ ์ œ๊ณฑํ•ฉ์„ ์ตœ์†Œํ™”ํ•˜์—ฌ ๊ฐ€์ค‘์น˜์˜ ํฌ๊ธฐ๋ฅผ ์ค„์—ฌ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • ์„ค์ • ๋ฐฉ๋ฒ•:
    • λ ๊ฐ’์„ ์‹คํ—˜์ ์œผ๋กœ ์„ค์ •ํ•˜๊ณ , ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ธฐ์ค€์œผ๋กœ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์ผ๋ฐ˜์ ์œผ๋กœ L2 ์ •๊ทœํ™”๊ฐ€ ๋” ์ž์ฃผ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

5. ๋„คํŠธ์›Œํฌ ๊นŠ์ด์™€ ํญ

  • ์ •์˜: ๋„คํŠธ์›Œํฌ ๊นŠ์ด๋Š” ์‹ ๊ฒฝ๋ง์˜ ์ธต(layer)์˜ ์ˆ˜๋ฅผ ์˜๋ฏธํ•˜๊ณ , ๋„คํŠธ์›Œํฌ ํญ์€ ๊ฐ ์ธต์˜ ๋‰ด๋Ÿฐ ์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ์˜ํ–ฅ:
    • ๊นŠ์€ ๋„คํŠธ์›Œํฌ: ๋” ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค/ํญ๋ฐœ ๋ฌธ์ œ์™€ ๊ณผ์ ํ•ฉ์˜ ์œ„ํ—˜์ด ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋„“์€ ๋„คํŠธ์›Œํฌ: ๋” ๋งŽ์€ ํŠน์ง•์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋งŽ์€ ๊ณ„์‚ฐ ์ž์›์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.
  • ์„ค์ • ๋ฐฉ๋ฒ•:
    • ๋ฌธ์ œ์˜ ๋ณต์žก์„ฑ๊ณผ ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ์ ์ ˆํ•œ ๊นŠ์ด์™€ ํญ์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.
    • ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋“œ๋กญ์•„์›ƒ, ์ •๊ทœํ™”์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

6. ์—ํฌํฌ (Epoch)

  • ์ •์˜: ์—ํฌํฌ๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ํ•™์Šต์—์„œ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ ๋ฒˆ ์™„์ „ํžˆ ํ•™์Šตํ•˜๋Š” ์ฃผ๊ธฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์—ํฌํฌ ์ˆ˜๋Š” ๋ชจ๋ธ์ด ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ๋ช‡ ๋ฒˆ ๋ฐ˜๋ณตํ•ด์„œ ํ•™์Šตํ–ˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ํ•™์Šต ๊ณผ์ •์—์„œ์˜ ์—ญํ• :
    • ํ•™์Šต ๊ณผ์ •: ์—ํฌํฌ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์…‹์— ์žˆ๋Š” ๋ชจ๋“  ์ƒ˜ํ”Œ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ํ•™์Šตํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๊ฐ€ ์ ์ง„์ ์œผ๋กœ ์กฐ์ •๋˜๊ณ  ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.
  • ์ ์ ˆํ•œ ์—ํฌํฌ ์ˆ˜ ์„ ํƒ์˜ ์ค‘์š”์„ฑ:
    • ๊ณผ์†Œ์ ํ•ฉ: ์—ํฌํฌ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ์ ์œผ๋ฉด ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์…‹์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ•ด ํ•™์Šต์ด ๋œ ๋œ ์ƒํƒœ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ณผ์ ํ•ฉ: ์—ํฌํฌ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์œผ๋ฉด ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์…‹์„ ๊ณผ๋„ํ•˜๊ฒŒ ํ•™์Šตํ•˜์—ฌ ๊ณผ์ ํ•ฉ ์ƒํƒœ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ ์ ˆํ•œ ์—ํฌํฌ ์ˆ˜: ์กฐ๊ธฐ ์ข…๋ฃŒ(Early Stopping)์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ ์ ˆํ•œ ์—ํฌํฌ ์ˆ˜๋ฅผ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.