μ΄λ²μλ Model Distillation (λͺ¨λΈ μ¦λ₯)μ κ΄ν λ΄μ©μ λ°νμ¬ νλ² μ€λͺ ν΄ λ³΄λλ‘ νκ² μ΅λλ€.
What is Model Distillation (λͺ¨λΈ μ¦λ₯)?
λͺ¨λΈ μ¦λ₯λ λ₯λ¬λμμ ν° λͺ¨λΈμ μ§μμ μμ λͺ¨λΈλ‘ μ λ¬νμ¬, μμ λͺ¨λΈμ΄ ν° λͺ¨λΈμ μ±λ₯μ μ΅λν λͺ¨λ°©νλλ‘ νλ κΈ°λ²μ λλ€.
μ΄ λ°©λ²μ ν° λͺ¨λΈ(κ΅μ¬ λͺ¨λΈ, Teacher Model)μ΄ λ³΅μ‘ν ν¨ν΄κ³Ό μ§μμ μ΄λ―Έ νμ΅ν μνμμ, κ·Έ μ§μμ μμ λͺ¨λΈ(νμ λͺ¨λΈ, Student Model)μ μ λ¬νμ¬ λ ν¨μ¨μ μΈ λͺ¨λΈμ λ§λλ κ²μ λͺ©νλ‘ ν©λλ€.
Model Distillation (λͺ¨λΈ μ¦λ₯)μ νμμ±
κ·Έλ¬λ©΄ Model Distillation (λͺ¨λΈ μ¦λ₯)κ° νμν μ΄μ λ 무μμΌκΉμ?
- μμ ν¨μ¨μ±: λν λͺ¨λΈμ λμ μ±λ₯μ 보μ΄μ§λ§, λ©λͺ¨λ¦¬ μ¬μ©λκ³Ό κ³μ° 볡μ‘λκ° λμ μ€μ λ°°ν¬λ μ€μκ° μμ©μ μ μ½μ΄ μμ΅λλ€.
- λ°°ν¬ μ©μ΄μ±: μμ λͺ¨λΈμ λͺ¨λ°μΌ κΈ°κΈ°λ μλ² λλ μμ€ν κ³Ό κ°μ΄ μμμ΄ μ νλ νκ²½μμλ μννκ² μλν μ μμ΅λλ€.
- μλμ§ μ κ°: κ³μ° μμμ΄ μ κ² νμνλ―λ‘ μ λ ₯ μλΉλ₯Ό κ°μμμΌ νκ²½ μΉνμ μ λλ€.
Model Distillation (λͺ¨λΈ μ¦λ₯)μ μ£Όμ κ΅¬μ± μμ
Model Distillation (λͺ¨λΈ μ¦λ₯)κ° μ£Όλ‘ μ΄λ ν κ΅¬μ± μμλ‘ κ΅¬μ±λμ΄ μλμ§ νλ² μμλ³΄κ² μ΅λλ€.
- κ΅μ¬ λͺ¨λΈ(Teacher Model): λκ·λͺ¨μ νλΌλ―Έν°λ₯Ό κ°μ§ κ³ μ±λ₯ λͺ¨λΈλ‘, 볡μ‘ν λ°μ΄ν° ν¨ν΄κ³Ό μ§μμ μ΄λ―Έ νμ΅νμμ΅λλ€.
- νμ λͺ¨λΈ(Student Model): κ΅μ¬ λͺ¨λΈμ μ§μμ μ λ¬λ°μ λ μμ§λ§ ν¨μ¨μ μΈ λͺ¨λΈλ‘, κ΅μ¬ λͺ¨λΈμ μμΈ‘μ λͺ¨λ°©νλλ‘ νλ ¨λ©λλ€.
- μννΈ νκ²(Soft Targets): κ΅μ¬ λͺ¨λΈμ΄ μ λ ₯ λ°μ΄ν°μ λν΄ μΆλ ₯ν μμΈ‘ νλ₯ λΆν¬λ‘, νμ λͺ¨λΈμ νμ΅μ μ¬μ©λ©λλ€. μ΄λ λ¨μν μ λ΅ λΌλ²¨(νλ νκ²)λ³΄λ€ λ νλΆν μ 보λ₯Ό μ 곡ν©λλ€.
Model Distillation (λͺ¨λΈ μ¦λ₯) κ³Όμ
Model Distillation (λͺ¨λΈ μ¦λ₯)μ κ³Όμ μ λ°νμ¬ νλ² μμλ³΄κ² μ΅λλ€.
- κ΅μ¬ λͺ¨λΈ(Teacher Model) νλ ¨: λ¨Όμ , 볡μ‘ν λ°μ΄ν°μ μ λν΄ κ΅μ¬ λͺ¨λΈμ νλ ¨μμΌ λμ μ±λ₯μ κ°μΆλλ‘ ν©λλ€.
- μννΈ νκ²(Soft Targets) μμ±: κ΅μ¬ λͺ¨λΈμ μ¬μ©νμ¬ νμ΅ λ°μ΄ν°μ λν μμΈ‘ νλ₯ λΆν¬(μννΈ νκ²)λ₯Ό μμ±ν©λλ€.
- νμ λͺ¨λΈ(Student Model) νλ ¨:
- μννΈ νκ² νμ©: νμ λͺ¨λΈμ κ΅μ¬ λͺ¨λΈμ μννΈ νκ²μ μ°Έκ³ νμ¬ μΆλ ₯ λΆν¬λ₯Ό κ΅μ¬ λͺ¨λΈκ³Ό μ μ¬νκ² λ§λλλ€.
- νλ νκ² λ³ν νμ΅: μλμ μ λ΅ λΌλ²¨(νλ νκ²)λ ν¨κ» μ¬μ©νμ¬ λͺ¨λΈμ μΌλ°ν λ₯λ ₯μ ν₯μμν΅λλ€.
- μμ€ ν¨μ ꡬμ±: μΌλ°μ μΌλ‘ μννΈ νκ²κ³Ό νλ νκ²μ λν μμ€ ν¨μλ₯Ό κ²°ν©νμ¬ μ΅μ’ μμ€ ν¨μλ₯Ό ꡬμ±ν©λλ€.
Model Distillation (λͺ¨λΈ μ¦λ₯)μ μνμ νν
νμ λͺ¨λΈμ μμ€ ν¨μ Lλ νλ νκ²μ λν ν¬λ‘μ€ μνΈλ‘νΌ μμ€ Lhardμ μννΈ νκ²μ λν ν¬λ‘μ€ μνΈλ‘νΌ μμ€ LsoftμΌλ‘ ννλ©λλ€. μ κ°μ€ν©
L = αLhardβ + (1 − α)Lsoftβ
μ¬κΈ°μ λ λ μμ€ κ°μ κ· νμ μ‘°μ νλ νμ΄νΌνλΌλ―Έν°μ λλ€.
Model Distillation (λͺ¨λΈ μ¦λ₯)μ μ₯μ
- ν¨μ¨μ± ν₯μ: μμ λͺ¨λΈμ λ©λͺ¨λ¦¬ μ¬μ©λκ³Ό κ³μ° λΉμ©μ΄ μ μ΄ μ€μκ° μμ©μ΄λ λ°°ν¬μ μ 리ν©λλ€.
- μ±λ₯ μ μ§: κ΅μ¬ λͺ¨λΈμ μ§μμ ν¨κ³Όμ μΌλ‘ μ λ¬λ°μ μμ λͺ¨λΈμμλ λμ μ±λ₯μ μ μ§ν μ μμ΅λλ€.
- λ²μ©μ±: μ΄λ―Έμ§ λΆλ₯, μμ°μ΄ μ²λ¦¬ λ± λ€μν λ₯λ¬λ λΆμΌμ μ μ© κ°λ₯ν©λλ€.
LLMμμμ Model Distillation (λͺ¨λΈ μ¦λ₯) μ μ©
- λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ μ¦λ₯: GPT-3, BERTμ κ°μ λν μΈμ΄ λͺ¨λΈμ μμ ν¬κΈ°μ λͺ¨λΈλ‘ μ¦λ₯νμ¬ λΉμ·ν μ±λ₯μ μ μ§νλ©΄μλ λ°°ν¬μ μ€νμ΄ μ©μ΄ν΄μ§λλ€.
- μ€μκ° μμ©μ μ 리: μμ μΈμ΄ λͺ¨λΈμ μΆλ‘ μλκ° λΉ¨λΌ μ±λ΄, μ€μκ° λ²μ λ± μμ©μμ ν¨κ³Όμ μ λλ€.
- μμ μ μ½: νλ ¨ λ° λ°°ν¬ μ νμν μ»΄ν¨ν μμκ³Ό μ λ ₯ μλΉλ₯Ό κ°μμμΌ λΉμ© ν¨μ¨μ±μ λμ λλ€.
μΆκ° κ³ λ €μ¬ν
μ¨λ 맀κ°λ³μ(T): μννΈ νκ²μ μμ±ν λ μννΈλ§₯μ€ ν¨μμ μ¨λ 맀κ°λ³μ Tλ₯Ό μ μ©νμ¬ νλ₯ λΆν¬λ₯Ό μ‘°μ ν©λλ€.
λμ Tκ°μ νλ₯ λΆν¬λ₯Ό λμ± λΆλλ½κ² λ§λ€μ΄ νμ λͺ¨λΈμ΄ κ΅μ¬ λͺ¨λΈμ μΆλ ₯ λΆν¬μμ λ λ§μ μ 보λ₯Ό νμ΅ν μ μκ² ν©λλ€.
- μ¬κΈ°μ ziλ λ‘μ§(logit) κ°μ λλ€.
- νμ΄νΌνλΌλ―Έν° νλ: ν΄μΌ ν©λλ€. , T λ±μ νμ΄νΌνλΌλ―Έν°λ λͺ¨λΈ μ±λ₯μ ν° μν₯μ λ―ΈμΉλ―λ‘ μ μ ν κ°μΌλ‘ νλ
- λ°μ΄ν° μ¦κ°: νμ λͺ¨λΈμ μΌλ°ν λ₯λ ₯μ ν₯μμν€κΈ° μν΄ λ°μ΄ν° μ¦κ° κΈ°λ²μ νμ©ν μ μμ΅λλ€.
- λ€μ€ κ΅μ¬ λͺ¨λΈ: μ¬λ¬ κ°μ κ΅μ¬ λͺ¨λΈμ μ¬μ©νμ¬ νμ λͺ¨λΈμ νλ ¨νλ©΄ λμ± νλΆν μ§μμ μ λ¬λ°μ μ μμ΅λλ€.
λͺ¨λΈ μ¦λ₯λ λ₯λ¬λ λͺ¨λΈμ ν¨μ¨μ±μ ν₯μμν€λ©΄μλ μ±λ₯μ μ μ§ν μ μλ κ°λ ₯ν κΈ°λ²μ λλ€.
νΉν μμμ΄ μ νλ νκ²½μμμ λ₯λ¬λ λͺ¨λΈ λ°°ν¬λ μ€μκ° μμ©μμ κ·Έ μ€μμ±μ΄ λμ± λΆκ°λκ³ μμ΅λλ€.
'π₯οΈ Deep Learning' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[DL] Quantization(μμν), LoRA & QLoRA (0) | 2024.09.18 |
---|---|
[DL] Finetuning (νμΈνλ) (0) | 2024.09.18 |
[DL] Deep Learning Model Optimization (λ₯λ¬λ λͺ¨λΈ μ΅μ ν) (0) | 2024.08.31 |
[DL] Transfer Learning - μ μ΄ νμ΅ (0) | 2024.05.19 |
[DL] λνμ μΈ CNN Network - LeNet 5, AlexNet, ZFNet, VGGNet, GoogLeNet, ResNet (0) | 2024.05.16 |