λ°μν
Activation Function (νμ±ν ν¨μ)
Activation Function(νμ±ν ν¨μ)λ?
μ κ²½λ§μμ κ° Node & Neuronμμ Input Signal(μ λ ₯μ νΈ)μ μ΄ν©μ Output Signal(μΆλ ₯ μ νΈ)λ‘ λ³ννλ ν¨μμ λλ€.
- λν Nerual Network(μ κ²½λ§)μ Non-Linear λ¬Έμ λ₯Ό ν΄κ²°νκ² ν΄μ€λλ€.
λΉμ ν λ¬Έμ : μ λ ₯, μΆλ ₯ λ³μκ°μ κ΄κ³κ° μ νμ΄ μλ λ¬Έμ λ₯Ό μλ―Έν©λλ€. μ λ ₯ λ³μκ° μμ λ³νκ° μΆλ ₯μ λΉλ‘νμ§ μκ±°λ, μμΈ‘νκΈ° μ΄λ €μ΄ λ³νλ₯Ό μΌμΌν€λ κ²½μ°μ ν΄λΉ
- Activation Function(νμ±ν ν¨μ)λ μκ³κ°μ κΈ°μ€μΌλ‘ μΆλ ₯μ΄ λ΄λλλ€, μ΄λ° ν¨μλ₯Ό Step Function(κ³μ° ν¨μ)λΌκ³ ν©λλ€.
- κ·Έλμ Perceptron(νΌμ νΈλ‘ )μμ Activation Function(νμ±ν ν¨μ)λ‘ Step Function(κ³μ° ν¨μ)μ μ΄μ©νλ€κ³ ν©λλ€.
- μ¦, Activation Function(νμ±ν ν¨μ)μΌλ‘ μΈμ μλ μ¬λ¬ν¨μμ€ Step Function(κ³μ° ν¨μ)λ₯Ό μ¬μ©νλ€κ³ νλλ°, κ·Έλ¬λ©΄ Step Function(κ³μ° ν¨μ)μμΈμ λ€λ₯Έ ν¨μλ₯Ό μ¬μ©νλ©΄ μ΄λ»κ² λ κΉμ? νλ² μμλ³΄κ² μ΅λλ€
Activation Function (νμ±ν ν¨μ) μ’ λ₯
- Sigmoid, Tanh, ReLU, Maxout, Leaky ReLU, ELUλ± 6κ°μ νμ±ν ν¨μμ λ°νμ¬ μμλ³΄κ² μ΅λλ€.
Step Function (κ³λ¨ ν¨μ)
- μ체 λ΄λ°μ λ°ν λ°©μκ³Ό μ μ¬, Perceptronμμ μ¬μ©, κ°μ΄ 0 & 1 λμ€μ νλλ§ μΆλ ₯λ©λλ€.
- μ λ ₯μ΄ 0μ λμΌλ©΄ 1μ μΆλ ₯νκ³ , κ·Έ μΈμλ 0μ μΆλ ₯νλ ν¨μν©λλ€.
- Step Function(κ³λ¨ ν¨μ)λ λ―ΈλΆκ°μ΄ 0μ΄μ¬μ νμ΅μ΄ λΆκ°λ₯ ν©λλ€.
- κ·Έλμ Gradient(κΈ°μΈκΈ°) λ°©μμ μ΅μ νλ₯Ό μ¬μ©νλ Neural Network(μ κ²½λ§) μμλ μ¬μ©ν μ μμ΅λλ€. μ΄μ λ 무μμΌκΉμ?
1. Step Function μμλ μκ³κ°μ΄ λΆμ°μμ μΌλ‘ λ³νλλ°, κ·Έ μ§μ μμλ λ―ΈλΆμ΄ λΆκ°λ₯ν©λλ€.
μ κ²½λ§ νμ΅μμλ Weightλ₯Ό μ‘°μ νκΈ° μν΄μ Loss Functionμ Gradientκ° νμνλ°, Step ν¨μλ λ―ΈλΆκ°μ μ 곡 ν μ μμ΅λλ€.
2. Gradient Loss λ¬Έμ , Step ν¨μμμλ λλΆλΆμ Gradientλ 0μ΄λ―λ‘, Weight(κ°μ€μΉ) μ λ°μ΄νΈκ° μ λλ‘ μ΄λ£¨μ΄ μ§μ§ μμΌλ―λ‘, μ κ²½λ§μ΄ νμ΅μ ν μ μμ΅λλ€.
Sigmoid Function - μκ·Έλͺ¨μ΄λ ν¨μ
- Step Function (κ³μ° ν¨μ)μ λΆλλ¬μ΄ λ²μ (κ·Έλν)μ λλ€.
- κ³λ¨ ν¨μμ λ¬λ¦¬ λ―ΈλΆμ΄ κ°λ₯ν©λλ€.
- exp(μ§μν¨μ) κ³μ° λΉμ©μ΄ λΉμλλ€.
- Zero-centeredκ° μλμ¬μ μ΅μ νμ λΉν¨μ¨μ μ λλ€. μ΄μ λ 무μμΌκΉμ?
1. Sigmoid ν¨μμ μ μμ λ°λΌ exp(μ§μν¨μ) κ³μ° λΉμ©μ, μ κ²½λ§μ΄ κΉμ΄μ§κ³ , λ€νΈμν¬μ ν¬κΈ°κ° 컀μ§λ©΄ κ³μ° λΉμ©μ΄ μ¦κ°ν μλ μμ΅λλ€.
2. Sigmoid ν¨μλ κ·Έλνλ₯Ό 보면 μ λ ₯μ΄ ν¬λ©΄ 무νλλ‘ λ€κ°κ°λλ°, μ΄κ±΄ Gradient Loss λ¬Έμ κ° λ°νν μλ μμ΅λλ€. λν μ λ ₯κ°μ΄ λͺ¨λ μμ, μμμΈ κ²½μ° Gradientκ° 0μ κ°κΉμμ§ μ μμ΅λλ€. μ΄κ±΄ Gradient Vanishing (κΈ°μΈκΈ° μμ€)λ¬Έμ κ° λ°μν μ μμ΅λλ€.
Zero-Centered Function
ν¨μμ μΆλ ₯μ΄ μ€μ¬μ΄ 0μΈ ν¨μλ₯Ό μλ―Έν©λλ€. μ΄κ²μ νμ±ν ν¨μμ μΆλ ₯μ΄ μμμ μμ λͺ¨λλ₯Ό ν¬ν¨νκ³ μμμ μλ―Έν©λλ€.
- zero-centered ν¨μλ₯Ό μ¬μ©ν λ, κΈ°μΈκΈ°(gradient)μ λΆνΈκ° μμμ μμ λͺ¨λλ₯Ό κ°μ§ μ μμ΅λλ€.
- μ¦, μμ½νλ©΄ κ²½μ¬ νκ°λ²μ κΈ°μΈκΈ°(gradient)μ λΆνΈλ₯Ό λ°λΌ 맀κ°λ³μλ₯Ό μ λ°μ΄νΈ νλ λ°©μμΌλ‘ μ§νλ©λλ€.
- λν μ΅μ ν ν¨μκ° μ§κ·Έμ¬κ·Έλ‘ κΈΈμ΄μ§λλ€.
- Gradient Updateκ° νμ©νλ λ°©ν₯μμ optimalλ‘ μλ ΄νλ weight update pathκ° μ§κ·Έμ¬κ·Έλ‘ κΈΈμ΄μ§λ€λ νμμ΄ μμ΅λλ€.
Hyperbolic Tangent Function (Tanh)
νμ΄νΌλ³Όλ¦ νμ νΈ ν¨μ(tanh)λ μνμ μΌλ‘ μκ·Έλͺ¨μ΄λ ν¨μμ λΉμ·ν ννλ₯Ό κ°μ§κ³ μμ§λ§, -1κ³Ό 1 μ¬μ΄μ λ²μλ₯Ό κ°μ΅λλ€. νμ΄νΌλ³Όλ¦ νμ νΈ ν¨μλ μλμ κ°μ΄ μ μλ©λλ€:
- μ΄ ν¨μλ μ λ ₯ xλ₯Ό λ°μ -1μμ 1 μ¬μ΄μ κ°μ μΆλ ₯ν©λλ€. μ΄ ν¨μλ λλΆλΆμ μκ·Έλͺ¨μ΄λ ν¨μμ λ§μ°¬κ°μ§λ‘ S λͺ¨μμ 곑μ μ 그리며, 0 μ£Όλ³μμ λμΉμ μΈ ννλ₯Ό 보μ λλ€.
- νμ΄νΌλ³Όλ¦ νμ νΈ ν¨μλ μ£Όλ‘ μ κ²½λ§μμ μ¬μ©λλ νμ±ν ν¨μ μ€ νλμ λλ€. μκ·Έλͺ¨μ΄λ ν¨μμ λ§μ°¬κ°μ§λ‘ λΉμ νμ±μ κ°μ§κ³ μμ΄ μ κ²½λ§μ΄ 볡μ‘ν ν¨ν΄μ νμ΅ν μ μλλ‘ λμ΅λλ€.
- νμ§λ§ νμ΄νΌλ³Όλ¦ νμ νΈ ν¨μλ μκ·Έλͺ¨μ΄λ ν¨μμλ λ¬λ¦¬ μΆλ ₯ λ²μκ° -1λΆν° 1κΉμ§λ‘ νμ₯λμ΄, μ λ ₯μ΄ 0 μ£Όλ³μμ λ λΉ λ₯΄κ² λ³νν©λλ€. μ΄λ¬ν νΉμ±μ κ·ΈλλμΈνΈ μμ€ λ¬Έμ λ₯Ό μννλ λ° λμμ΄ λ μ μμ΅λλ€.
- λν νμ΄νΌλ³Όλ¦ νμ νΈ ν¨μλ μ λ ₯μ΄ ν° κ²½μ°μλ -1 λλ 1λ‘ μλ ΄νλ―λ‘, μΆλ ₯μ μ ννλ λ°μλ μ¬μ©λ μ μμ΅λλ€.
- λν Zero-Centered ν¨μμ΄λ©°, exp(μ§μ κ³μ°)λΉμ©μ΄ λΉμλλ€.
Tanh ν¨μμ λ―ΈλΆ
- νμ΄νΌλ³Όλ¦ νμ νΈ ν¨μλ₯Ό λ―ΈλΆν λ Gradient Saturation λ¬Έμ κ° λ°μν©λλ€.
- μ¬κΈ°μ Gradient Saturation λ¬Έμ λ Gradient(κΈ°μΈκΈ°)κ° λ무 μ μμ§κ±°λ λ무 컀μ§λ νμμ
λλ€. Gradient Vanishing or Gradient Explosion
- Gradient Vanishing: Gradientκ° λ무 μμμ§λ λ¬Έμ μ λλ€. μ κ²½λ§μ΄ κΉμ΄μ§μλ‘, μμ ν κ³Όμ μμ Gradientκ° μ λ ₯μΈ΅μΌλ‘ μ νλλ©΄μ κ°μν μ μμ΅λλ€. → νμμΈ΅μ Weightκ° μ λ°μ΄νΈλμ§ μμ νμ΅μ λ¬Έμ κ° λ©λλ€.
- Gradient Explosion: Gradientκ° λ무 컀μ§λ λ¬Έμ μ λλ€. μκ°μ λ°λΌ Gradientκ° μ»€μ§λ©΄ Weight(κ°μ€μΉ)κ° λ무 ν¬κ² μ λ°μ΄νΈ μΈμ νμ΅μ΄ λΆμμ ν΄μ§λλ€.
Rectified Linear Unit Function - ReLU ν¨μ
Rectified Linear Unit, ReLUμ μ κ²½λ§μμ κ°μ₯ λ리 μ¬μ©λλ νμ±ν ν¨μ μ€ νλμ λλ€. ReLU ν¨μλ μ λ ₯μ΄ 0λ³΄λ€ ν° κ²½μ°μλ μ λ ₯ κ°μ κ·Έλλ‘ μΆλ ₯νκ³ , 0λ³΄λ€ μμ κ²½μ°μλ 0μ μΆλ ₯ν©λλ€.
- 2012λ AlexNetμμ μ²μ μ¬μ©νμκ³ , μ체 Neuronμ λ°ν λ°©μμ΄ Sigmoidλ³΄λ€ λ μ μ¬ν©λλ€.
- Linear Unitκ³Ό λΉμ·νκΈ° λλ¬Έμ μ΅μ νκ° λ§€μ° μλ©λλ€.
- Sigmoid, Tanh λ³΄λ€ 6λ°° μ λ νμ΅μ΄ λ»λ¦ λλ€.
- Active μνμμ Gradientκ° ν¬κΈ° λλ¬Έμ Gradient Vanishing λ¬Έμ κ° μκΈ°μ§ μμ΅λλ€.
Active μνμμμ Gradient: ReLU ν¨μλ₯Ό μ¬μ©ν λ, μ λ ₯ κ°μ΄ μμμΈ κ²½μ°(Active μν) κ·ΈλλμΈνΈ(λ―ΈλΆκ°)μ 1μ λλ€
μ΄λ μμ ν κ³Όμ μμ κ·ΈλλμΈνΈκ° μμ€λκ±°λ(exploding) μ¬λΌμ§λ(vanishing) λ¬Έμ λ₯Ό ν¬κ² μνμν΅λλ€.
λ¨, Dead ReLUκ³Ό Not zero-centered λ¬Έμ κ° μμ΅λλ€.
- Dead ReLU λ¬Έμ : μ
λ ₯ κ°μ΄ μμμΈ κ²½μ°, ReLU ν¨μμ μΆλ ₯μ νμ 0μ
λλ€.
- μ΄ κ²½μ°, ν΄λΉ λ΄λ°μ κ·ΈλλμΈνΈ μμ ν κ³Όμ μμ μλ¬΄λ° μν μ νμ§ λͺ»νκ² λμ΄, 'μ£½μ' μν(Dead state)λ‘ μ νλ μ μμ΅λλ€.
- μΌλ¨ λ΄λ°μ΄ μ΄ μνμ μ΄λ₯΄λ©΄, κ·Έ λ΄λ°μ λ€μ νμ±νλκΈ° μ΄λ ΅κ² λ©λλ€.
- Not zero-centered λ¬Έμ : ReLU ν¨μμ μΆλ ₯μ νμ 0 λλ μμμ
λλ€.
- μ΄λ μΆλ ₯ κ°μ΄ zero-centered λμ§ μλλ€λ κ²μ μλ―Έν©λλ€.
- λ°μ΄ν°κ° zero-centered λμ§ μμΌλ©΄, κ°μ€μΉμ μ λ°μ΄νΈκ° νμͺ½ λ°©ν₯μΌλ‘ μΉμ°μΉκ² λμ΄ μ΅μ ν κ³Όμ μμ λΉν¨μ¨μ μΌ μ μμ΅λλ€.
Dead ReLU
νμ΅ μ€μ μΌλΆ λ΄λ°μ΄ νμ 0μ μΆλ ₯νκ² λμ΄ ν΄λΉ λ΄λ°μ΄ λ μ΄μ νμ΅μ κΈ°μ¬νμ§ μλ μνλ₯Ό λ§ν©λλ€.
- ReLU ν¨μλ μ λ ₯μ΄ 0λ³΄λ€ μμ κ²½μ°μλ νμ 0μ μΆλ ₯νκΈ° λλ¬Έμ, νμ΅ μ€μ ν΄λΉ λ΄λ°μ΄ μμ μ λ ₯μ λ°κ² λλ©΄ κ³μν΄μ 0μ μΆλ ₯νκ² λ©λλ€. x < 0 ꡬκ°μμ Activationμ΄ 0μ΄λλ©΄ Gradientκ° 0μ΄ λμ΄ νμ΅μ΄ μ§νλμ§ μμ΅λλ€.
- μ΄λ¬ν κ²½μ°, ν΄λΉ λ΄λ°μ κ°μ€μΉ(weight) λ° νΈν₯(bias)μ΄ μ λ°μ΄νΈλμ§ μμ νμ΅ κ³Όμ μμ λ΄λ°μ΄ μ£½μ μνλ‘ λ¨μμκ² λ©λλ€.
- μ΄λ¬ν νμμ΄ λ°μνλ©΄, λ€νΈμν¬μ ννλ ₯(representational power)μ΄ μ νλκ³ λͺ¨λΈμ μ±λ₯μ΄ μ νλ μ μμ΅λλ€.
- λν μ΄κΈ°νλ₯Ό μλͺ»νκ±°λ Learning Rateκ° λ§€μ° ν΄ λ λ°μν©λλ€.
- ν μ€νΈ λ°μ΄ν°μ 10% ~ 20%κ° Dead ReLUμ΄λ©΄ λ¬Έμ κ° λ μλ μμ.
Dead ReLUμ ν΄κ²° λ°©λ²
Dead ReLU λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν λͺ κ°μ§ μ κ·Ό λ°©λ²μ΄ μμ΅λλ€.
- Leaky ReLU: ReLUμ λ³ν μ€ νλλ‘, μμ μ λ ₯μ λν΄ μμ κΈ°μΈκΈ°λ₯Ό κ°μ§λλ‘ ν©λλ€. μ΄λ κ² νλ©΄ μμ μ λ ₯μ λν΄ νμ 0μ΄ μλλΌ μμ κ°μ μΆλ ₯νμ¬ μ£½μ λ΄λ° λ¬Έμ λ₯Ό μνν μ μμ΅λλ€.
- Parametric ReLU (PReLU): Leaky ReLUμ μ μ¬νμ§λ§, μμ μ λ ₯μ λν κΈ°μΈκΈ°κ° νμ΅ κ°λ₯ν 맀κ°λ³μλ‘ λ³ν©λλ€. μ΄λ₯Ό ν΅ν΄ λ€νΈμν¬κ° λ°μ΄ν°μ λ°λΌ μμ μ λ ₯μ λν΄ μ ν©ν κΈ°μΈκΈ°λ₯Ό νμ΅ν μ μμ΅λλ€.
- Exponential Linear Unit (ELU): μμ μ λ ₯μ λν΄ μμ κ°μ μΆλ ₯νλ λμ , ELUλ μμ μ λ ₯μ λν΄ μ§μ ν¨μλ₯Ό μ¬μ©νμ¬ λΆλλ¬μ΄ λͺ¨μμ 곑μ μ νμ±ν©λλ€. μ΄λ Dead ReLU λ¬Έμ λ₯Ό μννκ³ μ±λ₯μ ν₯μμν¬ μ μμ΅λλ€.
Leaky ReLU
Leaky ReLUλ μ λ ₯μ΄ μμμΈ κ²½μ°μλ μμ μμ κΈ°μΈκΈ°λ₯Ό κ°μ§ μ ν ν¨μλ₯Ό μΆλ ₯ν©λλ€.
- Leaky ReLUλ ReLUμ μ£Όμ λ¨μ μ€ νλμΈ Dead ReLU λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλμμ΅λλ€.
- μ λ ₯κ°μ΄ μμμΌλλ Gradientκ° μμ μ΄ 0μ΄ λμ§ μλλ‘ μμ κΈ°μΈκΈ°λ₯Ό μ 곡ν©λλ€.
- λν μμ ꡬκ°μ Gradientκ° μκΉμΌλ‘μ¨ νλ ¨ μλκ° λΉ¨λΌμ§λλ€.
- 0.01κ³Ό κ°μ μμ κ°μΌλ‘ μ€μ λλ©΄ μ λ ₯μ΄ μμμΈ κ²½μ°μλ 0λ³΄λ€ ν° κΈ°μΈκΈ°λ₯Ό κ°μ§λ―λ‘, μ£½μ ReLU λ¬Έμ λ₯Ό μνν μ μμ΅λλ€.
ELU (Exponential Linear)
ELUλ μμ μ λ ₯μ λν λΆλλ¬μ΄ λͺ¨μμ 곑μ μ νμ±νλ νμ±ν ν¨μμ λλ€.
λν μμ μ λ ₯μ λν΄ μ§μ ν¨μλ₯Ό μ¬μ©νμ¬ μ νμ μΌλ‘ μλ ΄νλ λΆλΆμ΄ μμ΄, ReLUμ λ¨μ μΈ "μ£½μ λ΄λ°" λ¬Έμ λ₯Ό μννκ³ μ κ²½λ§μ μ±λ₯μ ν₯μμν¬ μ μμ΅λλ€.
- ELUλ ReLUμ μ₯μ μ μ μ§νλ©΄μ κ·Έ λ¨μ μ κ°μ νκ³ μ νλ λͺ©μ μΌλ‘ μ μλμμ΅λλ€.
- νΉν, ReLUμμ λ°μν μ μλ Dead ReLU λ¬Έμ μ μΆλ ₯μ΄ zero-centered λμ§ μλ λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€.
- μ¬κΈ°μ αλ μμ μ λ ₯μ λν ELU ν¨μμ νΉμ μμμμμ λΆλλ¬μ΄ μ ν λΆλΆμ κ²°μ νλ μμ νμ΄νΌνλΌλ―Έν°μ λλ€. μΌλ°μ μΌλ‘
- αλ 1λ³΄λ€ ν¬κ±°λ κ°μ κ°μΌλ‘ μ€μ λ©λλ€.
- ELU ν¨μλ μμ μ λ ₯μ λν΄ ReLUλ³΄λ€ λΆλλ½κ³ λ λΉ λ₯΄κ² μλ ΄νλ ννλ₯Ό κ°μ§λ©°, μ΄λ νμ΅ μλλ₯Ό ν₯μμν€κ³ λ κ°λ ₯ν ννλ ₯μ μ 곡ν μ μμ΅λλ€. λν, ELU ν¨μλ μμ μ λ ₯μ λν΄ μμ κΈ°μΈκΈ°λ₯Ό κ°μ§λ―λ‘ κ·ΈλλμΈνΈ μμ€ λ¬Έμ λ₯Ό μνν μ μμ΅λλ€.
MaxOut
Maxoutμ λ€μν ννμ νμ±ν ν¨μλ₯Ό νμ΅ κ°λ₯ν νλΌλ―Έν°λ‘ μ¬μ©νλ μν€ν μ²μ λλ€.
μ£Όλ‘ λ₯ λ¬λμμ μ¬μ©λλ©°, νΉν μ΄λ―Έμ§ μΈμκ³Ό κ΄λ ¨λ λ¬Έμ μμ μ μ©νκ² μ μ©λ μ μμ΅λλ€
μ¬λ¬ κ°μ μ ν ν¨μμ μΆλ ₯ μ€ μ΅λκ°μ μ ννμ¬ κ·Έκ²μ λ€μ λ μ΄μ΄λ‘ μ λ¬νλ λ°©μμ λλ€.
( x )μ λν΄ ( k )κ°μ μλ‘ λ€λ₯Έ κ°μ€μΉ 벑ν°μ νΈν₯μ μ μ©ν ν, μ΄λ€ μ€ μ΅λκ°μ μ ννμ¬ μΆλ ₯ν©λλ€.
- ReLUλ₯Ό μΌλ°νν Piecewise Linear Functionμ νμ΅ν©λλ€. λν μ±λ₯μ΄ λ°μ΄λ©λλ€.
- μ¬λ¬ Weight(κ°μ€μΉ), Bias(νΈκ²¬)μ λν΄ κ°μ ꡬν΄μ μ΅λ κ°μ μ·¨νλ λ°©μμΌλ‘ κ΅¬κ° λ³ μ΅λ Linear Activationμ μ ννλ ν¨κ³Όκ° μμ΅λλ€.
λ°μν
'π₯οΈ Deep Learning' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[DL] Batch Normalization - λ°°μΉ μ κ·ν (0) | 2024.05.01 |
---|---|
[DL] Training Related Skills - SGD, Momentum, AdaGrad, Adam (νμ΅ κ΄λ ¨ κΈ°μ λ€) (0) | 2024.04.30 |
[DL] Feed-forward Network (νΌλ-ν¬μλ λ€νΈμν¬) (0) | 2024.04.18 |
[DL] λ¨μν Layer ꡬνν΄λ³΄κΈ° (0) | 2024.03.31 |
[DL] Backpropagation (μ€μ°¨μμ νλ²) (0) | 2024.03.27 |