A A
[DL] Activation Function - ν™œμ„±ν™” ν•¨μˆ˜

Activation Function (ν™œμ„±ν™” ν•¨μˆ˜)

Activation Function(ν™œμ„±ν™” ν•¨μˆ˜)λž€?
μ‹ κ²½λ§μ—μ„œ 각 Node & Neuronμ—μ„œ Input Signal(μž…λ ₯μ‹ ν˜Έ)의 총합을 Output Signal(좜λ ₯ μ‹ ν˜Έ)둜 λ³€ν™˜ν•˜λŠ” ν•¨μˆ˜μž…λ‹ˆλ‹€.
  • λ˜ν•œ Nerual Network(신경망)의 Non-Linear 문제λ₯Ό ν•΄κ²°ν•˜κ²Œ ν•΄μ€λ‹ˆλ‹€.
λΉ„μ„ ν˜• 문제: μž…λ ₯, 좜λ ₯ λ³€μˆ˜κ°„μ˜ 관계가 μ„ ν˜•μ΄ μ•„λ‹Œ 문제λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€. μž…λ ₯ λ³€μˆ˜κ°€ μž‘μ€ λ³€ν™”κ°€ 좜λ ₯에 λΉ„λ‘€ν•˜μ§€ μ•Šκ±°λ‚˜, μ˜ˆμΈ‘ν•˜κΈ° μ–΄λ €μš΄ λ³€ν™”λ₯Ό μΌμœΌν‚€λŠ” κ²½μš°μ— ν•΄λ‹Ή
  • Activation Function(ν™œμ„±ν™” ν•¨μˆ˜)λŠ” μž„κ³„κ°’μ„ κΈ°μ€€μœΌλ‘œ 좜λ ₯이 λ΄λ€λ‹ˆλ‹€, 이런 ν•¨μˆ˜λ₯Ό Step Function(계산 ν•¨μˆ˜)라고 ν•©λ‹ˆλ‹€.
  • κ·Έλž˜μ„œ Perceptron(νΌμ…‰νŠΈλ‘ )μ—μ„œ Activation Function(ν™œμ„±ν™” ν•¨μˆ˜)둜 Step Function(계산 ν•¨μˆ˜)을 μ΄μš©ν•œλ‹€κ³  ν•©λ‹ˆλ‹€.
  • 즉, Activation Function(ν™œμ„±ν™” ν•¨μˆ˜)으둜 μ“Έμˆ˜ μžˆλŠ” μ—¬λŸ¬ν•¨μˆ˜μ€‘ Step Function(계산 ν•¨μˆ˜)λ₯Ό μ‚¬μš©ν•œλ‹€κ³  ν•˜λŠ”λ°, 그러면 Step Function(계산 ν•¨μˆ˜)μ˜μ™Έμ˜ λ‹€λ₯Έ ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•˜λ©΄ μ–΄λ–»κ²Œ λ κΉŒμš”? ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€

Activation Function (ν™œμ„±ν™” ν•¨μˆ˜) μ’…λ₯˜

  • Sigmoid, Tanh, ReLU, Maxout, Leaky ReLU, ELUλ“± 6개의 ν™œμ„±ν™” ν•¨μˆ˜μ— λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

ν™œμ„±ν™” ν•¨μˆ˜μ˜ μ’…λ₯˜


Step Function (계단 ν•¨μˆ˜)

  • 생체 λ‰΄λŸ°μ˜ λ°œν™” 방식과 μœ μ‚¬, Perceptronμ—μ„œ μ‚¬μš©, 값이 0 & 1 λ‘˜μ€‘μ— ν•˜λ‚˜λ§Œ 좜λ ₯λ©λ‹ˆλ‹€.
  • μž…λ ₯이 0을 λ„˜μœΌλ©΄ 1을 좜λ ₯ν•˜κ³ , κ·Έ μ™Έμ—λŠ” 0을 좜λ ₯ν•˜λŠ” ν•¨μˆ˜ν•©λ‹ˆλ‹€.
  • Step Function(계단 ν•¨μˆ˜)λŠ” 미뢄값이 0μ΄μ—¬μ„œ ν•™μŠ΅μ΄ λΆˆκ°€λŠ₯ ν•©λ‹ˆλ‹€.
  • κ·Έλž˜μ„œ Gradient(기울기) λ°©μ‹μ˜ μ΅œμ ν™”λ₯Ό μ‚¬μš©ν•˜λŠ” Neural Network(신경망) μ—μ„œλŠ” μ‚¬μš©ν• μˆ˜ μ—†μŠ΅λ‹ˆλ‹€. μ΄μœ λŠ” λ¬΄μ—‡μΌκΉŒμš”?
1. Step Function μ—μ„œλŠ” μž„κ³„κ°’μ΄ λΆˆμ—°μ†μ μœΌλ‘œ λ³€ν•˜λŠ”λ°, κ·Έ μ§€μ μ—μ„œλŠ” 미뢄이 λΆˆκ°€λŠ₯ν•©λ‹ˆλ‹€.
신경망 ν•™μŠ΅μ—μ„œλŠ” Weightλ₯Ό μ‘°μ •ν•˜κΈ° μœ„ν•΄μ„œ Loss Function의 Gradientκ°€ ν•„μš”ν•œλ°, Step ν•¨μˆ˜λŠ” 미뢄값을 제곡 ν• μˆ˜ μ—†μŠ΅λ‹ˆλ‹€.
2. Gradient Loss 문제, Step ν•¨μˆ˜μ—μ„œλŠ” λŒ€λΆ€λΆ„μ˜ GradientλŠ” 0μ΄λ―€λ‘œ, Weight(κ°€μ€‘μΉ˜) μ—…λ°μ΄νŠΈκ°€ μ œλŒ€λ‘œ 이루어 μ§€μ§€ μ•ŠμœΌλ―€λ‘œ, 신경망이 ν•™μŠ΅μ„ ν• μˆ˜ μ—†μŠ΅λ‹ˆλ‹€.

Sigmoid Function - μ‹œκ·Έλͺ¨μ΄λ“œ ν•¨μˆ˜

  • Step Function (계산 ν•¨μˆ˜)의 λΆ€λ“œλŸ¬μš΄ 버전 (κ·Έλž˜ν”„)μž…λ‹ˆλ‹€.
  • 계단 ν•¨μˆ˜μ™€ 달리 미뢄이 κ°€λŠ₯ν•©λ‹ˆλ‹€.
  • exp(μ§€μˆ˜ν•¨μˆ˜) 계산 λΉ„μš©μ΄ λΉ„μŒ‰λ‹ˆλ‹€. 
  • Zero-centeredκ°€ μ•„λ‹ˆμ—¬μ„œ μ΅œμ ν™”μ— λΉ„νš¨μœ¨μ μž…λ‹ˆλ‹€. μ΄μœ λŠ” λ¬΄μ—‡μΌκΉŒμš”?
1. Sigmoid ν•¨μˆ˜μ˜ μ •μ˜μ— 따라 exp(μ§€μˆ˜ν•¨μˆ˜) 계산 λΉ„μš©μ€, 신경망이 κΉŠμ–΄μ§€κ³ , λ„€νŠΈμ›Œν¬μ˜ 크기가 컀지면 계산 λΉ„μš©μ΄ μ¦κ°€ν• μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.
2. Sigmoid ν•¨μˆ˜λŠ” κ·Έλž˜ν”„λ₯Ό 보면 μž…λ ₯이 크면 λ¬΄ν•œλŒ€λ‘œ λ‹€κ°€κ°€λŠ”λ°, 이건 Gradient Loss λ¬Έμ œκ°€ λ°œν–‰ν• μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ μž…λ ₯값이 λͺ¨λ‘ μ–‘μˆ˜, 음수인 경우 Gradientκ°€ 0에 κ°€κΉŒμ›Œμ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. 이건 Gradient Vanishing (기울기 μ†Œμ‹€)λ¬Έμ œκ°€ λ°œμƒν•  수 μžˆμŠ΅λ‹ˆλ‹€.

Zero-Centered Function

ν•¨μˆ˜μ˜ 좜λ ₯이 쀑심이 0인 ν•¨μˆ˜λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€. 이것은 ν™œμ„±ν™” ν•¨μˆ˜μ˜ 좜λ ₯이 μ–‘μˆ˜μ™€ 음수 λͺ¨λ‘λ₯Ό ν¬ν•¨ν•˜κ³  μžˆμŒμ„ μ˜λ―Έν•©λ‹ˆλ‹€.

  • zero-centered ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•  λ•Œ, 기울기(gradient)의 λΆ€ν˜Έκ°€ μ–‘μˆ˜μ™€ 음수 λͺ¨λ‘λ₯Ό κ°€μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.
  • 즉, μš”μ•½ν•˜λ©΄ 경사 ν•˜κ°•λ²•μ€ 기울기(gradient)의 λΆ€ν˜Έλ₯Ό 따라 λ§€κ°œλ³€μˆ˜λ₯Ό μ—…λ°μ΄νŠΈ ν•˜λŠ” λ°©μ‹μœΌλ‘œ μ§„ν–‰λ©λ‹ˆλ‹€.
  • λ˜ν•œ μ΅œμ ν™” ν•¨μˆ˜κ°€ μ§€κ·Έμž¬κ·Έλ‘œ κΈΈμ–΄μ§‘λ‹ˆλ‹€.

  • Gradient Updateκ°€ ν—ˆμš©ν•˜λŠ” λ°©ν–₯μ—μ„œ optimal둜 μˆ˜λ ΄ν•˜λŠ” weight update pathκ°€ μ§€κ·Έμž¬κ·Έλ‘œ κΈΈμ–΄μ§„λ‹€λŠ” ν˜„μƒμ΄ μžˆμŠ΅λ‹ˆλ‹€.

Hyperbolic Tangent Function (Tanh)

ν•˜μ΄νΌλ³Όλ¦­ νƒ„μ  νŠΈ ν•¨μˆ˜(tanh)λŠ” μˆ˜ν•™μ μœΌλ‘œ μ‹œκ·Έλͺ¨μ΄λ“œ ν•¨μˆ˜μ™€ λΉ„μŠ·ν•œ ν˜•νƒœλ₯Ό κ°€μ§€κ³  μžˆμ§€λ§Œ, -1κ³Ό 1 μ‚¬μ΄μ˜ λ²”μœ„λ₯Ό κ°–μŠ΅λ‹ˆλ‹€. ν•˜μ΄νΌλ³Όλ¦­ νƒ„μ  νŠΈ ν•¨μˆ˜λŠ” μ•„λž˜μ™€ 같이 μ •μ˜λ©λ‹ˆλ‹€:

  • 이 ν•¨μˆ˜λŠ” μž…λ ₯ xλ₯Ό λ°›μ•„ -1μ—μ„œ 1 μ‚¬μ΄μ˜ 값을 좜λ ₯ν•©λ‹ˆλ‹€. 이 ν•¨μˆ˜λŠ” λŒ€λΆ€λΆ„μ˜ μ‹œκ·Έλͺ¨μ΄λ“œ ν•¨μˆ˜μ™€ λ§ˆμ°¬κ°€μ§€λ‘œ S λͺ¨μ–‘μ˜ 곑선을 그리며, 0 μ£Όλ³€μ—μ„œ λŒ€μΉ­μ μΈ ν˜•νƒœλ₯Ό λ³΄μž…λ‹ˆλ‹€.
  • ν•˜μ΄νΌλ³Όλ¦­ νƒ„μ  νŠΈ ν•¨μˆ˜λŠ” 주둜 μ‹ κ²½λ§μ—μ„œ μ‚¬μš©λ˜λŠ” ν™œμ„±ν™” ν•¨μˆ˜ 쀑 ν•˜λ‚˜μž…λ‹ˆλ‹€. μ‹œκ·Έλͺ¨μ΄λ“œ ν•¨μˆ˜μ™€ λ§ˆμ°¬κ°€μ§€λ‘œ λΉ„μ„ ν˜•μ„±μ„ κ°€μ§€κ³  μžˆμ–΄ 신경망이 λ³΅μž‘ν•œ νŒ¨ν„΄μ„ ν•™μŠ΅ν•  수 μžˆλ„λ‘ λ•μŠ΅λ‹ˆλ‹€.
  • ν•˜μ§€λ§Œ ν•˜μ΄νΌλ³Όλ¦­ νƒ„μ  νŠΈ ν•¨μˆ˜λŠ” μ‹œκ·Έλͺ¨μ΄λ“œ ν•¨μˆ˜μ™€λŠ” 달리 좜λ ₯ λ²”μœ„κ°€ -1λΆ€ν„° 1κΉŒμ§€λ‘œ ν™•μž₯λ˜μ–΄, μž…λ ₯이 0 μ£Όλ³€μ—μ„œ 더 λΉ λ₯΄κ²Œ λ³€ν™”ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ νŠΉμ„±μ€ κ·Έλž˜λ””μ–ΈνŠΈ μ†Œμ‹€ 문제λ₯Ό μ™„ν™”ν•˜λŠ” 데 도움이 될 수 μžˆμŠ΅λ‹ˆλ‹€.
  • λ˜ν•œ ν•˜μ΄νΌλ³Όλ¦­ νƒ„μ  νŠΈ ν•¨μˆ˜λŠ” μž…λ ₯이 큰 κ²½μš°μ—λŠ” -1 λ˜λŠ” 1둜 μˆ˜λ ΄ν•˜λ―€λ‘œ, 좜λ ₯을 μ œν•œν•˜λŠ” 데에도 μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
  • λ˜ν•œ Zero-Centered ν•¨μˆ˜μ΄λ©°, exp(μ§€μˆ˜ 계산)λΉ„μš©μ΄ λΉ„μŒ‰λ‹ˆλ‹€.

 

Tanh ν•¨μˆ˜μ˜ λ―ΈλΆ„

  • ν•˜μ΄νΌλ³Όλ¦­ νƒ„μ  νŠΈ ν•¨μˆ˜λ₯Ό λ―ΈλΆ„ν• λ•Œ Gradient Saturation λ¬Έμ œκ°€ λ°œμƒν•©λ‹ˆλ‹€.
  • μ—¬κΈ°μ„œ Gradient Saturation λ¬Έμ œλŠ” Gradient(기울기)κ°€ λ„ˆλ¬΄ μ μ•„μ§€κ±°λ‚˜ λ„ˆλ¬΄ μ»€μ§€λŠ” ν˜„μƒμž…λ‹ˆλ‹€. Gradient Vanishing or Gradient Explosion
    • Gradient Vanishing: Gradientκ°€ λ„ˆλ¬΄ μž‘μ•„μ§€λŠ” λ¬Έμ œμž…λ‹ˆλ‹€. 신경망이 κΉŠμ–΄μ§ˆμˆ˜λ‘, μ—­μ „νŒŒ κ³Όμ •μ—μ„œ Gradientκ°€ μž…λ ₯측으둜 μ „νŒŒλ˜λ©΄μ„œ κ°μ†Œν•  수 μžˆμŠ΅λ‹ˆλ‹€. β†’ ν•˜μœ„μΈ΅μ˜ Weightκ°€ μ—…λ°μ΄νŠΈλ˜μ§€ μ•Šμ•„ ν•™μŠ΅μ— λ¬Έμ œκ°€ λ©λ‹ˆλ‹€.
    • Gradient Explosion: Gradientκ°€ λ„ˆλ¬΄ μ»€μ§€λŠ” λ¬Έμ œμž…λ‹ˆλ‹€. μ‹œκ°„에 따라 Gradientκ°€ 컀지면 Weight(κ°€μ€‘μΉ˜)κ°€ λ„ˆλ¬΄ 크게 μ—…λ°μ΄νŠΈ μ™Έμ„œ ν•™μŠ΅μ΄ λΆˆμ•ˆμ • ν•΄μ§‘λ‹ˆλ‹€.

Rectified Linear Unit Function - ReLU ν•¨μˆ˜

Rectified Linear Unit, ReLU은 μ‹ κ²½λ§μ—μ„œ κ°€μž₯ 널리 μ‚¬μš©λ˜λŠ” ν™œμ„±ν™” ν•¨μˆ˜ 쀑 ν•˜λ‚˜μž…λ‹ˆλ‹€. ReLU ν•¨μˆ˜λŠ” μž…λ ₯이 0보닀 큰 κ²½μš°μ—λŠ” μž…λ ₯ 값을 κ·ΈλŒ€λ‘œ 좜λ ₯ν•˜κ³ , 0보닀 μž‘μ€ κ²½μš°μ—λŠ” 0을 좜λ ₯ν•©λ‹ˆλ‹€. 

 

  • 2012λ…„ AlexNetμ—μ„œ 처음 μ‚¬μš©ν•˜μ˜€κ³ , 생체 Neuron의 λ°œν™” 방식이 Sigmoid보닀 더 μœ μ‚¬ν•©λ‹ˆλ‹€.
  • Linear Unitκ³Ό λΉ„μŠ·ν•˜κΈ° λ•Œλ¬Έμ— μ΅œμ ν™”κ°€ 맀우 μž˜λ©λ‹ˆλ‹€.
  • Sigmoid, Tanh 보닀 6λ°° 정도 ν•™μŠ΅μ΄ λ»λ¦…λ‹ˆλ‹€.
  • Active μƒνƒœμ—μ„œ Gradientκ°€ 크기 λ•Œλ¬Έμ— Gradient Vanishing λ¬Έμ œκ°€ 생기지 μ•ŠμŠ΅λ‹ˆλ‹€.
Active μƒνƒœμ—μ„œμ˜ Gradient: ReLU ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•  λ•Œ, μž…λ ₯ 값이 μ–‘μˆ˜μΈ 경우(Active μƒνƒœ) κ·Έλž˜λ””μ–ΈνŠΈ(λ―ΈλΆ„κ°’)은 1μž…λ‹ˆλ‹€
μ΄λŠ” μ—­μ „νŒŒ κ³Όμ •μ—μ„œ κ·Έλž˜λ””μ–ΈνŠΈκ°€ μ†Œμ‹€λ˜κ±°λ‚˜(exploding) μ‚¬λΌμ§€λŠ”(vanishing) 문제λ₯Ό 크게 μ™„ν™”μ‹œν‚΅λ‹ˆλ‹€.
단, Dead ReLUκ³Ό Not zero-centered λ¬Έμ œκ°€ μžˆμŠ΅λ‹ˆλ‹€.

 

  • Dead ReLU 문제: μž…λ ₯ 값이 음수인 경우, ReLU ν•¨μˆ˜μ˜ 좜λ ₯은 항상 0μž…λ‹ˆλ‹€.
    • 이 경우, ν•΄λ‹Ή λ‰΄λŸ°μ€ κ·Έλž˜λ””μ–ΈνŠΈ μ—­μ „νŒŒ κ³Όμ •μ—μ„œ μ•„λ¬΄λŸ° 역할을 ν•˜μ§€ λͺ»ν•˜κ²Œ λ˜μ–΄, '죽은' μƒνƒœ(Dead state)둜 μ „ν™˜λ  수 μžˆμŠ΅λ‹ˆλ‹€.
    • 일단 λ‰΄λŸ°μ΄ 이 μƒνƒœμ— 이λ₯΄λ©΄, κ·Έ λ‰΄λŸ°μ€ λ‹€μ‹œ ν™œμ„±ν™”λ˜κΈ° μ–΄λ ΅κ²Œ λ©λ‹ˆλ‹€.
  • Not zero-centered 문제: ReLU ν•¨μˆ˜μ˜ 좜λ ₯은 항상 0 λ˜λŠ” μ–‘μˆ˜μž…λ‹ˆλ‹€.
    • μ΄λŠ” 좜λ ₯ 값이 zero-centered λ˜μ§€ μ•ŠλŠ”λ‹€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€.
    • 데이터가 zero-centered λ˜μ§€ μ•ŠμœΌλ©΄, κ°€μ€‘μΉ˜μ˜ μ—…λ°μ΄νŠΈκ°€ ν•œμͺ½ λ°©ν–₯으둜 치우치게 λ˜μ–΄ μ΅œμ ν™” κ³Όμ •μ—μ„œ λΉ„νš¨μœ¨μ μΌ 수 μžˆμŠ΅λ‹ˆλ‹€.

Dead ReLU

ν•™μŠ΅ 쀑에 일뢀 λ‰΄λŸ°μ΄ 항상 0을 좜λ ₯ν•˜κ²Œ λ˜μ–΄ ν•΄λ‹Ή λ‰΄λŸ°μ΄ 더 이상 ν•™μŠ΅μ— κΈ°μ—¬ν•˜μ§€ μ•ŠλŠ” μƒνƒœλ₯Ό λ§ν•©λ‹ˆλ‹€.

음수 ꡬ간에도 μ•„μ£Ό μž‘μ€ Activation을 λ§Œλ“€μ–΄ ν•™μŠ΅μ΄ 되게 ν•˜μž

  • ReLU ν•¨μˆ˜λŠ” μž…λ ₯이 0보닀 μž‘μ€ κ²½μš°μ—λŠ” 항상 0을 좜λ ₯ν•˜κΈ° λ•Œλ¬Έμ—, ν•™μŠ΅ 쀑에 ν•΄λ‹Ή λ‰΄λŸ°μ΄ 음수 μž…λ ₯을 λ°›κ²Œ 되면 κ³„μ†ν•΄μ„œ 0을 좜λ ₯ν•˜κ²Œ λ©λ‹ˆλ‹€. x < 0 κ΅¬κ°„μ—μ„œ Activation이 0이되면 Gradientκ°€ 0이 λ˜μ–΄ ν•™μŠ΅μ΄ μ§„ν–‰λ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.
  • μ΄λŸ¬ν•œ 경우, ν•΄λ‹Ή λ‰΄λŸ°μ˜ κ°€μ€‘μΉ˜(weight) 및 편ν–₯(bias)이 μ—…λ°μ΄νŠΈλ˜μ§€ μ•Šμ•„ ν•™μŠ΅ κ³Όμ •μ—μ„œ λ‰΄λŸ°μ΄ 죽은 μƒνƒœλ‘œ λ‚¨μ•„μžˆκ²Œ λ©λ‹ˆλ‹€.
  • μ΄λŸ¬ν•œ ν˜„μƒμ΄ λ°œμƒν•˜λ©΄, λ„€νŠΈμ›Œν¬μ˜ ν‘œν˜„λ ₯(representational power)이 μ œν•œλ˜κ³  λͺ¨λΈμ˜ μ„±λŠ₯이 μ €ν•˜λ  수 μžˆμŠ΅λ‹ˆλ‹€.
  • λ˜ν•œ μ΄ˆκΈ°ν™”λ₯Ό 잘λͺ»ν•˜κ±°λ‚˜ Learning Rateκ°€ 맀우 클 λ•Œ λ°œμƒν•©λ‹ˆλ‹€.
  • ν…ŒμŠ€νŠΈ λ°μ΄ν„°μ˜ 10% ~ 20%κ°€ Dead ReLU이면 λ¬Έμ œκ°€ 될 μˆ˜λ„ 있음.

Dead ReLU의 ν•΄κ²° 방법

 Dead ReLU 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ λͺ‡ κ°€μ§€ μ ‘κ·Ό 방법이 μžˆμŠ΅λ‹ˆλ‹€.
  1. Leaky ReLU: ReLU의 λ³€ν˜• 쀑 ν•˜λ‚˜λ‘œ, 음수 μž…λ ₯에 λŒ€ν•΄ μž‘μ€ 기울기λ₯Ό 가지도둝 ν•©λ‹ˆλ‹€. μ΄λ ‡κ²Œ ν•˜λ©΄ 음수 μž…λ ₯에 λŒ€ν•΄ 항상 0이 μ•„λ‹ˆλΌ μž‘μ€ 값을 좜λ ₯ν•˜μ—¬ 죽은 λ‰΄λŸ° 문제λ₯Ό μ™„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  2. Parametric ReLU (PReLU): Leaky ReLU와 μœ μ‚¬ν•˜μ§€λ§Œ, 음수 μž…λ ₯에 λŒ€ν•œ κΈ°μšΈκΈ°κ°€ ν•™μŠ΅ κ°€λŠ₯ν•œ λ§€κ°œλ³€μˆ˜λ‘œ λ³€ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λ„€νŠΈμ›Œν¬κ°€ 데이터에 따라 음수 μž…λ ₯에 λŒ€ν•΄ μ ν•©ν•œ 기울기λ₯Ό ν•™μŠ΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  3. Exponential Linear Unit (ELU): 음수 μž…λ ₯에 λŒ€ν•΄ μž‘μ€ 값을 좜λ ₯ν•˜λŠ” λŒ€μ‹ , ELUλŠ” 음수 μž…λ ₯에 λŒ€ν•΄ μ§€μˆ˜ ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ λΆ€λ“œλŸ¬μš΄ λͺ¨μ–‘μ˜ 곑선을 ν˜•μ„±ν•©λ‹ˆλ‹€. μ΄λŠ” Dead ReLU 문제λ₯Ό μ™„ν™”ν•˜κ³  μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.

Leaky ReLU

Leaky ReLUλŠ” μž…λ ₯이 음수인 κ²½μš°μ—λ„ μž‘μ€ μ–‘μ˜ 기울기λ₯Ό κ°€μ§„ μ„ ν˜• ν•¨μˆ˜λ₯Ό 좜λ ₯ν•©λ‹ˆλ‹€.

 

  • Leaky ReLUλŠ” ReLU의 μ£Όμš” 단점쀑 ν•˜λ‚˜μΈ Dead ReLU 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ œμ•ˆλ˜μ—ˆμŠ΅λ‹ˆλ‹€.
  • μž…λ ₯값이 μŒμˆ˜μΌλ•Œλ„ Gradientκ°€ 완전이 0이 λ˜μ§€ μ•Šλ„λ‘ μž‘μ€ 기울기λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
  • λ˜ν•œ 음수 ꡬ간에 Gradientκ°€ μƒκΉ€μœΌλ‘œμ¨ ν›ˆλ ¨ 속도가 λΉ¨λΌμ§‘λ‹ˆλ‹€.
  • 0.01κ³Ό 같은 μž‘μ€ κ°’μœΌλ‘œ μ„€μ •λ˜λ©΄ μž…λ ₯이 음수인 κ²½μš°μ—λ„ 0보닀 큰 기울기λ₯Ό κ°€μ§€λ―€λ‘œ, 죽은 ReLU 문제λ₯Ό μ™„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

ELU (Exponential Linear)

ELUλŠ” 음수 μž…λ ₯에 λŒ€ν•œ λΆ€λ“œλŸ¬μš΄ λͺ¨μ–‘μ˜ 곑선을 ν˜•μ„±ν•˜λŠ” ν™œμ„±ν™” ν•¨μˆ˜μž…λ‹ˆλ‹€.
λ˜ν•œ 음수 μž…λ ₯에 λŒ€ν•΄ μ§€μˆ˜ ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ μ„ ν˜•μ μœΌλ‘œ μˆ˜λ ΄ν•˜λŠ” 뢀뢄이 μžˆμ–΄, ReLU의 단점인 "죽은 λ‰΄λŸ°" 문제λ₯Ό μ™„ν™”ν•˜κ³  μ‹ κ²½λ§μ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.

  • ELUλŠ” ReLU의 μž₯점을 μœ μ§€ν•˜λ©΄μ„œ κ·Έ 단점을 κ°œμ„ ν•˜κ³ μž ν•˜λŠ” λͺ©μ μœΌλ‘œ μ œμ•ˆλ˜μ—ˆμŠ΅λ‹ˆλ‹€.
  • 특히, ReLUμ—μ„œ λ°œμƒν•  수 μžˆλŠ” Dead ReLU λ¬Έμ œμ™€ 좜λ ₯이 zero-centered λ˜μ§€ μ•ŠλŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€.
  • μ—¬κΈ°μ„œ Ξ±λŠ” 음수 μž…λ ₯에 λŒ€ν•œ ELU ν•¨μˆ˜μ˜ νŠΉμ • μ˜μ—­μ—μ„œμ˜ λΆ€λ“œλŸ¬μš΄ μ„ ν˜• 뢀뢄을 κ²°μ •ν•˜λŠ” μ–‘μˆ˜ ν•˜μ΄νΌνŒŒλΌλ―Έν„°μž…λ‹ˆλ‹€. 일반적으둜 
  • Ξ±λŠ” 1보닀 ν¬κ±°λ‚˜ 같은 κ°’μœΌλ‘œ μ„€μ •λ©λ‹ˆλ‹€.
  • ELU ν•¨μˆ˜λŠ” 음수 μž…λ ₯에 λŒ€ν•΄ ReLU보닀 λΆ€λ“œλŸ½κ³  더 λΉ λ₯΄κ²Œ μˆ˜λ ΄ν•˜λŠ” ν˜•νƒœλ₯Ό κ°€μ§€λ©°, μ΄λŠ” ν•™μŠ΅ 속도λ₯Ό ν–₯μƒμ‹œν‚€κ³  더 κ°•λ ₯ν•œ ν‘œν˜„λ ₯을 μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, ELU ν•¨μˆ˜λŠ” 음수 μž…λ ₯에 λŒ€ν•΄ μž‘μ€ 기울기λ₯Ό κ°€μ§€λ―€λ‘œ κ·Έλž˜λ””μ–ΈνŠΈ μ†Œμ‹€ 문제λ₯Ό μ™„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

MaxOut

Maxout은 λ‹€μ–‘ν•œ ν˜•νƒœμ˜ ν™œμ„±ν™” ν•¨μˆ˜λ₯Ό ν•™μŠ΅ κ°€λŠ₯ν•œ νŒŒλΌλ―Έν„°λ‘œ μ‚¬μš©ν•˜λŠ” μ•„ν‚€ν…μ²˜μž…λ‹ˆλ‹€.
주둜 λ”₯ λŸ¬λ‹μ—μ„œ μ‚¬μš©λ˜λ©°, 특히 이미지 인식과 κ΄€λ ¨λœ λ¬Έμ œμ—μ„œ μœ μš©ν•˜κ²Œ 적용될 수 μžˆμŠ΅λ‹ˆλ‹€
μ—¬λŸ¬ 개의 μ„ ν˜• ν•¨μˆ˜μ˜ 좜λ ₯ 쀑 μ΅œλŒ“κ°’μ„ μ„ νƒν•˜μ—¬ 그것을 λ‹€μŒ λ ˆμ΄μ–΄λ‘œ μ „λ‹¬ν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€.
( x )에 λŒ€ν•΄ ( k )개의 μ„œλ‘œ λ‹€λ₯Έ κ°€μ€‘μΉ˜ 벑터와 편ν–₯을 μ μš©ν•œ ν›„, 이듀 쀑 μ΅œλŒ“κ°’μ„ μ„ νƒν•˜μ—¬ 좜λ ₯ν•©λ‹ˆλ‹€.

  • ReLUλ₯Ό μΌλ°˜ν™”ν•œ Piecewise Linear Function을 ν•™μŠ΅ν•©λ‹ˆλ‹€. λ˜ν•œ μ„±λŠ₯이 λ›°μ–΄λ‚©λ‹ˆλ‹€.
  • μ—¬λŸ¬ Weight(κ°€μ€‘μΉ˜), Bias(편견)에 λŒ€ν•΄ 값을 κ΅¬ν•΄μ„œ μ΅œλŒ€ 값을 μ·¨ν•˜λŠ” λ°©μ‹μœΌλ‘œ ꡬ간 별 μ΅œλŒ€ Linear Activation을 μ„ νƒν•˜λŠ” νš¨κ³Όκ°€ μžˆμŠ΅λ‹ˆλ‹€.

λ‘κ°œμ˜ MaxOut μœ λ‹›κ³Ό 각각에 μ„Έκ°œμ˜ Linear Node둜 이뀄진 MaxOut λ„€νŠΈμ›Œν¬