A A
[DL] Feed-forward Network (ํ”ผ๋“œ-ํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ)

Feed-Forward Network

Feed-Forward Networks๋Š” ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ์ธ๊ณต ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์ค‘ ํ•˜๋‚˜๋กœ, Input Layer(์ž…๋ ฅ์ธต)์—์„œ Output Layer(์ถœ๋ ฅ์ธต)์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆœ๋ฐฉํ–ฅ์œผ๋กœ ํ๋ฅด๋Š” ๊ตฌ์กฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ์—ฌ๊ธฐ์„œ Data๋Š” ๊ฐ Layer(์ธต)์„ ์ง€๋‚  ๋•Œ๋งˆ๋‹ค ๊ฐ€์ค‘์น˜์— ์˜ํ•ด ๋ณ€ํ™˜๋˜๊ณ , Activation Function(ํ™œ์„ฑํ™” ํ•จ์ˆ˜)๋ฅผ ํ†ตํ•ด ๋‹ค์Œ Layer(์ธต)์œผ๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค
  • ์ด๋Ÿฌํ•œ ๋„คํŠธ์›Œํฌ๋Š” ์ˆœํ™˜ ์—ฐ๊ฒฐ์ด๋‚˜ ๋ณต์žกํ•œ Feedback ๋ฃจํ”„๊ฐ€ ์—†์–ด์„œ ๊ณ„์‚ฐ์ด ๋น„๊ต์  ๊ฐ„๋‹จํ•˜๊ณ , ๋‹ค์–‘ํ•œ ๋ฌธ์ œ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ •๋ฆฌํ•˜์ž๋ฉด, ๋ฐ์ดํ„ฐ๊ฐ€ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ํ๋ฅธ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋Š” Input Layer(์ž…๋ ฅ์ธต)์—์„œ ์‹œ์ž‘ํ•˜์—ฌ Hidden Layer(์€๋‹‰์ธต)์„ ๊ฑฐ์ณ Output Layer(์ถœ๋ ฅ์ธต)์œผ๋กœ ์ „๋‹ฌ๋˜๋ฉฐ, ๊ฐ ์ธต์—์„œ๋Š” Activation Function(ํ™œ์„ฑํ™” ํ•จ์ˆ˜)๋ฅผ ํ†ตํ•ด ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
  • ์ด ๊ณผ์ •์—์„œ ์ˆœํ™˜(loop)์ด๋‚˜ ๋˜๋Œ์•„๊ฐ€๋Š”(feedback) ์—ฐ๊ฒฐ์€ ์—†์œผ๋ฉฐ, ๊ฐ ์ธต์€ ์ด์ „ ์ธต์˜ ์ถœ๋ ฅ์„ ๋‹ค์Œ ์ธต์˜ Input(์ž…๋ ฅ)์œผ๋กœ๋งŒ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Feed-Forward Network์˜ ๊ธฐ๋ณธ์ ์ธ ํ˜•ํƒœ

  • ๋‹ค์ˆ˜์˜ Input(์ž…๋ ฅ) Node, Weight(๊ฐ€์ค‘์น˜), Activation Function(ํ™œ์„ฑํ™” ํ•จ์ˆ˜)๋ฅผ ํ†ตํ•ด ์ถœ๋ ฅ ๋…ธ๋“œ๋กœ ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋•Œ Weight(๊ฐ€์ค‘์น˜)๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ์—…๋ฐ์ดํŠธ ๋˜๋ฉฐ, ์ดˆ๊ธฐ Weight(๊ฐ€์ค‘์น˜)๋Š” ๋ณดํ†ต ๋ฌด์ž‘์œ„๋กœ ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค.
  • FNN(Feed-Forward Networks)๋Š” MLP, Multi-Layer Perceptron(๋‹ค์ค‘ ํผ์…‰ํŠธ๋ก )์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋ฉฐ, Hidden Layer(์€๋‹‰์ธต)์ด ํ•˜๋‚˜ ์ด์ƒ์ธ ์ธ๊ณต์‹ ๊ฒธ๋ง์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

FFN์˜ ๊ธฐ๋ณธ์ ์ธ ํ˜•ํƒœ


FFN์˜ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ

  • x๋Š” vector (Input Layer์˜ Neuron), ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • W๋Š” Matrix (๊ฐ€๋ฆฌํ‚ค๋Š” ํ™”์‚ดํ‘œ), Weight(๊ฐ€์ค‘์น˜)๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • h๋Š” Vector (Hidden Layer์˜ Neuron)์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • b๋Š” Bias(ํŽธํ–ฅ) ์ž…๋‹ˆ๋‹ค.
  • input Layer → hidden Layer๋กœ ์ด๋™์‹œ ์ฒซ๋ฒˆ์งธ Hidden Layer Neuron์„ W1 vector๋กœ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค.

 

      • ๋˜ํ•œ ๊ทธ๋ฆผ์˜ ์˜ค๋ฅธ์ชฝ ์ƒ๋‹จ์— ์žˆ๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์˜ ์ˆ˜์‹์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š”๊ฑด ๊ฐ€์ค‘์น˜(w), ํŽธํ–ฅ(b), ๊ทธ๋ฆฌ๊ณ  ํ™œ์„ฑํ™” ํ•จ์ˆ˜(σ)์ž…๋‹ˆ๋‹ค.
      • ๊ฐ€์ค‘์น˜(w), ํŽธํ–ฅ(b)์€ ๊ฐ Layer(์ธต)์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ˜•์‹œํ‚ฌ์ง€ ๊ฒฐ์ •ํ•˜๋Š” Parameter์ž…๋‹ˆ๋‹ค. ๊ฐ Layer์˜ Output์€ ์ด์ „ Layer์˜ Output(๋˜๋Š” ์ดˆ๊ธฐ ์ž…๋ ฅ x)์— Weight(๊ฐ€์ค‘์น˜)๋ฅผ ๊ณฑํ•˜๊ณ  Bias(ํŽธํ–ฅ)์„ ๋”ํ•˜์—ฌ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
      • σ: ๊ฐ Layer(์ธต)์˜ ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜จ ์„ ํ˜• ๋ณ€ํ™˜๊ฐ’์— ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ๋Š” ReLU, Sigmoid, Tanh(ํ•˜์ดํผ๋ณผ๋ฆญํƒ„์  ํŠธ) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
      • L: ์‹ ๊ฒฝ๋ง์˜ ์ด ์ธต ์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด Layer(์ธต)๋“ค์€ Input Layer(์ž…๋ ฅ์ธต)๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์„œ ํ•˜๋‚˜ ๋˜๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ Hidden Layer(์€๋‹‰์ธต)์„ ๊ฑฐ์ณ ์ตœ์ข…์ ์œผ๋กœ Output Layer(์ถœ๋ ฅ์ธต)์—์„œ ์˜ˆ์ธก๊ฐ’์„ ๋‚ด๋†“์Šต๋‹ˆ๋‹ค.

Feed-Forward Network - Input

์œ„์˜ ๊ทธ๋ฆผ์€ 3๊ฐœ์˜ Neuron๊ณผ 1๊ฐœ์˜ Hiiden Layer๋กœ ์ด๋ฃจ์–ด ์ง€๋Š” Network ์ž…๋‹ˆ๋‹ค.

์€๋‹‰์ธต(Hidden Layer)์€ ์ธ๊ณต ์‹ ๊ฒฝ๋ง์—์„œ ์ž…๋ ฅ์ธต(Input Layer)๊ณผ ์ถœ๋ ฅ์ธต(Output Layer) ์‚ฌ์ด์— ์œ„์น˜ํ•˜๋Š” ์ธต์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ์‹ ๊ฒฝ๋ง์˜ ํ•ต์‹ฌ ๊ตฌ์กฐ ์ค‘ ํ•˜๋‚˜๋กœ, ์‹ ๊ฒฝ๋ง์ด ๋ณต์žกํ•œ ํŒจํ„ด์ด๋‚˜ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆผ์„ ๋ณด์‹œ๋ฉด, Multi-Layer Perceptron๊ณผ ๊ฐ™์ด Node๊ณผ ์—ฐ๊ฒฐ๋œ Network์ž…๋‹ˆ๋‹ค.
  • Fully-Connected Layer ๋ผ๊ณ ๋„ ํ•˜๋ฉฐ, Input Data๋ฅผ 1์ฐจ์› ํ˜•ํƒœ์˜ Vector๋กœ ๋ฐ›์•„์„œ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

Feed-Forward Network - Output

  • ํฌ๊ฒŒ 2๊ฐœ์˜ ๋ฌธ์ œ๋กœ ๋‚˜๋ˆŒ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Classification (๋ถ„๋ฅ˜ ๋ฌธ์ œ), Regression (ํšŒ๊ท€ ๋ฌธ์ œ)

Feed-Forward Network Output - Classification (๋ถ„๋ฅ˜ ๋ฌธ์ œ)

  • ์œ„์˜ ๊ทธ๋ฆผ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ํ•ด๋ณด๋ฉด Classification ์—์„ ?
  • input Data์— ๋Œ€ํ•œ Class, Category๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์—ฌ๊ธฐ์„œ Output์€ Input Data๊ฐ€ ์†ํ•  ํด๋ž˜์Šค ์ž…๋‹ˆ๋‹ค.
  • Discrete Value (ํ™•๋ฅ ๋ชจ๋ธ): Input Data๊ฐ€ ๊ฐ Class์— ์†ํ•  ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
  • ์•„๋ž˜์—์„œ ์ž์„ธํžˆ Sigmoid๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์ง„๋ถ„๋ฅ˜, Softmax๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋‹ค์ค‘๋ถ„๋ฅ˜์— ๋ฐํ•˜์—ฌ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

์ผ๋‹จ ํ•œ๋ฒˆ ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ (Bernoulli Distribution)์— ๋ฐํ•˜์—ฌ ์„ค๋ช…์„ ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
  • ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋Š” ์ด์ง„ ๋ถ„ํฌ์˜ ํ•˜๋‚˜๋กœ, ์‹คํ—˜์ด ๋‘ ๊ฐ€์ง€ ๊ฒฐ๊ณผ ์ค‘ ํ•˜๋‚˜๋งŒ์„ ๊ฐ€์งˆ ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ํ™•๋ฅ  ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค.
  • ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค:
    • ์„ฑ๊ณต ํ™•๋ฅ  (p) : ์‹คํ—˜์—์„œ ์„ฑ๊ณต(1๋กœ ํ‘œํ˜„)ํ•  ํ™•๋ฅ 
    • ์‹คํŒจ ํ™•๋ฅ  (1-p) : ์‹คํ—˜์—์„œ ์‹คํŒจ(0์œผ๋กœ ํ‘œํ˜„)ํ•  ํ™•๋ฅ 
  • ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์„ฑ๊ณต ํ™•๋ฅ  (p)๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ณผ์ •์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ Categorial Distribution (๋‹ค์ค‘๋ถ„๋ฅ˜)๋„ ์žˆ์ง€๋งŒ, ๋’ค์—์„œ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

Feed-Forward Network Output - Regression (ํšŒ๊ท€ ๋ฌธ์ œ)

Regression (ํšŒ๊ท€ ๋ฌธ์ œ)๋Š” ํ•˜๋‚˜ ๋˜๋Š” ๊ทธ ์ด์ƒ์˜ ๋…๋ฆฝ ๋ณ€์ˆ˜์™€ ์ข…์† ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ณ , ์ด๋ฅผ ํ•จ์ˆ˜์˜ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚ด์–ด ๋…๋ฆฝ ๋ณ€์ˆ˜์˜ ๋ณ€ํ™”๊ฐ€ ์ข…์† ๋ณ€์ˆ˜์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๋ถ„์„ํ•˜๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

  • ์—ฌ๊ธฐ์„œ Output(์ถœ๋ ฅ)์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ•จ์ˆ˜๊ฐ’ ์ž…๋‹ˆ๋‹ค.
  • ๋˜ํ•œ ์—ฌ๊ธฐ์„œ ํ™•๋ฅ  ๋ชจ๋ธ์€ ๊ด€์ธกํ•œ ๊ฐ’์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํ‘œ๊ฐ’์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  Regression(ํšŒ๊ท€ ๋ฌธ์ œ)์—์„œ Gauassian Distrubution(๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ)๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด์œ ๋Š” ํšŒ๊ท€ ๋ฌธ์ œ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์—ฐ์†๋ฐ์ดํ„ฐ๋Š” ๋Œ€๋ถ€๋ถ„ Gauassian(๊ฐ€์šฐ์‹œ์•ˆ)์œผ๋กœ ๊ฐ€์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

Binary classification (์ด์ง„ ๋ถ„๋ฅ˜)

์•ž์—์„œ ์„ค๋ช…ํ•œ ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ (Bernoulli Distribution)๋ฅผ ๊ฐ€์ง€๋Š” ์ถœ๋ ฅ์€ Sigmoid ํ•จ์ˆ˜๋กœ ๋งŒ๋“ค์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์™œ ์ผ๊นŒ์š”?
  • Sigmoid ํ•จ์ˆ˜๋Š” 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ์ถœ๋ ฅํ•˜์—ฌ, ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ์˜ ํ™•๋ฅ (์„ฑ๊ณต ๋˜๋Š” ์‹คํŒจ)์„ ๋‚˜ํƒ€๋‚ด๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  • Sigmoid ํ•จ์ˆ˜์˜ ์ถœ๋ ฅ์„ ํŠน์ • ์‚ฌ๊ฑด์˜ ๋ฐœ์ƒ ํ™•๋ฅ ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์–ด, ์ด์ง„ ๊ฒฐ์ • ๋ฌธ์ œ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  • Sigmoid ํ•จ์ˆ˜๋Š” ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜์—ฌ, ๊ธฐ๊ณ„ ํ•™์Šต์—์„œ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ๋“ฑ์˜ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•  ๋•Œ ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

Sigmoid ํ•จ์ˆ˜์˜ ๊ทธ๋ž˜ํ”„ & ์ˆ˜์‹

Sigmoid Function (์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜)

  • ๊ฐ„๋‹จํ•˜๊ฒŒ ์ •๋ฆฌ ํ•˜์ž๋ฉด, Sigmoid Function(์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜)๋Š” ์ž…๋ ฅ๊ฐ’์„ ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜์„ ํ•ด์ค๋‹ˆ๋‹ค.
  • ๋˜ํ•œ ๊ฐ’์ด 0๊ณผ 1์‚ฌ์ด์— ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  Cross-Entropy Loss์™€ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด Cross-Entropy Loss๋Š” ์•„๋ž˜์—์„œ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

Decision Boundary (๊ฒฐ์ • ๊ฒฝ๊ณ„)

๋‹ค์‹œ ๋Œ์•„์˜ค์ž๋ฉด, Sigmoid Function(์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜)๋ฅผ ์ด์šฉํ•˜์—ฌ Model์ด ์˜ˆ์ธกํ•œ Bernoulli Distribution (๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ)์œผ๋กœ Decision Boundary(๊ฒฐ์ • ๊ฒฝ๊ณ„)๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค.
  • Decision Boundary(๊ฒฐ์ • ๊ฒฝ๊ณ„)๋Š” ํŠน์ • ๊ตฌ๊ฐ„์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  Input Data๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋ชจ๋ธ์˜ ๊ธฐ์ค€์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, Binary Classification(์ด์ง„ ๋ถ„๋ฅ˜)์—์„œ๋Š” Decision Boundary(๊ฒฐ์ • ๊ฒฝ๊ณ„)๋ฅผ ๊ฒฝ๊ณ„๋กœ ํ•œ์ชฝ์€ ํ•˜๋‚˜์˜ ํด๋ž˜์Šค, ๋‹ค๋ฅธ ํ•œ์ชฝ์€ ๋‹ค๋ฅธ ํ•œ์ชฝ์˜ ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜๋ฉ๋‹ˆ๋‹ค.

  • ์œ„์˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด (H(x) = g(XW))๋Š” ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ•จ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์‹์ž…๋‹ˆ๋‹ค.
  • ์—ฌ๊ธฐ์„œ H(x)๋Š” ์ฃผ์–ด์ง„ Input(x)์— ๋ฐํ•œ Model Predict output์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • g(XW)๋Š” Input Data(X) & Weight(W)๋ฅผ ์ ์šฉํ•œ๋’ค, Activation Function(ํ™œ์„ฑํ™” ํ•จ์ˆ˜)๋ฅผ ํ†ตํ•ด ๋ณ€ํ™˜๋œ ๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

Decision Boundary (๊ฒฐ์ • ๊ฒฝ๊ณ„) ์„ค์ •๊ณผ ์˜ˆ์ธก๊ฐ’์˜ ๋ฒ”์œ„์— ๋Œ€ํ•œ ์„ค๋ช…

  • Classification ๋ชจ๋ธ ๊ทธ๋ž˜ํ”„ ์•„๋ž˜ ์ˆœ์„œ๋„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๊ฑธ ๋ณด๋ฉด์„œ ์„ค๋ช…์„ ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
  • Linear Function θ * T์˜ ์˜๋ฏธ๋Š” ๋ณดํ†ต Logistic Regression(๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€)์—์„œ๋Š” Input Data(X)๋ž‘ Weight(๊ฐ€์ค‘์น˜)๋ฅผ ์˜๋ฏธํ•˜๋Š” ์„ธํƒ€(θ)๋ž‘ ๊ณฑํ•ด์„œ ์–ป์€ ์„ ํ˜•ํ•จ์ˆ˜์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • Logistic Function(๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€)์—์„œ๋Š” Linear Function(์„ ํ˜• ํ•จ์ˆ˜)์˜ ๊ฒฐ๊ณผ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„์„œ Output Value(y)์˜ ๊ฐ’์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.
    • ๊ทธ๋ฆฌ๊ณ  ๊ทธ Output Value(y)๋Š” 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด๊ฑด ํŠน์ • ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฏธํ•˜๋Š” ํฌ์ธํŠธ๊ฐ€ ํŠน์ •ํ•œ ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • Decision Boundary > 0.5: Logistic Function ์—์„œ๋Š” Output Value(y)๊ฐ€ (0.5)๋ณด๋‹ค ํฌ๋ฉด ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ํ•œ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ  (0.5)๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ ๊ฐ™์œผ๋ฉด ๋‹ค๋ฅธ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ถ„๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ, (0.5)๋Š” ๊ฒฐ์ • ๊ฒฝ๊ณ„(Decision Boundary)๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, (y > 0.5)์ด๋ฉด ํด๋ž˜์Šค 1์—, ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ํด๋ž˜์Šค 0์— ์†ํ•œ๋‹ค๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  ๊ฐ ๋ฐ์ดํ„ฐ์˜ class๋Š” ์ด๋ฏธ ๊ตฌ๋ถ„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

Categorical classification (๋‹ค์ค‘ ๋ถ„๋ฅ˜)

๋‹ค์ค‘๋ถ„๋ฅ˜๋Š” Category ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค
  • ๋‹ค์ค‘๋ถ„๋ฅ˜ ๋ฌธ์ œ๋Š” ์—ฌ๋Ÿฌ ๋ฒ”์ฃผ ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๊ธฐ ๋•Œ๋ฌธ์—, Category ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฌธ์ œ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค
  • Category ๋ถ„ํฌ๋Š” ์—ฌ๋Ÿฌ ๋ฒ”์ฃผ ์ค‘ ํ•˜๋‚˜๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์„ ๋ชจ๋ธ๋งํ•˜๋ฉฐ, ๋‹ค์ค‘ ๋ถ„๋ฅ˜์—์„œ๋Š” ๊ฐ ํด๋ž˜์Šค ๋˜๋Š” ๋ฒ”์ฃผ์— ์†ํ•  ํ™•๋ฅ ์„ ์ถ”์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ, ๋‹ค์ค‘ ๋ถ„๋ฅ˜๋Š” ๊ฐ ๊ด€์ธก์น˜๊ฐ€ ์ฃผ์–ด์ง„ ์—ฌ๋Ÿฌ ๋ฒ”์ฃผ ์ค‘ ์–ด๋Š ํ•˜๋‚˜์— ์†ํ•  ํ™•๋ฅ ์„ ์ถ”์ •ํ•˜๋Š” ๊ณผ์ •์ด๋ฉฐ, ์ด๋Š” Category ๋ถ„ํฌ์˜ ์ถ”์ •๊ณผ ์ง์ ‘์ ์œผ๋กœ ๊ด€๋ จ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ทธ๋ ‡๋‹ค๊ณ  Binary Classification(์ด์ง„ ๋ถ„๋ฅ˜)์™€๋Š” ๋‹ค๋ฅธ์ ์€, Binary Classification(์ด์ง„ ๋ถ„๋ฅ˜)๋Š” 2๊ฐœ์˜ Class๋ฅผ ๋ถ„๋ฅ˜ํ•˜์—ฌ 2๊ฐœ์˜ ๊ฒฐ๊ณผ๋งŒ์„ ๋‚ด์ง€๋งŒ, Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜)๋Š” m๊ฐœ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‚ธ๋‹ค๋Š” ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Softmax Function(์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜)

  • Softmax ํ•จ์ˆ˜๋Š” ์ฃผ๋กœ ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
  • ๊ฐ ํด๋ž˜์Šค์— ๋Œ€ํ•œ Predict๊ฐ’์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•œ *Logits (์ฆ‰, ์‹ ๊ฒฝ๋ง์—์„œ ๋งˆ์ง€๋ง‰ Linear Layer(์„ ํ˜• ๊ณ„์ธต)์„ ํ†ต๊ณผํ•œ Output Value)๋ฅผ ๋ฐ›์•„์„œ ๊ฐ ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ ํด๋ž˜์Šค์˜ ํ™•๋ฅ  ๊ฐ’์€ 0~1์‚ฌ์ด๋กœ ํ‘œํ˜„ํ•˜๊ณ , ์ด ํ™•๋ฅ ๊ฐ’๋“ค์˜ ์ดํ•ฉ์€ 1์ด ๋ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  N๊ฐœ์˜ Category ๋ถ„๋ฅ˜์— ์‚ฌ์šฉ๋˜๋ฉฐ, Cross-Entropy Loss์™€ ๊ฐ™์ด ์‚ฌ์šฉ ๋ฉ๋‹ˆ๋‹ค.
*Logits: Logits์€ ์‹ ๊ฒฝ๋ง๊ณผ ๊ฐ™์€ ๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ์—์„œ, Activation Function(ํ™œ์„ฑํ™” ํ•จ์ˆ˜)๋‚˜ softmax ํ•จ์ˆ˜ ๊ฐ™์€ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์ „๋‹ฌ๋˜๊ธฐ ์ „์˜, ๋งˆ์ง€๋ง‰ Hidden Layer(์€๋‹‰์ธต)์˜ ์ถœ๋ ฅ๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

Softmax Function (์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜) ์ˆ˜์‹

  • Softmax ํ•จ์ˆ˜์˜ ์ˆ˜์‹์„ ๋ณด๋ฉด์„œ ํ•œ๋ฒˆ ์ž์„ธํžˆ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. (์œ„์˜ ๊ทธ๋ฆผ ์˜ค๋ฅธ์ชฝ ์ƒ๋‹จ์— ์ˆ˜์‹์ด ์žˆ์Œ)
  • yi๋Š” i๋ฒˆ์งธ ํด๋ž˜์Šค์— ๋ฐํ•œ Logits Value(์‹ ๊ฒฝ๋ง์˜ ๋งˆ์ง€๋ง‰ Linear Layer(์„ ํ˜• ๊ณ„์ธต)์˜ Output) ์ž…๋‹ˆ๋‹ค.
  • ๋ถ„๋ชจ, ๋ถ„์ž์— ์žˆ๋Š” e**yi ๊ฐ’์€ ๊ฐ ํด๋ž˜์Šค ๋กœ์ง yi์— ์ง€์ˆ˜ํ•จ์ˆ˜ e๋ฅผ ์ ์šฉํ•œ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • Softmax ํ•จ์ˆ˜์—์„œ ๊ฐ ํด๋ž˜์Šค y์— ๋Œ€ํ•œ ๋กœ์ง yi๋Š” ์ง€์ˆ˜ํ™”๋˜์–ด์„œ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด์œ ๋Š” ์—ฌ๋Ÿฌ ํด๋ž˜์Šค๋“ค์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ํด๋ž˜์Šค์˜ ์ ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œ๊ฒจ์„œ, ๋†’์€ ๊ฐ’์„์ด ์ž˜ ๋‚˜ํƒ€๋‚˜๊ฒŒ ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

Sotmax Function(์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜) ๊ณ„์‚ฐ ๊ณผ์ •

  1. ์ง€์ˆ˜ํ™”: ๊ฐ ํด๋ž˜์Šค Logic yi์— ๋Œ€ํ•˜์—ฌ ์ง€์ˆ˜ํ•จ์ˆ˜ e๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํฐ ๊ฐ’์„ ๋” ํฌ๊ฒŒ ํ•˜์—ฌ Logits ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ํ™•๋Œ€ํ•ฉ๋‹ˆ๋‹ค.
  2. ํ•ฉ ๊ณ„์‚ฐ: ๋ชจ๋“  ํด๋ž˜์Šค์— ๋ฐํ•œ ์ง€์ˆ˜ํ™”๋œ ๊ฐ’ e**yi์˜ ์ดํ•ฉ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ถ€๋ถ„์€ Softmax ํ•จ์ˆ˜์˜ ๋ถ„๋ชจ์— ํ•ด๋‹น๋˜๋ฉฐ, ๋ชจ๋“  Class์˜ ์ง€์ˆ˜ํ™”๋œ ๊ฐ’์œผ๋กœ ์ •์˜๋˜๋ฉฐ, ์ด ํ•ฉ์€ ์ •๊ทœํ™”(Regularzation)๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  3. ์ •๊ทœํ™”: ๊ฐ ํด๋ž˜์Šค i์— ๋ฐํ•˜์—ฌ ์ง€์ˆ˜ํ™”๋œ ๊ฐ’์„ ์ดํ•ฉ์œผ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ์ด๊ฑด ๊ฐ ๊ฐ’ e**yi๋ฅผ ๋ชจ๋“  ๊ฐ’์„ ๋ถ„๋ชจ๋กœ ๋‚˜๋ˆ„์–ด์„œ ๊ฐ ํด๋ž˜์Šค์˜ Output์„ ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋“  ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํ™•๋ฅ ์˜ ํ•ฉ์€ 1์ด ๋‚˜์™€์•ผ ํ•ฉ๋‹ˆ๋‹ค.

Categorical classification (๋‹ค์ค‘ ๋ถ„๋ฅ˜)์˜ ์ง„ํ–‰ ๊ณผ์ •.

๊ทธ๋Ÿฌ๋ฉด ์ด์ œ ๋‹ค์ค‘๋ถ„๋ฅ˜์˜ ์ง„ํ–‰๊ณผ์ •์„ ๊ทธ๋ฆผ์œผ๋กœ ํ•œ๋ฒˆ ๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

  • Input Value(์ž…๋ ฅ ๊ฐ’)์„ Neural Network(์‹ ๊ฒฝ๋ง)์— ๋„ฃ์–ด์„œ Trainingํ›„, Output Value๋กœ ๋‚˜์˜จ Score ๊ฐ’/ Logits ๊ฐ’์„ Softmax Function์„ ํ†ต๊ณผํ•˜์—ฌ ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. 
  • ๊ทธ๋Ÿฌ๋ฉด ์ด์ œ ๊ฐ ํด๋ž˜์Šค๋ณ„๋กœ ๋ชจ๋ธ์ด ์ถœ๋ ฅํ•œ ํ™•๋ฅ ๊ฐ’์ด ๋‚˜์™”๋Š”๋ฐ, ํด๋ž˜์Šค๊ฐ€ ๋“ค์–ด์žˆ๋Š” ์‹ค์ œ Label(๋ฐ์ดํ„ฐ ํฌ์ธํ„ฐ๊ฐ€ ์†ํ•œ ํด๋ž˜์Šค)์™€ ์ถœ๋ ฅํ•œ ํ™•๋ฅ ๊ฐ’์„ ์„œ๋กœ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋Ÿฌ๋ฉด ์ด์ œ ์˜ˆ์ธกํ•œ ํ™•๋ฅ ๊ณผ ์‹ค์ œ Label์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์ด ์ฐจ์ด๋ฅผ ์ธก์ •ํ•  ๋•Œ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ(Cross-Entropy)๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ๊ทผ๋ฐ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ(Cross-Entropy)๊ฐ€ ๋ญ˜๊นŒ์š”?

Cross-Entropy (ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ)

Cross-Entropy(ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ)๋Š” ์‹ค์ œ Label๊ณผ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ํ™•๋ฅ ๊ฐ’ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ(Cross-Entropy)๋Š” ์‹ค์ œ ๋ถ„ํฌ(ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”)์™€ ์˜ˆ์ธก ๋ถ„ํฌ(๋ชจ๋ธ์ด ์ถœ๋ ฅํ•œ ํ™•๋ฅ )์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” Loss Function(์†์‹ค ํ•จ์ˆ˜)์ž…๋‹ˆ๋‹ค.
  • ํŠนํžˆ ์‹ ๊ฒฝ๋ง์—์„œ Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜)๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ํŠนํžˆ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋ถˆํ™•์‹ค ํ•œ์ง€ or ๋žœ๋คํ•œ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , Randomํ•œ ๋ณ€์ˆ˜์˜ ์ •๋ณด๋Ÿ‰์˜ ๊ธฐ๋Œ€๊ฐ’์ž…๋‹ˆ๋‹ค.
  • ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ(Cross-Entropy)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ฃผ๋œ ๋ชฉ์ ์€ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ์‹ค์ œ ๋ ˆ์ด๋ธ”๊ณผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ผ์น˜ํ•˜๋Š”์ง€๋ฅผ ์ˆ˜์น˜์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, ํ•™์Šต์„ ํ†ตํ•ด ์ด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•œ๋‹ค๋Š” ๋ชฉ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

Cross-Entropy(ํฌ๋กœ์Šค-์—”ํŠธ๋กœํ”ผ) ์˜ ์ˆ˜์‹ & ๊ณ„์‚ฐ

  • Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜)์—์„œ์˜ ๊ฐ ์ž…๋ ฅ ์ƒ˜ํ”Œ์€ ํ•˜๋‚˜์˜ ํด๋ž˜์Šค์—๋งŒ ์†ํ•ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ ์œ„์˜ ์ˆ˜์‹์—์„œ p(x)๋Š” Random Variable(๋žœ๋คํ•œ ๋ณ€์ˆ˜)์˜ ํ™•๋ฅ ์ž…๋‹ˆ๋‹ค.
  • :๋Š” ์ด ์‹์˜ ๊ธฐ๋Œ€๊ฐ’์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. p(x) - ๋žœ๋ค๋ณ€์ˆ˜์˜ ๋ถ„ํฌ์— ๋”ฐ๋ผ ๋ถ„ํฌ๋œ ํ™•๋ฅ ๋ณ€์ˆ˜ x์— ๋Œ€ํ•ด -logp(x)์˜ ๊ธฐ๋Œ€๊ฐ’์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ธฐ๋Œ€๊ฐ’์€ ํ™•๋ฅ ๋ถ„ํฌ p(x)์— ๋Œ€ํ•ด ๋กœ๊ทธ ์šฐ๋„(log-likehood)๋ฅผ ๊ณ„์‚ฐํ•˜๋Š”๊ฒƒ๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋กœ๊ทธ ์šฐ๋„(log-likelihood)๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ๋ชจ๋ธ(๋˜๋Š” ํ™•๋ฅ  ๋ถ„ํฌ)์— ์˜ํ•ด ์ƒ์„ฑ๋  ํ™•๋ฅ ์„ ๋กœ๊ทธ๋กœ ๋ณ€ํ™˜ํ•œ ๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • : ์ด ์‹์€ ํ™•๋ฅ ๋ถ„ํฌ p(x)๋Œ€ํ•ด ๋กœ๊ทธ ์šฐ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ ๋ถ„์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๋ชจ๋“  x์— ๋Œ€ํ•ด p(x) log p(x)๋ฅผ ๊ณฑํ•œ ๊ฐ’์„ ์ ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  ํ•˜๋‚˜ ์•Œ์•„์•ผ ํ•˜๋Š” ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. Random Variable(p)๊ฐ€ ์–ผ๋งˆ๋‚˜ Random ํ•œ๊ฐ€? ๋ฅผ ์•Œ๊ณ ์‹ถ์œผ๋ฉด Entropy๋ฅผ ๋ณด๋ฉด๋ฉ๋‹ˆ๋‹ค.
  • ์œ„์˜ ํ•˜๋‹จ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด ์•Œ์ˆ˜ ์žˆ๋“ฏ์ด, Entropy๊ฐ€ ๋†’์œผ๋ฉด ํ™•๋ฅ ๋ถ„ํฌ p(x)์˜ ๊ธฐ๋Œ€ ํ™•๋ฅ ์€ ๋‚ฎ์Šต๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  ๋ฐ˜๋Œ€๋กœ Entropy๊ฐ€ ๋‚ฎ์œผ๋ฉด ํ™•๋ฅ ๋ถ„ํฌ p(x)์˜ ๊ธฐ๋Œ€ ํ™•๋ฅ ์€ ๋†’์Šต๋‹ˆ๋‹ค. ์™œ์ผ๊นŒ์š”?
    • ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’์„ ๋•Œ: ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐ’์— ๋Œ€ํ•ด ๋น„์Šทํ•œ ํ™•๋ฅ ์„ ๊ฐ€์งˆ ๋•Œ, ์ฆ‰ ๋ถ„ํฌ๊ฐ€ ๊ณ ๋ฅด๊ฒŒ ๋ถ„ํฌ๋˜์–ด ์žˆ์„ ๋•Œ, ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’์•„์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๋‹ค์–‘ํ•œ ๊ฐ’์„ ๊ฐ€์งˆ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
    • ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋‚ฎ์„ ๋•Œ: ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ํŠน์ • ๊ฐ’์— ์ง‘์ค‘๋˜์–ด ์žˆ์„ ๋•Œ, ์ฆ‰ ์–ด๋–ค ๊ฐ’์˜ ํ™•๋ฅ ์ด ๋†’๊ณ  ๋‚˜๋จธ์ง€ ๊ฐ’์˜ ํ™•๋ฅ ์ด ๋‚ฎ์„ ๋•Œ, ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋‚ฎ์•„์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ํŠน์ • ๊ฐ’์— ๋ชฐ๋ ค ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
    • ์œ„์˜ ๋‚ด์šฉ์„ ๋ณด๋ฉด์„œ ์š”์•ฝํ•˜๋ฉด, ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’์œผ๋ฉด ๋ถˆํ™•์‹ค์„ฑ์ด ํฌ๊ณ , ํŠน์ • ๊ฐ’์ด ๊ฒฐ์ •๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋‚ฎ์œผ๋ฉด ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ํŠน์ • ๊ฐ’์— ์ง‘์ค‘๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ถˆํ™•์‹ค์„ฑ์ด ๋‚ฎ๊ณ , ํŠน์ • ๊ฐ’์ด ๊ฒฐ์ •๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š”๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

Cross-Entropy-Loss (ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค)

ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค(Cross-Entropy Loss)์€ Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜) ์ž‘์—…์—์„œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ์‹ค์ œ ๋ ˆ์ด๋ธ”๊ณผ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€ ์ธก์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์†์‹ค ํ•จ์ˆ˜ ์ž…๋‹ˆ๋‹ค.
  • ํŠน์ง•์€ ์ž์—ฐ log์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ํ•˜๊ณ  ์žˆ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ทผ๋ฐ ์ž์—ฐ log ๊ทธ๋ž˜ํ”„ ์œ„์— ์ˆ˜์‹์ด ํ•˜๋‚˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๊ฑด ๋ฌด์Šจ ์˜๋ฏธ์ผ๊นŒ์š”? Cross Entropy Loss H(t, f(x;θ))
  • Cross Entropy Loss H(t, f(x;θ)): ์ด๊ฑด ํฌ๋กœ์Šค-์—”ํŠธ๋กœํ”ผ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

Cross-Entropy Loss ์ˆ˜์‹์˜ ์˜๋ฏธ 

  • Binary(์ด์ง„) or Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜)์—์„œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ณผ ์‹ค์ œ ๋ ˆ์ด๋ธ” t ์‚ฌ์ด์˜ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ Loss๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • f(x;θ)๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ x์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ™•๋ฅ ๋กœ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์ธ θ(์„ธํƒ€)์— ์˜ํ•˜์—ฌ ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค.
  • ์˜ˆ์ธกํ™•๋ฅ : f(x;θ)์€ ๋ชจ๋ธ์ด ์ž…๋ ฅ๋ฐ์ดํ„ฐ x์— ๋Œ€ํ•œ ์˜ˆ์ธกํ•œ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, Softmax - Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜), Sigmoid - Binary Classification(์ด์ง„ ๋ถ„๋ฅ˜)๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • ์‹ค์ œ ๋ ˆ์ด๋ธ” t: ์‹ค์ œ ๋ ˆ์ด๋ธ”์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ x์˜ ์‹ค์ œ ํด๋ž˜์Šค or Label์ž…๋‹ˆ๋‹ค. Binary Classification(์ด์ง„ ๋ถ„๋ฅ˜)์ด๋ฉด t๋Š” 0 or 1 ์ด๊ณ , Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜)๋Š” One-Hot Encoding[0 or 1]๋œ Vector๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

 

๊ณ„์‚ฐ ๋ฐฉ๋ฒ•

  • Binary Classification(์ด์ง„ ๋ถ„๋ฅ˜): ์ด์ง„ ๋ถ„๋ฅ˜์˜ ๊ฒฝ์šฐ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • ์ด ์ˆ˜์‹์€ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ์‹ค์ œ ๋ ˆ์ด๋ธ” t๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.

    • ์˜ˆ์ธกํ™•๋ฅ : f(x;θ) = σ(w * x + b)
    • ์—ฌ๊ธฐ์„œ wx๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ๊ฐ€์ค‘์น˜์˜ ๋‚ด์ b๋Š” ํŽธํ–ฅ์ž…๋‹ˆ๋‹ค. Sigmoid Function(์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
    • ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ๋ ˆ์ด๋ธ” t๊ณผ ์˜ˆ์ธก ํ™•๋ฅ  f(x;θ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
      • t * log f(x;θ): ์‹ค์ œ ๋ ˆ์ด๋ธ”์ด 1์ผ๋•Œ, ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ™•๋ฅ ์ด ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
      • (1 - t) * log (1-f(x;θ)): ์‹ค์ œ ๋ ˆ์ด๋ธ”์ด 0์ผ๋•Œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ™•๋ฅ ์ด ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
      • ๊ทธ๋ฆฌ๊ณ  ์ˆ˜์‹์˜ ๊ฐ ํ•ญ์„ ๊ณ„์‚ฐํ•˜๊ณ  ํ•ฉ์‚ฐํ•˜์—ฌ Binary Cross-Entropy Loss (์ด์ง„ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค)๊ฐ’์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
  • Categorial Classification(๋‹ค์ค‘ ๋ถ„๋ฅ˜): ๋‹ค์ค‘ ๋ถ„๋ฅ˜์˜ ๊ฒฝ์šฐ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

  • C: ํด๋ž˜์Šค์˜ ์ˆ˜์ž…๋‹ˆ๋‹ค.
  • ti: ์‹ค์ œ ๋ ˆ์ด๋ธ”์˜ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ๋œ ๋ฒกํ„ฐ๋กœ, ๊ฐ ํด๋ž˜์Šค i์— ํ•ด๋‹นํ•˜๋Š” ์‹ค์ œ ๋ ˆ์ด๋ธ”์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    • ์‹ค์ œ ๋ ˆ์ด๋ธ”์ด i์ธ ๊ฒฝ์šฐ ti = 1์ด๊ณ , ๋‚˜๋จธ์ง€ ํด๋ž˜์Šค์˜ ๊ฒฝ์šฐ ti = 0์ž…๋‹ˆ๋‹ค.
  • f(x;θ): ๋ชจ๋ธ์ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ x์— ๋Œ€ํ•ด ์˜ˆ์ธกํ•œ ๊ฐ ํด๋ž˜์Šค i์— ๋Œ€ํ•œ ํ™•๋ฅ ์ž…๋‹ˆ๋‹ค.

 

  • ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ™•๋ฅ  ๊ณ„์‚ฐ: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ x์— ๋Œ€ํ•ด ๋ชจ๋ธ์ด ๊ฐ ํด๋ž˜์Šค i์— ๋Œ€ํ•œ ์˜ˆ์ธก ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ํ™•๋ฅ  ๋ถ„ํฌ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

  • ์—ฌ๊ธฐ์„œ zi๋Š” ๋ชจ๋ธ์˜ ๊ฐ ํด๋ž˜์Šค i์— ๋Œ€ํ•œ Score(Logits)์ž…๋‹ˆ๋‹ค.
  • ์†์‹ค ํ•จ์ˆ˜ ๊ณ„์‚ฐ: ์‹ค์ œ ๋ ˆ์ด๋ธ”์˜ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ๋œ ๋ฒกํ„ฐ fi(x;θ)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  • ti⋅logfi(x;θ): ์‹ค์ œ ๋ ˆ์ด๋ธ”์ด i์ผ ๋•Œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ™•๋ฅ  (x;θ)์˜ ๋กœ๊ทธ๋ฅผ ๊ณฑํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ์‹ค์ œ ๋ ˆ์ด๋ธ”๊ณผ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ํ•ฉ์‚ฐ: ๊ฐ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ํ•ฉ์‚ฐํ•˜์—ฌ ์ „์ฒด ์†์‹ค ๊ฐ’์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.