๋ฐ์ํ
Feed-Forward Network
Feed-Forward Networks๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์ธ๊ณต ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ค ํ๋๋ก, Input Layer(์ ๋ ฅ์ธต)์์ Output Layer(์ถ๋ ฅ์ธต)์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์๋ฐฉํฅ์ผ๋ก ํ๋ฅด๋ ๊ตฌ์กฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
- ์ฌ๊ธฐ์ Data๋ ๊ฐ Layer(์ธต)์ ์ง๋ ๋๋ง๋ค ๊ฐ์ค์น์ ์ํด ๋ณํ๋๊ณ , Activation Function(ํ์ฑํ ํจ์)๋ฅผ ํตํด ๋ค์ Layer(์ธต)์ผ๋ก ์ ๋ฌ๋ฉ๋๋ค
- ์ด๋ฌํ ๋คํธ์ํฌ๋ ์ํ ์ฐ๊ฒฐ์ด๋ ๋ณต์กํ Feedback ๋ฃจํ๊ฐ ์์ด์ ๊ณ์ฐ์ด ๋น๊ต์ ๊ฐ๋จํ๊ณ , ๋ค์ํ ๋ฌธ์ ์ ์ ์ฉ๋ ์ ์์ต๋๋ค.
์ ๋ฆฌํ์๋ฉด, ๋ฐ์ดํฐ๊ฐ ๋คํธ์ํฌ๋ฅผ ํตํด ํ ๋ฐฉํฅ์ผ๋ก๋ง ํ๋ฅธ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ Input Layer(์ ๋ ฅ์ธต)์์ ์์ํ์ฌ Hidden Layer(์๋์ธต)์ ๊ฑฐ์ณ Output Layer(์ถ๋ ฅ์ธต)์ผ๋ก ์ ๋ฌ๋๋ฉฐ, ๊ฐ ์ธต์์๋ Activation Function(ํ์ฑํ ํจ์)๋ฅผ ํตํด ์ฒ๋ฆฌ๋ฉ๋๋ค.
- ์ด ๊ณผ์ ์์ ์ํ(loop)์ด๋ ๋๋์๊ฐ๋(feedback) ์ฐ๊ฒฐ์ ์์ผ๋ฉฐ, ๊ฐ ์ธต์ ์ด์ ์ธต์ ์ถ๋ ฅ์ ๋ค์ ์ธต์ Input(์ ๋ ฅ)์ผ๋ก๋ง ์ฌ์ฉํฉ๋๋ค.
Feed-Forward Network์ ๊ธฐ๋ณธ์ ์ธ ํํ
- ๋ค์์ Input(์ ๋ ฅ) Node, Weight(๊ฐ์ค์น), Activation Function(ํ์ฑํ ํจ์)๋ฅผ ํตํด ์ถ๋ ฅ ๋ ธ๋๋ก ์ ๋ณด๋ฅผ ์ ๋ฌํฉ๋๋ค.
- ์ด๋ Weight(๊ฐ์ค์น)๋ ํ์ต ๊ณผ์ ์์ ์ ๋ฐ์ดํธ ๋๋ฉฐ, ์ด๊ธฐ Weight(๊ฐ์ค์น)๋ ๋ณดํต ๋ฌด์์๋ก ๊ฒฐ์ ๋ฉ๋๋ค.
- FNN(Feed-Forward Networks)๋ MLP, Multi-Layer Perceptron(๋ค์ค ํผ์ ํธ๋ก )์ด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ฉฐ, Hidden Layer(์๋์ธต)์ด ํ๋ ์ด์์ธ ์ธ๊ณต์ ๊ฒธ๋ง์ ์๋ฏธํฉ๋๋ค.
FFN์ ๋คํธ์ํฌ ๊ตฌ์กฐ
- x๋ vector (Input Layer์ Neuron), ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
- W๋ Matrix (๊ฐ๋ฆฌํค๋ ํ์ดํ), Weight(๊ฐ์ค์น)๋ฅผ ์๋ฏธํฉ๋๋ค.
- h๋ Vector (Hidden Layer์ Neuron)์ ์๋ฏธํฉ๋๋ค.
- b๋ Bias(ํธํฅ) ์ ๋๋ค.
- input Layer → hidden Layer๋ก ์ด๋์ ์ฒซ๋ฒ์งธ Hidden Layer Neuron์ W1 vector๋ก ์ด๋ํฉ๋๋ค.
- ๋ํ ๊ทธ๋ฆผ์ ์ค๋ฅธ์ชฝ ์๋จ์ ์๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์์์ ์ํ์ ์ผ๋ก ๋ํ๋ธ ๊ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค์ํ ์ญํ ์ ํ๋๊ฑด ๊ฐ์ค์น(w), ํธํฅ(b), ๊ทธ๋ฆฌ๊ณ ํ์ฑํ ํจ์(σ)์ ๋๋ค.
- ๊ฐ์ค์น(w), ํธํฅ(b)์ ๊ฐ Layer(์ธต)์์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ๋ณํ์ํฌ์ง ๊ฒฐ์ ํ๋ Parameter์ ๋๋ค. ๊ฐ Layer์ Output์ ์ด์ Layer์ Output(๋๋ ์ด๊ธฐ ์ ๋ ฅ x)์ Weight(๊ฐ์ค์น)๋ฅผ ๊ณฑํ๊ณ Bias(ํธํฅ)์ ๋ํ์ฌ ๊ณ์ฐ๋ฉ๋๋ค.
- σ: ๊ฐ Layer(์ธต)์ ๊ฒฐ๊ณผ๋ก ๋์จ ์ ํ ๋ณํ๊ฐ์ ๋น์ ํ ํจ์๋ฅผ ์ ์ฉํ๋ ๊ฒ์ ๋๋ค. ๋ํ์ ์ธ ํ์ฑํ ํจ์๋ก๋ ReLU, Sigmoid, Tanh(ํ์ดํผ๋ณผ๋ฆญํ์ ํธ) ๋ฑ์ด ์์ต๋๋ค.
- L: ์ ๊ฒฝ๋ง์ ์ด ์ธต ์๋ฅผ ์๋ฏธํฉ๋๋ค. ์ด Layer(์ธต)๋ค์ Input Layer(์ ๋ ฅ์ธต)๋ถํฐ ์์ํด์ ํ๋ ๋๋ ์ฌ๋ฌ ๊ฐ์ Hidden Layer(์๋์ธต)์ ๊ฑฐ์ณ ์ต์ข ์ ์ผ๋ก Output Layer(์ถ๋ ฅ์ธต)์์ ์์ธก๊ฐ์ ๋ด๋์ต๋๋ค.
Feed-Forward Network - Input
์์ ๊ทธ๋ฆผ์ 3๊ฐ์ Neuron๊ณผ 1๊ฐ์ Hiiden Layer๋ก ์ด๋ฃจ์ด ์ง๋ Network ์ ๋๋ค.
์๋์ธต(Hidden Layer)์ ์ธ๊ณต ์ ๊ฒฝ๋ง์์ ์ ๋ ฅ์ธต(Input Layer)๊ณผ ์ถ๋ ฅ์ธต(Output Layer) ์ฌ์ด์ ์์นํ๋ ์ธต์ ๋งํฉ๋๋ค. ์ ๊ฒฝ๋ง์ ํต์ฌ ๊ตฌ์กฐ ์ค ํ๋๋ก, ์ ๊ฒฝ๋ง์ด ๋ณต์กํ ํจํด์ด๋ ๋ฐ์ดํฐ์ ํน์ฑ์ ํ์ตํ ์ ์๊ฒ ํ๋ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
- ๊ทธ๋ฆผ์ ๋ณด์๋ฉด, Multi-Layer Perceptron๊ณผ ๊ฐ์ด Node๊ณผ ์ฐ๊ฒฐ๋ Network์ ๋๋ค.
- Fully-Connected Layer ๋ผ๊ณ ๋ ํ๋ฉฐ, Input Data๋ฅผ 1์ฐจ์ ํํ์ Vector๋ก ๋ฐ์์ ์ฒ๋ฆฌํฉ๋๋ค.
Feed-Forward Network - Output
- ํฌ๊ฒ 2๊ฐ์ ๋ฌธ์ ๋ก ๋๋์ ์์ต๋๋ค.
- Classification (๋ถ๋ฅ ๋ฌธ์ ), Regression (ํ๊ท ๋ฌธ์ )
Feed-Forward Network Output - Classification (๋ถ๋ฅ ๋ฌธ์ )
- ์์ ๊ทธ๋ฆผ์ ๋ํ ์ค๋ช ์ ํด๋ณด๋ฉด Classification ์์ ?
- input Data์ ๋ํ Class, Category๋ฅผ ์์ธกํ๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
- ์ฌ๊ธฐ์ Output์ Input Data๊ฐ ์ํ ํด๋์ค ์ ๋๋ค.
- Discrete Value (ํ๋ฅ ๋ชจ๋ธ): Input Data๊ฐ ๊ฐ Class์ ์ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์์ธกํฉ๋๋ค.
- ์๋์์ ์์ธํ Sigmoid๋ฅผ ์ฌ์ฉํ๋ ์ด์ง๋ถ๋ฅ, Softmax๋ฅผ ์ฌ์ฉํ๋ ๋ค์ค๋ถ๋ฅ์ ๋ฐํ์ฌ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
์ผ๋จ ํ๋ฒ ๋ฒ ๋ฅด๋์ด ๋ถํฌ (Bernoulli Distribution)์ ๋ฐํ์ฌ ์ค๋ช ์ ํด๋ณด๊ฒ ์ต๋๋ค.
- ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ ์ด์ง ๋ถํฌ์ ํ๋๋ก, ์คํ์ด ๋ ๊ฐ์ง ๊ฒฐ๊ณผ ์ค ํ๋๋ง์ ๊ฐ์ง ๋ ์ฌ์ฉ๋๋ ํ๋ฅ ๋ถํฌ์ ๋๋ค.
- ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
- ์ฑ๊ณต ํ๋ฅ (p) : ์คํ์์ ์ฑ๊ณต(1๋ก ํํ)ํ ํ๋ฅ
- ์คํจ ํ๋ฅ (1-p) : ์คํ์์ ์คํจ(0์ผ๋ก ํํ)ํ ํ๋ฅ
- ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ก๋ถํฐ ์ฑ๊ณต ํ๋ฅ (p)๋ฅผ ๊ฒฐ์ ํ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค.
- ๋ํ Categorial Distribution (๋ค์ค๋ถ๋ฅ)๋ ์์ง๋ง, ๋ค์์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
Feed-Forward Network Output - Regression (ํ๊ท ๋ฌธ์ )
Regression (ํ๊ท ๋ฌธ์ )๋ ํ๋ ๋๋ ๊ทธ ์ด์์ ๋ ๋ฆฝ ๋ณ์์ ์ข ์ ๋ณ์ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๊ณ , ์ด๋ฅผ ํจ์์ ํํ๋ก ๋ํ๋ด์ด ๋ ๋ฆฝ ๋ณ์์ ๋ณํ๊ฐ ์ข ์ ๋ณ์์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ๋ถ์ํ๋ ๋ฌธ์ ์ ๋๋ค.
- ์ฌ๊ธฐ์ Output(์ถ๋ ฅ)์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํ ํจ์๊ฐ ์ ๋๋ค.
- ๋ํ ์ฌ๊ธฐ์ ํ๋ฅ ๋ชจ๋ธ์ ๊ด์ธกํ ๊ฐ์ ๋ํ ํ๋ฅ ๋ถํ๊ฐ์ ์์ธกํฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ Regression(ํ๊ท ๋ฌธ์ )์์ Gauassian Distrubution(๊ฐ์ฐ์์ ๋ถํฌ)๋ ์์ต๋๋ค.
- ์ด์ ๋ ํ๊ท ๋ฌธ์ ์์ ์ฌ์ฉ๋๋ ์ฐ์๋ฐ์ดํฐ๋ ๋๋ถ๋ถ Gauassian(๊ฐ์ฐ์์)์ผ๋ก ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
Binary classification (์ด์ง ๋ถ๋ฅ)
์์์ ์ค๋ช ํ ๋ฒ ๋ฅด๋์ด ๋ถํฌ (Bernoulli Distribution)๋ฅผ ๊ฐ์ง๋ ์ถ๋ ฅ์ Sigmoid ํจ์๋ก ๋ง๋ค์ ์์ต๋๋ค. ์ ์ผ๊น์?
- Sigmoid ํจ์๋ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ์ถ๋ ฅํ์ฌ, ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์์ ํ๋ฅ (์ฑ๊ณต ๋๋ ์คํจ)์ ๋ํ๋ด๊ธฐ์ ์ ํฉํฉ๋๋ค.
- Sigmoid ํจ์์ ์ถ๋ ฅ์ ํน์ ์ฌ๊ฑด์ ๋ฐ์ ํ๋ฅ ๋ก ํด์ํ ์ ์์ด, ์ด์ง ๊ฒฐ์ ๋ฌธ์ ์ ์ ํฉํฉ๋๋ค.
- Sigmoid ํจ์๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ์ฌ, ๊ธฐ๊ณ ํ์ต์์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๋ฑ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ๋ ํ์ํ ํ๋ผ๋ฏธํฐ ์กฐ์ ์ด ๊ฐ๋ฅํฉ๋๋ค.
Sigmoid Function (์๊ทธ๋ชจ์ด๋ ํจ์)
- ๊ฐ๋จํ๊ฒ ์ ๋ฆฌ ํ์๋ฉด, Sigmoid Function(์๊ทธ๋ชจ์ด๋ ํจ์)๋ ์ ๋ ฅ๊ฐ์ ํ๋ฅ ๊ฐ์ผ๋ก ๋ณํ์ ํด์ค๋๋ค.
- ๋ํ ๊ฐ์ด 0๊ณผ 1์ฌ์ด์ ์กด์ฌํฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ Cross-Entropy Loss์ ํจ๊ป ์ฌ์ฉํ๋๋ฐ, ์ด Cross-Entropy Loss๋ ์๋์์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
Decision Boundary (๊ฒฐ์ ๊ฒฝ๊ณ)
๋ค์ ๋์์ค์๋ฉด, Sigmoid Function(์๊ทธ๋ชจ์ด๋ ํจ์)๋ฅผ ์ด์ฉํ์ฌ Model์ด ์์ธกํ Bernoulli Distribution (๋ฒ ๋ฅด๋์ด ๋ถํฌ)์ผ๋ก Decision Boundary(๊ฒฐ์ ๊ฒฝ๊ณ)๋ฅผ ์ฐพ์ต๋๋ค.
- Decision Boundary(๊ฒฐ์ ๊ฒฝ๊ณ)๋ ํน์ ๊ตฌ๊ฐ์์ ์๋ก ๋ค๋ฅธ ํด๋์ค๋ฅผ ๊ตฌ๋ถํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ Input Data๋ฅผ ๋ถ๋ฅํ๋๋ฐ ์ฌ์ฉ๋๋ ๋ชจ๋ธ์ ๊ธฐ์ค์ ๋ํ๋ด๋ฉฐ, Binary Classification(์ด์ง ๋ถ๋ฅ)์์๋ Decision Boundary(๊ฒฐ์ ๊ฒฝ๊ณ)๋ฅผ ๊ฒฝ๊ณ๋ก ํ์ชฝ์ ํ๋์ ํด๋์ค, ๋ค๋ฅธ ํ์ชฝ์ ๋ค๋ฅธ ํ์ชฝ์ ํด๋์ค๋ก ๋ถ๋ฅ๋ฉ๋๋ค.
- ์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด (H(x) = g(XW))๋ ๋ชจ๋ธ์ ์์ธก ํจ์๋ฅผ ๋ํ๋ด๋ ์์์ ๋๋ค.
- ์ฌ๊ธฐ์ H(x)๋ ์ฃผ์ด์ง Input(x)์ ๋ฐํ Model Predict output์ ์๋ฏธํฉ๋๋ค.
- g(XW)๋ Input Data(X) & Weight(W)๋ฅผ ์ ์ฉํ๋ค, Activation Function(ํ์ฑํ ํจ์)๋ฅผ ํตํด ๋ณํ๋ ๊ฐ์ ์๋ฏธํฉ๋๋ค.
Decision Boundary (๊ฒฐ์ ๊ฒฝ๊ณ) ์ค์ ๊ณผ ์์ธก๊ฐ์ ๋ฒ์์ ๋ํ ์ค๋ช
- Classification ๋ชจ๋ธ ๊ทธ๋ํ ์๋ ์์๋๊ฐ ์์ต๋๋ค. ๊ทธ๊ฑธ ๋ณด๋ฉด์ ์ค๋ช ์ ํด๋ณด๊ฒ ์ต๋๋ค.
- Linear Function θ * T์ ์๋ฏธ๋ ๋ณดํต Logistic Regression(๋ก์ง์คํฑ ํ๊ท)์์๋ Input Data(X)๋ Weight(๊ฐ์ค์น)๋ฅผ ์๋ฏธํ๋ ์ธํ(θ)๋ ๊ณฑํด์ ์ป์ ์ ํํจ์์ ๊ฒฐ๊ณผ๋ฅผ ์๋ฏธํฉ๋๋ค.
- Logistic Function(๋ก์ง์คํฑ ํ๊ท)์์๋ Linear Function(์ ํ ํจ์)์ ๊ฒฐ๊ณผ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์์ Output Value(y)์ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ ๊ทธ Output Value(y)๋ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋๋ค. ์ด๊ฑด ํน์ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํ๋ ํฌ์ธํธ๊ฐ ํน์ ํ ํด๋์ค์ ์ํ ํ๋ฅ ์ ๋ํ๋ ๋๋ค.
- Decision Boundary > 0.5: Logistic Function ์์๋ Output Value(y)๊ฐ (0.5)๋ณด๋ค ํฌ๋ฉด ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํ ํด๋์ค์ ์ํ๋ ๊ฒ์ผ๋ก ๋ถ๋ฅํ๊ณ (0.5)๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ผ๋ฉด ๋ค๋ฅธ ํด๋์ค์ ์ํ๋ ๊ฒ์ผ๋ก ๋ถ๋ฅํฉ๋๋ค.
- ๋ฐ๋ผ์, (0.5)๋ ๊ฒฐ์ ๊ฒฝ๊ณ(Decision Boundary)๋ก ์์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, (y > 0.5)์ด๋ฉด ํด๋์ค 1์, ๊ทธ๋ ์ง ์์ผ๋ฉด ํด๋์ค 0์ ์ํ๋ค๊ณ ํ๋จํ ์ ์์ต๋๋ค.
- ๊ทธ๋ฆฌ๊ณ ๊ฐ ๋ฐ์ดํฐ์ class๋ ์ด๋ฏธ ๊ตฌ๋ถ๋์ด ์์ต๋๋ค.
Categorical classification (๋ค์ค ๋ถ๋ฅ)
๋ค์ค๋ถ๋ฅ๋ Category ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฌธ์ ์ ๋๋ค
- ๋ค์ค๋ถ๋ฅ ๋ฌธ์ ๋ ์ฌ๋ฌ ๋ฒ์ฃผ ์ค ํ๋๋ฅผ ์ ํํ๋ ๊ฒ์ด ๋ชฉํ์ด๊ธฐ ๋๋ฌธ์, Category ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฌธ์ ๋ก ๋ณผ ์ ์์ต๋๋ค
- Category ๋ถํฌ๋ ์ฌ๋ฌ ๋ฒ์ฃผ ์ค ํ๋๊ฐ ๋ฐ์ํ ํ๋ฅ ์ ๋ชจ๋ธ๋งํ๋ฉฐ, ๋ค์ค ๋ถ๋ฅ์์๋ ๊ฐ ํด๋์ค ๋๋ ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ์ ์ถ์ ํด์ผ ํฉ๋๋ค.
- ๋ฐ๋ผ์, ๋ค์ค ๋ถ๋ฅ๋ ๊ฐ ๊ด์ธก์น๊ฐ ์ฃผ์ด์ง ์ฌ๋ฌ ๋ฒ์ฃผ ์ค ์ด๋ ํ๋์ ์ํ ํ๋ฅ ์ ์ถ์ ํ๋ ๊ณผ์ ์ด๋ฉฐ, ์ด๋ Category ๋ถํฌ์ ์ถ์ ๊ณผ ์ง์ ์ ์ผ๋ก ๊ด๋ จ์ด ์์ต๋๋ค.
- ๊ทธ๋ ๋ค๊ณ Binary Classification(์ด์ง ๋ถ๋ฅ)์๋ ๋ค๋ฅธ์ ์, Binary Classification(์ด์ง ๋ถ๋ฅ)๋ 2๊ฐ์ Class๋ฅผ ๋ถ๋ฅํ์ฌ 2๊ฐ์ ๊ฒฐ๊ณผ๋ง์ ๋ด์ง๋ง, Categorial Classification(๋ค์ค ๋ถ๋ฅ)๋ m๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ๋ค๋ ์ ์ด ์์ต๋๋ค.
Softmax Function(์ํํธ๋งฅ์ค ํจ์)
- Softmax ํจ์๋ ์ฃผ๋ก ๋ค์ค ํด๋์ค ๋ถ๋ฅ ๋ฌธ์ ์์ ์ฌ์ฉ๋๋ ํ์ฑํ ํจ์์ ๋๋ค.
- ๊ฐ ํด๋์ค์ ๋ํ Predict๊ฐ์ ์ถ์ถํ๊ธฐ ์ํ *Logits (์ฆ, ์ ๊ฒฝ๋ง์์ ๋ง์ง๋ง Linear Layer(์ ํ ๊ณ์ธต)์ ํต๊ณผํ Output Value)๋ฅผ ๋ฐ์์ ๊ฐ ํด๋์ค์ ์ํ ํ๋ฅ ๊ฐ์ผ๋ก ๋ณํํฉ๋๋ค.
- ๊ฐ ํด๋์ค์ ํ๋ฅ ๊ฐ์ 0~1์ฌ์ด๋ก ํํํ๊ณ , ์ด ํ๋ฅ ๊ฐ๋ค์ ์ดํฉ์ 1์ด ๋ฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ N๊ฐ์ Category ๋ถ๋ฅ์ ์ฌ์ฉ๋๋ฉฐ, Cross-Entropy Loss์ ๊ฐ์ด ์ฌ์ฉ ๋ฉ๋๋ค.
*Logits: Logits์ ์ ๊ฒฝ๋ง๊ณผ ๊ฐ์ ๊ธฐ๊ณ ํ์ต ๋ชจ๋ธ์์, Activation Function(ํ์ฑํ ํจ์)๋ softmax ํจ์ ๊ฐ์ ๋ค์ ๋จ๊ณ๋ก ์ ๋ฌ๋๊ธฐ ์ ์, ๋ง์ง๋ง Hidden Layer(์๋์ธต)์ ์ถ๋ ฅ๊ฐ์ ์๋ฏธํฉ๋๋ค.
Softmax Function (์ํํธ๋งฅ์ค ํจ์) ์์
- Softmax ํจ์์ ์์์ ๋ณด๋ฉด์ ํ๋ฒ ์์ธํ ์์๋ณด๊ฒ ์ต๋๋ค. (์์ ๊ทธ๋ฆผ ์ค๋ฅธ์ชฝ ์๋จ์ ์์์ด ์์)
- yi๋ i๋ฒ์งธ ํด๋์ค์ ๋ฐํ Logits Value(์ ๊ฒฝ๋ง์ ๋ง์ง๋ง Linear Layer(์ ํ ๊ณ์ธต)์ Output) ์ ๋๋ค.
- ๋ถ๋ชจ, ๋ถ์์ ์๋ e**yi ๊ฐ์ ๊ฐ ํด๋์ค ๋ก์ง yi์ ์ง์ํจ์ e๋ฅผ ์ ์ฉํ๊ฒ์
๋๋ค.
- Softmax ํจ์์์ ๊ฐ ํด๋์ค y์ ๋ํ ๋ก์ง yi๋ ์ง์ํ๋์ด์ ํํํฉ๋๋ค.
- ์ด์ ๋ ์ฌ๋ฌ ํด๋์ค๋ค์ค ํ๋๋ฅผ ์ ํํ๊ธฐ ์ํด ๊ฐ ํด๋์ค์ ์ ์๋ฅผ ์ฆ๊ฐ์๊ฒจ์, ๋์ ๊ฐ์์ด ์ ๋ํ๋๊ฒ ํ๋ ์ญํ ์ ํฉ๋๋ค.
Sotmax Function(์ํํธ๋งฅ์ค ํจ์) ๊ณ์ฐ ๊ณผ์
- ์ง์ํ: ๊ฐ ํด๋์ค Logic yi์ ๋ํ์ฌ ์ง์ํจ์ e๋ฅผ ์ ์ฉํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํฐ ๊ฐ์ ๋ ํฌ๊ฒ ํ์ฌ Logits ๊ฐ์ ์ฐจ์ด๋ฅผ ํ๋ํฉ๋๋ค.
- ํฉ ๊ณ์ฐ: ๋ชจ๋ ํด๋์ค์ ๋ฐํ ์ง์ํ๋ ๊ฐ e**yi์ ์ดํฉ์ ๊ณ์ฐํฉ๋๋ค. ์ด ๋ถ๋ถ์ Softmax ํจ์์ ๋ถ๋ชจ์ ํด๋น๋๋ฉฐ, ๋ชจ๋ Class์ ์ง์ํ๋ ๊ฐ์ผ๋ก ์ ์๋๋ฉฐ, ์ด ํฉ์ ์ ๊ทํ(Regularzation)๋จ๊ณ์์ ์ฌ์ฉ๋ฉ๋๋ค.
- ์ ๊ทํ: ๊ฐ ํด๋์ค i์ ๋ฐํ์ฌ ์ง์ํ๋ ๊ฐ์ ์ดํฉ์ผ๋ก ๋๋๋๋ค. ์ด๊ฑด ๊ฐ ๊ฐ e**yi๋ฅผ ๋ชจ๋ ๊ฐ์ ๋ถ๋ชจ๋ก ๋๋์ด์ ๊ฐ ํด๋์ค์ Output์ ํ๋ฅ ๊ฐ์ผ๋ก ๋ณํํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ ํด๋์ค์ ๋ํ ํ๋ฅ ์ ํฉ์ 1์ด ๋์์ผ ํฉ๋๋ค.
Categorical classification (๋ค์ค ๋ถ๋ฅ)์ ์งํ ๊ณผ์ .
๊ทธ๋ฌ๋ฉด ์ด์ ๋ค์ค๋ถ๋ฅ์ ์งํ๊ณผ์ ์ ๊ทธ๋ฆผ์ผ๋ก ํ๋ฒ ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
- Input Value(์ ๋ ฅ ๊ฐ)์ Neural Network(์ ๊ฒฝ๋ง)์ ๋ฃ์ด์ Trainingํ, Output Value๋ก ๋์จ Score ๊ฐ/ Logits ๊ฐ์ Softmax Function์ ํต๊ณผํ์ฌ ํ๋ฅ ๊ฐ์ผ๋ก ๋ํ๋ ๋๋ค.
- ๊ทธ๋ฌ๋ฉด ์ด์ ๊ฐ ํด๋์ค๋ณ๋ก ๋ชจ๋ธ์ด ์ถ๋ ฅํ ํ๋ฅ ๊ฐ์ด ๋์๋๋ฐ, ํด๋์ค๊ฐ ๋ค์ด์๋ ์ค์ Label(๋ฐ์ดํฐ ํฌ์ธํฐ๊ฐ ์ํ ํด๋์ค)์ ์ถ๋ ฅํ ํ๋ฅ ๊ฐ์ ์๋ก ๋น๊ตํฉ๋๋ค.
- ๊ทธ๋ฌ๋ฉด ์ด์ ์์ธกํ ํ๋ฅ ๊ณผ ์ค์ Label์ ์ฐจ์ด๋ฅผ ์ธก์ ํด์ผ ํฉ๋๋ค. ์ด๋ ์ด ์ฐจ์ด๋ฅผ ์ธก์ ํ ๋ ํฌ๋ก์ค ์ํธ๋กํผ(Cross-Entropy)๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ๊ทผ๋ฐ ํฌ๋ก์ค ์ํธ๋กํผ(Cross-Entropy)๊ฐ ๋ญ๊น์?
Cross-Entropy (ํฌ๋ก์ค ์ํธ๋กํผ)
Cross-Entropy(ํฌ๋ก์ค ์ํธ๋กํผ)๋ ์ค์ Label๊ณผ ๋ชจ๋ธ์ด ์์ธกํ ํ๋ฅ ๊ฐ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ํฌ๋ก์ค ์ํธ๋กํผ(Cross-Entropy)๋ ์ค์ ๋ถํฌ(ํด๋์ค ๋ ์ด๋ธ)์ ์์ธก ๋ถํฌ(๋ชจ๋ธ์ด ์ถ๋ ฅํ ํ๋ฅ )์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ Loss Function(์์ค ํจ์)์ ๋๋ค.
- ํนํ ์ ๊ฒฝ๋ง์์ Categorial Classification(๋ค์ค ๋ถ๋ฅ)๋ฅผ ๋ค๋ฃฐ ๋ ํนํ ์ ์ฉํฉ๋๋ค.
- ๋ํ ํ๋ฅ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋ถํ์ค ํ์ง or ๋๋คํ์ง๋ฅผ ๋ํ๋ด๊ณ , Randomํ ๋ณ์์ ์ ๋ณด๋์ ๊ธฐ๋๊ฐ์ ๋๋ค.
- ํฌ๋ก์ค ์ํธ๋กํผ(Cross-Entropy)๋ฅผ ์ฌ์ฉํ๋ ์ฃผ๋ ๋ชฉ์ ์ ๋ชจ๋ธ์ ์์ธก์ด ์ค์ ๋ ์ด๋ธ๊ณผ ์ผ๋ง๋ ์ ์ผ์นํ๋์ง๋ฅผ ์์น์ ์ผ๋ก ํ๊ฐํ์ฌ, ํ์ต์ ํตํด ์ด ์์ค์ ์ต์ํํ๋ค๋ ๋ชฉ์ ์ด ์์ต๋๋ค.
Cross-Entropy(ํฌ๋ก์ค-์ํธ๋กํผ) ์ ์์ & ๊ณ์ฐ
- Categorial Classification(๋ค์ค ๋ถ๋ฅ)์์์ ๊ฐ ์ ๋ ฅ ์ํ์ ํ๋์ ํด๋์ค์๋ง ์ํฉ๋๋ค.
- ๋ํ ์์ ์์์์ p(x)๋ Random Variable(๋๋คํ ๋ณ์)์ ํ๋ฅ ์ ๋๋ค.
- :๋ ์ด ์์ ๊ธฐ๋๊ฐ์ ๋ํ๋ ๋๋ค. p(x) - ๋๋ค๋ณ์์ ๋ถํฌ์ ๋ฐ๋ผ ๋ถํฌ๋ ํ๋ฅ ๋ณ์ x์ ๋ํด -logp(x)์ ๊ธฐ๋๊ฐ์ ๊ณ์ฐํฉ๋๋ค. ์ด ๊ธฐ๋๊ฐ์ ํ๋ฅ ๋ถํฌ p(x)์ ๋ํด ๋ก๊ทธ ์ฐ๋(log-likehood)๋ฅผ ๊ณ์ฐํ๋๊ฒ๊ณผ ์ ์ฌํฉ๋๋ค.
๋ก๊ทธ ์ฐ๋(log-likelihood)๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ ํน์ ๋ชจ๋ธ(๋๋ ํ๋ฅ ๋ถํฌ)์ ์ํด ์์ฑ๋ ํ๋ฅ ์ ๋ก๊ทธ๋ก ๋ณํํ ๊ฐ์ ์๋ฏธํฉ๋๋ค.
- : ์ด ์์ ํ๋ฅ ๋ถํฌ p(x)๋ํด ๋ก๊ทธ ์ฐ๋๋ฅผ ๊ณ์ฐํ๋ ์ ๋ถ์ ๋๋ค. ์ฌ๊ธฐ์ ๋ชจ๋ x์ ๋ํด p(x) log p(x)๋ฅผ ๊ณฑํ ๊ฐ์ ์ ๋ถํฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ ํ๋ ์์์ผ ํ๋ ์ ์ด ์์ต๋๋ค. Random Variable(p)๊ฐ ์ผ๋ง๋ Random ํ๊ฐ? ๋ฅผ ์๊ณ ์ถ์ผ๋ฉด Entropy๋ฅผ ๋ณด๋ฉด๋ฉ๋๋ค.
- ์์ ํ๋จ์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ์์ ์๋ฏ์ด, Entropy๊ฐ ๋์ผ๋ฉด ํ๋ฅ ๋ถํฌ p(x)์ ๊ธฐ๋ ํ๋ฅ ์ ๋ฎ์ต๋๋ค.
- ๊ทธ๋ฆฌ๊ณ ๋ฐ๋๋ก Entropy๊ฐ ๋ฎ์ผ๋ฉด ํ๋ฅ ๋ถํฌ p(x)์ ๊ธฐ๋ ํ๋ฅ ์ ๋์ต๋๋ค. ์์ผ๊น์?
- ์ํธ๋กํผ๊ฐ ๋์ ๋: ํ๋ฅ ๋ถํฌ๊ฐ ์ฌ๋ฌ ๊ฐ์ ๋ํด ๋น์ทํ ํ๋ฅ ์ ๊ฐ์ง ๋, ์ฆ ๋ถํฌ๊ฐ ๊ณ ๋ฅด๊ฒ ๋ถํฌ๋์ด ์์ ๋, ์ํธ๋กํผ๊ฐ ๋์์ง๋๋ค. ์ด๋ ํ๋ฅ ๋ถํฌ๊ฐ ๋ค์ํ ๊ฐ์ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ์ํธ๋กํผ๊ฐ ๋ฎ์ ๋: ํ๋ฅ ๋ถํฌ๊ฐ ํน์ ๊ฐ์ ์ง์ค๋์ด ์์ ๋, ์ฆ ์ด๋ค ๊ฐ์ ํ๋ฅ ์ด ๋๊ณ ๋๋จธ์ง ๊ฐ์ ํ๋ฅ ์ด ๋ฎ์ ๋, ์ํธ๋กํผ๊ฐ ๋ฎ์์ง๋๋ค. ์ด๋ ํ๋ฅ ๋ถํฌ๊ฐ ํน์ ๊ฐ์ ๋ชฐ๋ ค ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ์์ ๋ด์ฉ์ ๋ณด๋ฉด์ ์์ฝํ๋ฉด, ์ํธ๋กํผ๊ฐ ๋์ผ๋ฉด ๋ถํ์ค์ฑ์ด ํฌ๊ณ , ํน์ ๊ฐ์ด ๊ฒฐ์ ๋ ๊ฐ๋ฅ์ฑ์ด ๋ฎ์ต๋๋ค. ๋ฐ๋ฉด ์ํธ๋กํผ๊ฐ ๋ฎ์ผ๋ฉด ํ๋ฅ ๋ถํฌ๊ฐ ํน์ ๊ฐ์ ์ง์ค๋์ด ์๊ธฐ ๋๋ฌธ์ ๋ถํ์ค์ฑ์ด ๋ฎ๊ณ , ํน์ ๊ฐ์ด ๊ฒฐ์ ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋๊ฒ์ ์๋ฏธํฉ๋๋ค.
Cross-Entropy-Loss (ํฌ๋ก์ค ์ํธ๋กํผ ์์ค)
ํฌ๋ก์ค ์ํธ๋กํผ ์์ค(Cross-Entropy Loss)์ Categorial Classification(๋ค์ค ๋ถ๋ฅ) ์์ ์์ ๋ชจ๋ธ์ ์์ธก์ด ์ค์ ๋ ์ด๋ธ๊ณผ ์ผ๋ง๋ ๋ค๋ฅธ์ง ์ธก์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์์ค ํจ์ ์ ๋๋ค.
- ํน์ง์ ์์ฐ log์ ๊ทธ๋ํ๋ฅผ ํ๊ณ ์๋ค๋ ํน์ง์ด ์์ต๋๋ค.
- ๊ทผ๋ฐ ์์ฐ log ๊ทธ๋ํ ์์ ์์์ด ํ๋ ์์ต๋๋ค. ์ด๊ฑด ๋ฌด์จ ์๋ฏธ์ผ๊น์? Cross Entropy Loss H(t, f(x;θ))
- Cross Entropy Loss H(t, f(x;θ)): ์ด๊ฑด ํฌ๋ก์ค-์ํธ๋กํผ ์์ค ํจ์๋ฅผ ์๋ฏธํฉ๋๋ค.
Cross-Entropy Loss ์์์ ์๋ฏธ
- Binary(์ด์ง) or Categorial Classification(๋ค์ค ๋ถ๋ฅ)์์ ๋ชจ๋ธ์ ์์ธก๊ณผ ์ค์ ๋ ์ด๋ธ t ์ฌ์ด์ ํฌ๋ก์ค ์ํธ๋กํผ Loss๋ฅผ ๋ํ๋ ๋๋ค.
- f(x;θ)๋ ์ ๋ ฅ ๋ฐ์ดํฐ x์ ๋ํ ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ธ θ(์ธํ)์ ์ํ์ฌ ๊ฒฐ์ ๋ฉ๋๋ค.
- ์์ธกํ๋ฅ : f(x;θ)์ ๋ชจ๋ธ์ด ์ ๋ ฅ๋ฐ์ดํฐ x์ ๋ํ ์์ธกํ ํ๋ฅ ์ ๋ํ๋ด๋ฉฐ, Softmax - Categorial Classification(๋ค์ค ๋ถ๋ฅ), Sigmoid - Binary Classification(์ด์ง ๋ถ๋ฅ)๋ฅผ ํตํด ๊ณ์ฐ๋ฉ๋๋ค.
- ์ค์ ๋ ์ด๋ธ t: ์ค์ ๋ ์ด๋ธ์ ์ฃผ์ด์ง ์ ๋ ฅ ๋ฐ์ดํฐ x์ ์ค์ ํด๋์ค or Label์ ๋๋ค. Binary Classification(์ด์ง ๋ถ๋ฅ)์ด๋ฉด t๋ 0 or 1 ์ด๊ณ , Categorial Classification(๋ค์ค ๋ถ๋ฅ)๋ One-Hot Encoding[0 or 1]๋ Vector๋ก ํํ๋ฉ๋๋ค.
๊ณ์ฐ ๋ฐฉ๋ฒ
- Binary Classification(์ด์ง ๋ถ๋ฅ): ์ด์ง ๋ถ๋ฅ์ ๊ฒฝ์ฐ ํฌ๋ก์ค ์ํธ๋กํผ ์์ค์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.
- ์ด ์์์ ๋ชจ๋ธ์ ์์ธก์ด ์ค์ ๋ ์ด๋ธ t๊ฐ ์ผ๋ง๋ ์ผ์น ํ๋์ง๋ฅผ ์ธก์ ํฉ๋๋ค.
- ์์ธกํ๋ฅ : f(x;θ) = σ(w * x + b)
- ์ฌ๊ธฐ์ w⋅x๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ฐ์ค์น์ ๋ด์ , b๋ ํธํฅ์ ๋๋ค. Sigmoid Function(์๊ทธ๋ชจ์ด๋ ํจ์)๋ฅผ ์ฌ์ฉํ์ฌ ์์ธก ํ๋ฅ ์ ๊ณ์ฐํฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ ์ด๋ธ t๊ณผ ์์ธก ํ๋ฅ f(x;θ)๋ฅผ ์ฌ์ฉํ์ฌ ์์ค ํจ์๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- t * log f(x;θ): ์ค์ ๋ ์ด๋ธ์ด 1์ผ๋, ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ์ด ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ํ๊ฐํฉ๋๋ค.
- (1 - t) * log (1-f(x;θ)): ์ค์ ๋ ์ด๋ธ์ด 0์ผ๋ ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ์ด ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ํ๊ฐํฉ๋๋ค.
- ๊ทธ๋ฆฌ๊ณ ์์์ ๊ฐ ํญ์ ๊ณ์ฐํ๊ณ ํฉ์ฐํ์ฌ Binary Cross-Entropy Loss (์ด์ง ํฌ๋ก์ค ์ํธ๋กํผ ์์ค)๊ฐ์ ๊ตฌํฉ๋๋ค.
- Categorial Classification(๋ค์ค ๋ถ๋ฅ): ๋ค์ค ๋ถ๋ฅ์ ๊ฒฝ์ฐ ํฌ๋ก์ค ์ํธ๋กํผ ์์ค์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.
- C: ํด๋์ค์ ์์ ๋๋ค.
- ti: ์ค์ ๋ ์ด๋ธ์ ์-ํซ ์ธ์ฝ๋ฉ๋ ๋ฒกํฐ๋ก, ๊ฐ ํด๋์ค i์ ํด๋นํ๋ ์ค์ ๋ ์ด๋ธ์ ๋ํ๋
๋๋ค.
- ์ค์ ๋ ์ด๋ธ์ด i์ธ ๊ฒฝ์ฐ ti = 1์ด๊ณ , ๋๋จธ์ง ํด๋์ค์ ๊ฒฝ์ฐ ti = 0์ ๋๋ค.
- f(x;θ): ๋ชจ๋ธ์ด ์ ๋ ฅ ๋ฐ์ดํฐ x์ ๋ํด ์์ธกํ ๊ฐ ํด๋์ค i์ ๋ํ ํ๋ฅ ์ ๋๋ค.
- ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ๊ณ์ฐ: ์ ๋ ฅ ๋ฐ์ดํฐ x์ ๋ํด ๋ชจ๋ธ์ด ๊ฐ ํด๋์ค i์ ๋ํ ์์ธก ํ๋ฅ ์ ๊ณ์ฐํฉ๋๋ค. ์ํํธ๋งฅ์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์์ธก์ ํ๋ฅ ๋ถํฌ๋ก ๋ณํํฉ๋๋ค.
- ์ฌ๊ธฐ์ zi๋ ๋ชจ๋ธ์ ๊ฐ ํด๋์ค i์ ๋ํ Score(Logits)์ ๋๋ค.
- ์์ค ํจ์ ๊ณ์ฐ: ์ค์ ๋ ์ด๋ธ์ ์-ํซ ์ธ์ฝ๋ฉ๋ ๋ฒกํฐ fi(x;θ)์ ์ฌ์ฉํ์ฌ ๊ฐ ํด๋์ค์ ๋ํ ํฌ๋ก์ค ์ํธ๋กํผ ์์ค์ ๊ณ์ฐํฉ๋๋ค.
- ti⋅logfi(x;θ): ์ค์ ๋ ์ด๋ธ์ด i์ผ ๋ ๋ชจ๋ธ์ ์์ธก ํ๋ฅ (x;θ)์ ๋ก๊ทธ๋ฅผ ๊ณฑํ์ฌ, ๋ชจ๋ธ์ ์์ธก์ด ์ค์ ๋ ์ด๋ธ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง ํ๊ฐํฉ๋๋ค.
- ํฉ์ฐ: ๊ฐ ํด๋์ค์ ๋ํ ํฌ๋ก์ค ์ํธ๋กํผ ์์ค์ ํฉ์ฐํ์ฌ ์ ์ฒด ์์ค ๊ฐ์ ๊ตฌํฉ๋๋ค.
๋ฐ์ํ
'๐ฅ๏ธ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DL] Training Related Skills - SGD, Momentum, AdaGrad, Adam (ํ์ต ๊ด๋ จ ๊ธฐ์ ๋ค) (0) | 2024.04.30 |
---|---|
[DL] Activation Function - ํ์ฑํ ํจ์ (0) | 2024.04.29 |
[DL] ๋จ์ํ Layer ๊ตฌํํด๋ณด๊ธฐ (0) | 2024.03.31 |
[DL] Backpropagation (์ค์ฐจ์ญ์ ํ๋ฒ) (0) | 2024.03.27 |
[DL] Gradient (๊ธฐ์ธ๊ธฐ), Training Algorithm(ํ์ต ์๊ณ ๋ฆฌ์ฆ) (0) | 2024.03.23 |