๋ ผ๋ฌธ์ ๊ณ์ ์ฝ์ด์ผ์ง ์ฝ์ด์ผ์ง ์๊ฐํ๋ค๊ฐ.. ์ฉ๊ธฐ๋ฅผ ๋ด์ด์ ํ๋ฒ ์ฝ์ด๋ณธ ๋ด์ฉ์ ์ ๋ฆฌํด๋ณด๊ฒ ์ต๋๋ค.
VGGNet Paper (2014)
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION.
๋ ผ๋ฌธ ์ฌ์ดํธ ๋งํฌ๋ ์๋์ ๋จ๊ฒจ๋๊ฒ ์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ํ๋ฒ ์ฐจ๊ทผ์ฐจ๊ทผ ๋ฆฌ๋ทฐํด ๋ณด๊ฒ ์ต๋๋ค.
Abstract
VGGNet์ ILSVRC 2014 ๋ํ์์ 2๋ฑ์ ์ฐจ์งํ CNN ๋ชจ๋ธ๋ก Network์ ๊น์ด์ ๋ฐ๋ผ ๋ชจ๋ธ์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ์ ์ ๋ณด์ฌ์คฌ์ต๋๋ค. VGGNet์ 3x3 convolution filter๋ก 16-19๊ฐ์ Weight Layer๋ก ์ฆ๊ฐ ํจ์ผ๋ก์ ์๋นํ ๊ฐ์ ์ ์ด๋ฃฐ์ ์๋ค๋ ์ ์ ๋ณด์ฌ์คฌ์ต๋๋ค.
๋ํ 2014 ImageNet Challenge์์ ๋ก์ปฌ๋ผ์ด์ ์ด์ ๋ฐ ๋ถ๋ฅ ํธ๋์์ ๊ฐ๊ฐ 1์์ 2์๋ฅผ ์ฐจ์งํ์ผ๋ฉฐ, ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์๋ ์ผ๋ฐํ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ ๊ฐ๊ฒฐํ๊ณ depth(๊น์ด)๋ฅผ ๊น๊ฒ ์์ผ๋ฏ๋ก์, Computer Vision ์ฐ๊ตฌ ๋ถ์ผ์ชฝ์์๋ ์ด๋์ ๋ ์๋ฏธ๊ฐ ์๋ ๋ ผ๋ฌธ์ ๋๋ค.
Introduction
CNN, Convolution Network๋ ๋๊ท๋ชจ ์ด๋ฏธ์ง, ์์ ๋ฐ์ดํฐ์ ์ ๋ฐํ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๊ทธ๋ฌํ ์ด์ ๋ ๋๊ท๋ชจ์ public image repo, GPU, ๋๊ท๋ชจ์ ๋ถ์ฐ๋ ํด๋ฌ์คํฐ, ๋์ ์ฑ๋ฅ์ ์ปดํจํ ์์คํ ๋๋ถ์ ๊ฐ๋ฅํ์ต๋๋ค.
ํนํ, ์ค์ํ์ ์ Deep visual architecture์ ๋ฐ์ ์์ ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)(Russakovsky et al., 2014)์ ์์ Feature Encoding์์ ๊น์ ConvNet๊น์ง ๋๊ท๋ชจ์ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์คํ ์์ ์ค์ํ ์ญํ ์ ํ๋ ์ ์ ๋๋ค.
๋ํ ConvNet์ด Computer Vision ๋ถ์ผ์์ ๋์ฑ ๋ณดํธํ๋จ์ ๋ฐ๋ผ ๊ธฐ์กด์ Model์ ๊ธฐ์กด์ Architecture๋ฅผ ๊ฐ์ ํ์ฌ ์ ํ๋๋ฅผ ์ฌ๋ฆฌ๊ธฐ์ํ ์ฌ๋ฌ ์๋๊ฐ ์ด๋ฃจ์ด ์ก์ต๋๋ค. ์๋ฅผ ๋ค์ด ILSVRC-2013์์ ์ ์ผ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ ๋ชจ๋ธ์์ (Zeiler & Fergus, 2013; Sermanet et al., 2014) ์ฒซ๋ฒ์งธ Convolution Layer์์ window size, stride๋ฅผ ์๊ฒ ์ฌ์ฉํ๊ฒ์ฒ๋ผ ๋ง์ ๋๋ค.
๊ทผ๋ฐ, ์์์ผ ํ๋๊ฑด ๋๋ค๋ฅธ ๊ฐ์ ์ ์, ์ ์ฒด ์ด๋ฏธ์ง & ๋ค๋ฅธ ์ค์ผ์ผ์ ๋ฐํ์ฌ ๋คํธ์ํฌ๋ฅผ ๋ฐ์งํ๊ฒ ํ๋ จ & ํ ์คํธ๋ฅผ ํ๋ค๋๊ฒ ์ด๋, ConvNet Architecture์ ๊น์ด์ ๋ค๋ฃฌ๋ค๋ ์ ์ ๋๋ค. ๋ํ Architecture์ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ์ํค๊ณ , ์ ์ง์ ์ผ๋ก ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ์ฆ๊ฐ์ํค๊ณ , ๋ชจ๋ Convolution Layer์ ์์ 3x3 Convolution filter๋ฅผ ์ ์ฉํ๋ค๋ ์ ์ ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ฐ์ ๋ ConvNet Architecture๋ฅผ ๋ง๋ค์๊ณ , ILSVRC Classifcation & Localization task ์์, ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ ๋ฟ๋ง ์๋๋ผ, ์๋์ ์ผ๋ก ๊ฐ๋จํ ํ์ดํ๋ผ์ธ์ผ๋ก๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข์์ต๋๋ค.
ConvNet Configurations (ConvNet ๊ตฌ์ฑ)
Architecture
Input๋ Image๋ฅผ ๊ฐ์ง๊ณ Model์ Training์ ํ ๋ ConvNet์ ์ ๋ ฅ์ ๊ณ ์ ํฌ๊ธฐ 224 × 224 RGB ์ด๋ฏธ์ง์ ๋๋ค. ์ฌ์ ์ฒ๋ฆฌ๋ training set์์ ๊ณ์ฐ๋ ํ๊ท RGB ๊ฐ์ ๊ฐ pixel์์ ๋นผ๋ ๊ฒ์ ๋๋ค. ์ด๋ฏธ์ง๋ ์์ receptive field(3×3)๋ฅผ ์ฌ์ฉํ๋ convolutional layer stack์ ํตํด ์ ๋ฌ๋ฉ๋๋ค. ์ผ๋ถ configuration์์๋ 1×1 convolution filter๋ ์ฌ์ฉํฉ๋๋ค. Convolution stride๋ 1 pixel๋ก ๊ณ ์ ๋๋ฉฐ, spatial padding์ convolution ํ spatial resolution์ ์ ์งํ๋๋ก ์ค์ ๋ฉ๋๋ค. Spatial pooling์ 2×2 pixel ์ฐฝ์์ max-pooling์ ์ํํฉ๋๋ค.
Convolutional layer stack(architecture์ ๋ฐ๋ผ ๊น์ด๊ฐ ๋ค๋ฆ) ๋ค์๋ ์ธ ๊ฐ์ Fully-Connected (FC) layer๊ฐ ์์ต๋๋ค. ์ฒซ ๋ layer๋ ๊ฐ๊ฐ 4096 channel, ๋ง์ง๋ง layer๋ 1000๊ฐ์ class(ILSVRC classification)๋ฅผ ์ํํ๋ฏ๋ก 1000 channel์ ๊ฐ์ง๋๋ค. ๋ง์ง๋ง layer๋ softmax layer์ ๋๋ค. ๋ชจ๋ network์์ fully-connected layer configuration์ ๋์ผํฉ๋๋ค.
๋ชจ๋ hidden layer์๋ ReLU (Krizhevsky et al., 2012) non-linearity๊ฐ ์ ์ฉ๋ฉ๋๋ค. Network์๋ Local Response Normalisation (LRN) layer๊ฐ ํฌํจ๋์ง ์์ต๋๋ค. ์ด๋ LRN layer๊ฐ ILSVRC dataset์์ performance(์ฑ๋ฅ)์ ํฅ์์ํค์ง ๋ชปํ๊ณ memory consumption(๋ฉ๋ชจ๋ฆฌ ์๋น)๊ณผ computation time(๊ณ์ฐ ์๊ฐ)์ ์ฆ๊ฐ์ํจ๋ค๋ ๊ฒ์ ์คํ์ ์ผ๋ก ๋ฐ๊ฒฌํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
Configurations
์ด paper์์ ํ๊ฐ๋ ConvNet configuration์ Table 1์ ์์ฝ๋์ด ์์ผ๋ฉฐ, ๊ฐ๊ฐ ํ๋์ column์ผ๋ก ํ์๋ฉ๋๋ค.
Network์ depth๋ ์ผ์ชฝ(A)์์ ์ค๋ฅธ์ชฝ(E)์ผ๋ก ์ด๋ํ๋ฉด์ ์ฆ๊ฐํฉ๋๋ค. ๊ฐ configuration์ 2.1์ ์์ ์ค๋ช ํ generic design์ ๋ฐ๋ฅด๋ฉฐ, depth๋ง ๋ค๋ฆ ๋๋ค.
network A๋ 11๊ฐ์ weight layer(8๊ฐ์ convolutional layer์ 3๊ฐ์ FC layer)๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , network E๋ 19๊ฐ์ weight layer(16๊ฐ์ convolutional layer์ 3๊ฐ์ FC layer)๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
Convolutional layer์ width(channel ์)๋ ๋น๊ต์ ์์ผ๋ฉฐ, ์ฒซ ๋ฒ์งธ layer์์ 64๋ก ์์ํ์ฌ ๊ฐ max-pooling layer ํ ๋ ๋ฐฐ๋ก ์ฆ๊ฐํ์ฌ 512์ ๋๋ฌํฉ๋๋ค.
Table 2๋ ๊ฐ configuration์ parameter ์๋ฅผ ๋ํ๋ด๊ณ ์์ต๋๋ค. Depth๊ฐ ๊น์ง๋ง, ๋ shallowํ๊ณ ๋ ํฐ convolutional layer width์ receptive field๋ฅผ ๊ฐ์ง network์ parameter ์๋ณด๋ค ๋ง์ง ์์ต๋๋ค.
Discussion
์ด ๋ ผ๋ฌธ์์์ ConvNet ๊ตฌ์ฑ์ ILSVRC-2012 (Krizhevsky et al., 2012)์ ILSVRC-2013 (Zeiler & Fergus, 2013; Sermanet et al., 2014)์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ ์ํธ๋ฆฌ์๋ ์๋นํ ๋ค๋ฆ ๋๋ค.
receptive field์ ์ฅ์
Krizhevsky et al. (2012)์์ ์ฌ์ฉ๋ ์ฒซ ๋ฒ์งธ ํฉ์ฑ๊ณฑ ๋ ์ด์ด์ ์์ฉ ํ๋๋ 11×11 ํฌ๊ธฐ์๊ณ , Zeiler & Fergus (2013)์ Sermanet et al. (2014)์์๋ 7×7 ํฌ๊ธฐ์์ต๋๋ค.
๊ทธ๋ฌ๋ ์ด ๋ ผ๋ฌธ์์ ๋คํธ์ํฌ ์ ์ฒด์ ๊ฑธ์ณ ๋งค์ฐ ์์ 3×3 receptive field๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๋ ๋ง์ ๋น์ ํ์ฑ(ReLU) ์ถ๊ฐ: 7×7 ํฌ๊ธฐ์ ๋จ์ผ Convolution Layer ๋์ 3×3 ํฌ๊ธฐ์ ์ธ ๊ฐ์ Convolution Layer๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ์ธ ๊ฐ์ ๋น์ ํ์ฑ ๋ ์ด์ด(ReLU)๋ฅผ ์ถ๊ฐํ ์ ์์ต๋๋ค. ์ด๋ ๋คํธ์ํฌ์ ํํ๋ ฅ์ ์ฆ๊ฐ์ํค๊ณ , ๋ ๋ณต์กํ ํจ์ ๊ทผ์ฌ์ ๋์์ด ๋ฉ๋๋ค. ๊ฒฐ์ ํจ์์ ๋น์ ํ์ฑ์ด ๋์์ง๋ฉด, Classification(๋ถ๋ฅ) ์์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
ํ๋ผ๋ฏธํฐ ์ ๊ฐ์: 3×3 Convolution Layer ์ธ ๊ฐ๋ก ๊ตฌ์ฑ๋ ์คํ์ ๊ฒฝ์ฐ, ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด C ์ฑ๋์ผ ๋, ์ด ํ๋ผ๋ฏธํฐ ์๋ 3 * (3 * 3 * C^2) = 27C^2์ ๋๋ค. ๋ฐ๋ฉด, ๋จ์ผ 7×7 Convolution Layer๋ 7 * 7 * C^2 = 49C^2์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ฏ๋ก, ํ๋ผ๋ฏธํฐ ์๊ฐ 81% ๋ ๋ง์ต๋๋ค.
์ด๋ 7×7 Convolution Filter ์ ๋นํด 3×3 Filter๊ฐ ๋ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ๊ท์ (regularization) ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ต๋๋ค. ๋ฐ๋ผ์ ์์ ํฌ๊ธฐ์ Filter๋ฅผ ์ฌ๋ฌ ๊ฐ ์ฌ์ฉํ๋ ๊ฒ์ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
๋ ๊น์ ๋คํธ์ํฌ ๊ตฌ์ฑ ๊ฐ๋ฅ: ์์ Filter๋ฅผ ์ฌ์ฉํ๋ฉด ๋คํธ์ํฌ์ depth(๊น์ด)๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ ์ฉ์ดํฉ๋๋ค.
์ด๋ ๊น์ Network๊ฐ ๋ ๋ณต์กํ ํน์ง์ ํ์ตํ ์ ์๊ธฐ ๋๋ฌธ์, ์ด๋ฏธ์ง ์ธ์ ์์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
1x1 Convolution Layer์ ์ญํ
1×1 Convolution Layer์ ๋์ ์ ๊ฒฐ์ ํจ์์ ๋น์ ํ์ฑ์ ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค.
1×1 Convolution์ ์ ๋ ฅ Channel์ ์ ํ ๋ณํ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ์ด๋ ๋น์ ํ ํ์ฑํ ํจ์(ReLU)์ ๊ฒฐํฉ๋์ด ์ถ๊ฐ์ ์ธ ๋น์ ํ์ฑ์ ์ ๊ณตํฉ๋๋ค.
Lin et al. (2014)์ "Network in Network" ์ํคํ ์ฒ์์๋ 1×1 Convolution Layer๋ฅผ ํ์ฉํ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๋ฐ ์์ต๋๋ค.
์์ Filter์ ์ฌ์ฉ ์ฌ๋ก
์์ ํฌ๊ธฐ์ Convolution Filter ์ฌ์ฉ์ ์ด์ ์๋ ์๋๋ ๋ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, Ciresan et al. (2011)์ ์์ Filter๋ฅผ ์ฌ์ฉํ ๋คํธ์ํฌ๋ฅผ ์ ์ํ์ผ๋, ์ด ๋ ผ๋ฌธ์ ์ ์๋ Network ๋งํผ ๊น์ง๋ ์์๊ณ , ๋๊ท๋ชจ ILSVRC ๋ฐ์ดํฐ์ ์์ ํ๊ฐ๋์ง ์์์ต๋๋ค. Goodfellow et al. (2014)๋ ๊น์ ConvNet(11๊ฐ ๊ฐ์ค์น ๋ ์ด์ด)์ ์คํธ๋ฆฌํธ ๋ฒํธ ์ธ์ ์์ ์ ์ ์ฉํ์ฌ, depth(๊น์ด)๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์์ต๋๋ค.
๋ํ, ILSVRC-2014 ๋ถ๋ฅ ์์ ์์ ์์ ์ฑ๋ฅ์ ๊ธฐ๋กํ GoogLeNet (Szegedy et al., 2014)์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ฐ๋ฐ๋์์ง๋ง, ๋งค์ฐ ๊น์ ConvNet(22๊ฐ Weight Layer)๊ณผ ์์ Convolution Filter๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์์ ์ ์ฌํฉ๋๋ค. GoogLeNet์ 3×3 ํํฐ๋ฟ๋ง ์๋๋ผ 1×1 ๋ฐ 5×5 Convolution๋ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฒซ ๋ฒ์งธ Layer์์ Feature Map์ ๊ณต๊ฐ ํด์๋๋ฅผ ๋ ๊ณต๊ฒฉ์ ์ผ๋ก ์ค์ฌ ๊ณ์ฐ๋์ ๊ฐ์์ํต๋๋ค. VGGNet์ ๋จ์ผ ๋คํธ์ํฌ ๋ถ๋ฅ ์ ํ๋ ๋ฉด์์ GoogLeNet (Szegedy et al., 2014)๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
Classification Framework (๋ถ๋ฅ ํ๋ ์์ํฌ)
Training
์ด ๋ ผ๋ฌธ์์์ ConvNet ํ๋ จ ๋ฐฉ๋ฒ๊ณผ ์ธ๋ถ์ฌํญ์ ๋ฐํ์ฌ ์ค๋ช ํด ๋ณด๊ฒ ์ต๋๋ค.
ํ๋ จ์ ๋ฏธ๋ ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ์ฌ์ฉํ์ฌ ๋คํญ ๋ก์ง์คํฑ ํ๊ท(Multinomial Logistic Regression) ๋ชฉํ ํจ์๋ฅผ ์ต์ ํํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ญ์ ํ(Backpropagation) ์๊ณ ๋ฆฌ์ฆ(LeCun et al., 1989)์ ์ฌ์ฉํฉ๋๋ค.
- ๋ฐฐ์น ํฌ๊ธฐ(Batch Size): 256, ๋ชจ๋ฉํ (Momentum): 0.9
์ ๊ทํ (Regularization)
Model Training์ 2๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก Regularization(์ ๊ทํ) ๋์์ต๋๋ค.
- ๊ฐ์ค์น ๊ฐ์(Weight Decay): ์ด๋ L2 ํจ๋ํฐ๋ฅผ ์ฌ์ฉํ์ฌ Weight ํฌ๊ธฐ๋ฅผ ์ ์ดํ๋ ๋ฐฉ์์ ๋๋ค. L2 ํจ๋ํฐ ์น์๋ 5×10^-4๋ก ์ค์ ๋์์ต๋๋ค.
- ๋๋กญ์์ ์ ๊ทํ(Dropout Regularization): ์ฒซ Fully-Connected Layer ์ ๋ํด ๋๋กญ์์์ ์ ์ฉํ์์ต๋๋ค. Dropout ๋น์จ์ 0.5๋ก ์ค์ ๋์์ต๋๋ค.
ํ์ต๋ฅ (Learning Rate)
- ์ด๊ธฐ Learning Rate ์ 10^-2๋ก ์ค์ ๋์์ต๋๋ค.
- Validation Set (๊ฒ์ฆ ์ธํธ)์์ Accurary(์ ํ๋)๊ฐ ๋ ์ด์ ํฅ์๋์ง ์์ ๋, Learning Rate 10๋ฐฐ์ฉ ๊ฐ์์์ผฐ์ต๋๋ค.
- ์ด 3๋ฒ Learning Rate(ํ์ต๋ฅ )์ ๊ฐ์์ํค๊ณ , 370K ๋ฐ๋ณต(74 Epoch) ํ์ ํ์ต์ ์ค๋จํ์ต๋๋ค.
๊น์ ๋คํธ์ํฌ์ ์๋ ด (Convergence)
์ด ๋ ผ๋ฌธ์์์ Neural Network (์ ๊ฒฝ๋ง ๋คํธ์ํฌ)๋ Krizhevsky et al. (2012)๋ณด๋ค ๋ ๋ง์ ๋งค๊ฐ๋ณ์์ ๋ ๊น์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ค์์ ์ด์ ๋ก ์ธํด ๋ ์ ์ Epoch ๋ด์ ์๋ ดํฉ๋๋ค.
- ๋ด์ฌ์ ์ ๊ทํ(Implicit Regularization): ๋ ๊น์ ๋คํธ์ํฌ์ ์์ ํฉ์ฑ๊ณฑ ํํฐ ํฌ๊ธฐ๊ฐ ๋ด์ฌ์ ์ ๊ทํ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค.
- ๋ ์ด์ด ์ฌ์ ์ด๊ธฐํ(Pre-initialization of Layers): ํน์ Layer(๋ ์ด์ด)๋ฅผ ๋ฏธ๋ฆฌ ์ด๊ธฐํํจ์ผ๋ก์จ ํ์ต์ด ์ด์ง๋์์ต๋๋ค.
๋คํธ์ํฌ ๊ฐ์ค์น ์ด๊ธฐํ (Network Weights Initialization)
- ๋คํธ์ํฌ Weight(๊ฐ์ค์น)์ ์ด๊ธฐํ๋ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด๊ธฐํ๊ฐ ์๋ชป๋๋ฉด, ๊น์ ๋คํธ์ํฌ์์ Gradient(๊ธฐ์ธ๊ธฐ)์ ๋ถ์์ ์ฑ์ผ๋ก ์ธํด ํ์ต์ด ์ง์ฐ๋ ์ ์์ต๋๋ค.
- ์ฒซ ๋ฒ์งธ ๋จ๊ณ: ์ด๊ธฐ์๋ ๋น๊ต์ ์์ ๊ตฌ์ฑ์ธ ๋คํธ์ํฌ A(Table 1)๋ฅผ ๋ฌด์์ ์ด๊ธฐํ๋ก ํ๋ จํ์์ต๋๋ค.
- ๋ ๋ฒ์งธ ๋จ๊ณ: ๋ ๊น์ Architecture๋ฅผ ํ๋ จํ ๋, ๋คํธ์ํฌ A์ ์ฒซ ๋ค Convolution Layer์ ๋ง์ง๋ง 3๊ฐ์ Fully-Connected Layer๋ฅผ ์ด๊ธฐํํ์์ต๋๋ค. ์ค๊ฐ Layer๋ ๋ฌด์์๋ก ์ด๊ธฐํ๋์์ต๋๋ค. ๋ฏธ๋ฆฌ ์ด๊ธฐํ๋ Layer์ Learning Rate์ ๊ฐ์์ํค์ง ์๊ณ ํ์ต ๋์ค ๋ณํํ ์ ์๋๋ก ํ์ต๋๋ค.
๋ฌด์์ ์ด๊ธฐํ (Random Initialization)
- ๋ฌด์์ ์ด๊ธฐํ์์๋ Mean(ํ๊ท )์ด 0์ด๊ณ Variance(๋ถ์ฐ)์ด 10^-2์ธ ์ ๊ท ๋ถํฌ์์ Weight(๊ฐ์ค์น)๋ฅผ ์ํ๋งํ์์ต๋๋ค. Bias(ํธํฅ)์ 0์ผ๋ก ์ด๊ธฐํํ์ต๋๋ค.
- Glorot & Bengio (2010)์ ๋ฌด์์ ์ด๊ธฐํ ์ ์ฐจ๋ฅผ ์ฌ์ฉํ์ฌ Pretrained(์ฌ์ ํ๋ จ) ์์ด๋ Weight(๊ฐ์ค์น)๋ฅผ ์ด๊ธฐํํ ์ ์์์ ๋ฐ๊ฒฌํ์ต๋๋ค.
๊ณ ์ ํฌ๊ธฐ 224×224 ConvNet ์ ๋ ฅ ์ด๋ฏธ์ง
- ์ด๋ฏธ์ง๋ ์ฌ์กฐ์ ๋ ํ๋ จ ์ด๋ฏธ์ง์์ ๋ฌด์์๋ก ์๋ผ๋ ๋๋ค(ํ ์ด๋ฏธ์ง๋น ํ ๋ฒ ์๋ผ๋ด๊ธฐ).
- Training Set(ํ๋ จ ์ธํธ)๋ฅผ ๋ ํ์ฅํ๊ธฐ ์ํด, ์๋ผ๋ธ ์ด๋ฏธ์ง๋ฅผ ๋ฌด์์๋ก ๊ฐ๋ก๋ก ๋ค์ง๊ณ , RGB ์์์ ๋ฌด์์๋ก ๋ณ๊ฒฝํ์ต๋๋ค.
ํ๋ จ ์ด๋ฏธ์ง ํฌ๊ธฐ (Training Image Size)
ํ๋ จ ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์์ ๋ณ์ ํฌ๊ธฐ๋ฅผ S๋ผ๊ณ ํ ๋, ConvNet ์ ๋ ฅ์ 224×224 ํฌ๊ธฐ๋ก ๊ณ ์ ๋ฉ๋๋ค. S๋ ์ต์ 224 ์ด์์ด์ด์ผ ํ๋ฉฐ, ๋ ๊ฐ์ง ์ ๊ทผ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
- ๋จ์ผ ์ค์ผ์ผ ํ๋ จ(Single-Scale Training): S๋ฅผ ๊ณ ์ ํฉ๋๋ค. S=256๊ณผ S=384์์ ๋ชจ๋ธ์ ํ๊ฐํ์ต๋๋ค. S=256์ผ๋ก ํ๋ จ๋ ๋คํธ์ํฌ์ Weight๋ฅผ ์ฌ์ฉํ์ฌ S=384 Network๋ฅผ ์ด๊ธฐํํ๊ณ , ์์ ์ด๊ธฐ Learning Rate๋ฅผ 10^-3์ ์ฌ์ฉํ์ต๋๋ค.
- ๋ฉํฐ ์ค์ผ์ผ ํ๋ จ(Multi-Scale Training): ๊ฐ ํ๋ จ ์ด๋ฏธ์ง๋ฅผ [Smin, Smax] ๋ฒ์์์ ๋ฌด์์๋ก ์ํ๋ง๋ S๋ก ์ฌ์กฐ์ ํฉ๋๋ค. Smin=256, Smax=512๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ Scale Jittering ์ ํตํด ํ๋ จ ์ธํธ๋ฅผ ํ์ฅํ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ๊ฐ์ฒด ํฌ๊ธฐ๊ฐ ๋ค์ํ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
Testing
ํ ์คํธ ์ ConvNet๊ณผ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํ๋ ์ ์ฐจ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
ํ ์คํธ ์ด๋ฏธ์ง ์ฌ์กฐ์
ํ ์คํธํ ์ด๋ฏธ์ง๋ ๋จผ์ ๊ณ ์ ๋ ์์ ์ธก๋ฉด ํฌ๊ธฐ Q๋ก ๋ฑ๋ฐฉ์ฑ(iso-tropically)์ผ๋ก ์ฌ์กฐ์ ๋ฉ๋๋ค.
์ฌ๊ธฐ์ Q๋ ํ๋ จ ์์ ํฌ๊ธฐ S์ ์ผ์นํ ํ์๋ ์์ต๋๋ค. (์ฌ๋ฌ Q ๊ฐ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋ฉ๋๋ค.)
๋ฐ์ง ํ๊ฐ (Dense Evaluation)
์ฌ์กฐ์ ๋ ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ์ ์ฒด์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด ๋คํธ์ํฌ๋ฅผ ๋ฐ์งํ๊ฒ ์ ์ฉํฉ๋๋ค. ๋ฐ์ง ํ๊ฐ์ ์ฃผ์ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Fully-Connected Layer(์์ ์ฐ๊ฒฐ ๋ ์ด์ด)๋ฅผ Convoultion Layer(ํฉ์ฑ๊ณฑ ๋ ์ด์ด)๋ก ๋ณํ:
- ์ฒซ ๋ฒ์งธ Fully-Connected Layer(์์ ์ฐ๊ฒฐ ๋ ์ด์ด)๋ 7×7 Convoultion Layer(ํฉ์ฑ๊ณฑ ๋ ์ด์ด)๋ก ๋ณํ๋ฉ๋๋ค.
- ๋ง์ง๋ง ๋ ๊ฐ์ Fully-Connected Layer(์์ ์ฐ๊ฒฐ ๋ ์ด์ด) 1×1 Convoultion Layer(ํฉ์ฑ๊ณฑ ๋ ์ด์ด)๋ก ๋ณํ๋ฉ๋๋ค.
- ๋ฐ์ง ๋คํธ์ํฌ ์ ์ฉ:
- ๋ณํ๋ ์์ Fully-Connected Layer(์์ ์ฐ๊ฒฐ ๋ ์ด์ด)๋ฅผ ์ ์ฒด(์๋ฆฌ์ง ์์) ์ด๋ฏธ์ง์ ์ ์ฉํฉ๋๋ค.
- ์ด ๊ฒฐ๊ณผ๋ ํด๋์ค ์ ์ ๋งต(class score map)์ ์์ฑํ๋ฉฐ, Class(ํด๋์ค) ์์ ๋์ผํ ์์ Channel(์ฑ๋)๊ณผ Input Image (์ ๋ ฅ ์ด๋ฏธ์ง) ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ค์ํ ๊ณต๊ฐ ํด์๋๋ฅผ ๊ฐ์ง๋๋ค.
- ํด๋์ค ์ ์ ๋งต์ ๊ณต๊ฐ ํ๊ท ํ:
- ํด๋์ค ์ ์ ๋งต์ ๊ณต๊ฐ์ ์ผ๋ก ํ๊ท ํ(ํฉ-Pooling)ํ์ฌ ์ด๋ฏธ์ง์ ๋ํ ๊ณ ์ ํฌ๊ธฐ ๋ฒกํฐ์ ํด๋์ค ์ ์๋ฅผ ์ป์ต๋๋ค.
- ํ ์คํธ ์ธํธ๋ฅผ ๊ฐ๋ก๋ก ๋ค์ง์ด ์๋ณธ ์ด๋ฏธ์ง์ ๋ค์งํ ์ด๋ฏธ์ง์ Softmax Class ํฌ์คํธ๋ฆฌ์ด๋ฅผ ํ๊ท ํํ์ฌ ์ต์ข ์ ์๋ฅผ ๊ณ์ฐํฉ๋๋ค.
๋ค์ค ํฌ๋กญ ํ๊ฐ (Multi-Crop Evaluation)
๋ฐ์ง ํ๊ฐ์ ๋ฌ๋ฆฌ ๋ค์ค ํฌ๋กญ ํ๊ฐ์์๋ ์ด๋ฏธ์ง์ ์ฌ๋ฌ ๋ถ๋ถ์ ์๋ผ์ ํ๊ฐํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ด ์์ต๋๋ค:
- ์ธ๋ฐํ ์
๋ ฅ ์ด๋ฏธ์ง ์ํ๋ง:
- ๋ค์ค ํฌ๋กญ ํ๊ฐ๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ธ๋ฐํ ์ํ๋ง์ ์ ๊ณตํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
- ๋คํธ์ํฌ๋ฅผ ๊ฐ ํฌ๋กญ์ ๋ํด ์ฌ๊ณ์ฐํด์ผ ํ๋ฏ๋ก ํจ์จ์ฑ์ด ๋จ์ด์ง์ง๋ง, ์ฑ๋ฅ ํฅ์ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- ๋ค์ํ ๊ฒฝ๊ณ ์กฐ๊ฑด:
- ๋ฐ์ง ํ๊ฐ์ ๋ค์ค ํฌ๋กญ ํ๊ฐ๋ ๋ค๋ฅธ ๊ฒฝ๊ณ ์กฐ๊ฑด์ ์ฌ์ฉํฉ๋๋ค.
- ๋ฐ์ง ํ๊ฐ์์๋ Convolution Feature Map ์ด ์ด๋ฏธ์ง์ ์ด์ ๋ถ๋ถ์ผ๋ก Padding๋์ง๋ง, ๋ค์ค ํฌ๋กญ ํ๊ฐ๋ ์(0)์ผ๋ก Padding ๋ฉ๋๋ค.
- ์ด๋ฌํ ์ฐจ์ด๋ก ์ธํด Network์ ์์ฉ ํ๋๊ฐ ์ฆ๊ฐํ์ฌ ๋ ๋ง์ Context๋ฅผ ํฌ์ฐฉํ ์ ์์ต๋๋ค.
ํ ์คํธ ์๊ฐ ์ฆ๊ฐ (Test Time Augmentation)
ํ ์คํธ ์๊ฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋จ์ผ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ ํฌ๊ธฐ๋ก ์กฐ์ ํ๊ณ , ๋ค์ํ ํฌ๋กญ์ ํ๊ฐํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
์ด๋ ๋จ์ผ Scale Test ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
ํจ์จ์ฑ ๊ณ ๋ ค
๋ค์ค ํฌ๋กญ ํ๊ฐ๊ฐ ๋ฐ์ง ํ๊ฐ๋ณด๋ค ์๊ฐ์ด ๋ ๋ง์ด ์์๋ ์ ์์ง๋ง, ์ ํ์ฑ์ ํฅ์์ํค๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
๋ ๋ฐฉ๋ฒ์ ๊ฒฐํฉํ์ฌ Softmax Output(์ถ๋ ฅ)์ ํ๊ท ํํ๋ฉด ์ฑ๋ฅ์ด ๋์ฑ ํฅ์๋ ์ ์์ต๋๋ค.
Implementation Details
VGGNet์ ๊ตฌํ์ ๊ณต๊ฐ๋ C++ Caffe ํด๋ฐ์ค(Jia, 2013)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ง๋ง, ์ฌ๋ฌ GPU์์ ํ๋ จ ๋ฐ ํ๊ฐ๋ฅผ ์ํํ ์ ์๋๋ก ๋ช ๊ฐ์ง ์ค์ํ ์์ ์ด ํฌํจ๋์ด ์์ต๋๋ค. ์ฃผ์ ์์ ์ฌํญ๊ณผ ๊ตฌํ ์ธ๋ถ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๋ค์ค GPU ํ๋ จ (Multi-GPU Training)
๋ค์ค GPU ํ๋ จ์ ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ์ ์ด์ฉํฉ๋๋ค. ๋ค์์ ๋ค์ค GPU ํ๋ จ ๊ณผ์ ์ ์ฃผ์ ๋จ๊ณ์ ๋๋ค:
- ๋ฐ์ดํฐ Batch ๋ถํ :
- ๊ฐ Batch์ ํ๋ จ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ GPU ๋ฐฐ์น๋ก ๋๋์ด ๊ฐ GPU์์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
- Gradient ๊ณ์ฐ:
- ๊ฐ GPU์์ ๋ณ๋ ฌ๋ก Batch๋ง๋ค Gradient(๊ธฐ์ธ๊ธฐ)๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- Gradient ํ๊ท ํ:
- ๊ฐ GPU Batch์ Gradient(๊ธฐ์ธ๊ธฐ)๋ฅผ ํ๊ท ํํ์ฌ ์ ์ฒด Batch์ Gradient(๊ธฐ์ธ๊ธฐ)๋ฅผ ์ป์ต๋๋ค.
- ๋๊ธฐํ๋ Gradient ๊ณ์ฐ:
- GPU ๊ฐ Gradient ๊ณ์ฐ์ ๋๊ธฐํ๋๋ฏ๋ก, ๋จ์ผ GPU์์ ํ๋ จํ ๊ฒ๊ณผ ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
GPU ์์คํ ์ ์ฑ๋ฅ ํฅ์
- ์ฑ๋ฅ ํฅ์:
- ์ฐ๋ฆฌ๋ ๋คํธ์ํฌ ํ๋ จ ์๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด ๋จ์ผ ์์คํ ์ ์ค์น๋ ์ฌ๋ฌ GPU๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ๋ ๋ณต์กํ ๋ณ๋ ฌํ ๋ฐฉ๋ฒ(Krizhevsky, 2014)์ด ์ต๊ทผ ์ ์๋์์ง๋ง, ๋จ์ํ ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ๋ 4๊ฐ์ GPU ์์คํ ์์ ๋จ์ผ GPU ์ฌ์ฉ์ ๋นํด 3.75๋ฐฐ์ ์๋ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค.
- ํ๋์จ์ด ๊ตฌ์ฑ:
- Network ํ๋ จ์ ๋ค ๊ฐ์ NVIDIA Titan Black GPU๊ฐ ์ฅ์ฐฉ๋ ์์คํ ์์ ์ํ๋์์ต๋๋ค.
- ๋จ์ผ Network ํ๋ จ์๋ ์ํคํ ์ฒ์ ๋ฐ๋ผ 2-3์ฃผ๊ฐ ์์๋์์ต๋๋ค.
ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN) ํด๋ฐ์ค Caffe์ ์์
Caffe๋ ConvNet ํ๋ จ ๋ฐ ํ๊ฐ๋ฅผ ์ํ ๊ณต๊ฐ๋ C++ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋๋ค.
๊ทธ๋ฌ๋ ์ด ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ์ฌ๋ฌ ์์ ์ฌํญ์ ํตํด Caffe๋ฅผ ๊ฐ์ ํ์์ต๋๋ค:
- ๋ค์ค GPU Training(ํ๋ จ) ๋ฐ Evaluation(ํ๊ฐ) ์ง์:
- ์ฌ๋ฌ GPU์์ Training ๋ฐ Evaluation(ํ๊ฐ)๋ฅผ ์ํํ ์ ์๋๋ก Caffe ์ฝ๋๋ฅผ ์์ ํ์ต๋๋ค.
- ์ ์ฒด ์ด๋ฏธ์ง์์ Training(ํ๋ จ) ๋ฐ Evaluation(ํ๊ฐ):
- ์ ์ฒด ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ Scale(ํฌ๊ธฐ)์์ Training(ํ๋ จ) ๋ฐ Evaluation(ํ๊ฐ)ํ ์ ์๋๋ก ์์ ํ์์ต๋๋ค.
- ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ ํ์ฉ:
- ๋ค์ค GPU ํ๋ จ์์ ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ์ ํ์ฉํ์ฌ Batch Gradient(๋ฐฐ์น ๊ทธ๋๋์ธํธ)๋ฅผ ๋ณ๋ ฌ๋ก ๊ณ์ฐํ๊ณ ํ๊ท ํํ์ต๋๋ค.
Implementation(๊ตฌํ)์ ์ฃผ์ ํน์ง
- ๋ค์ค ์ค์ผ์ผ ์ง์:
- ํ๋ จ ๋ฐ ํ ์คํธ ์ ์ฌ๋ฌ ์ค์ผ์ผ์ ์ง์ํ์ฌ ๋คํธ์ํฌ์ ์ฑ๋ฅ์ ๊ทน๋ํํ์ต๋๋ค.
- ํจ์จ์ฑ:
- ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ์ ํ์ฉํ์ฌ ํ๋ จ ์๋๋ฅผ ํฅ์์์ผฐ์ต๋๋ค.
Classification Experiments (๋ถ๋ฅ ์คํ)
ILSVRC-2012 ๋ฐ์ดํฐ์ ์์ ์ ์๋ ConvNet ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ถ๋ฅ ์คํ์ ์ํํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค.
ILSVRC-2012 ๋ฐ์ดํฐ์ ์๋ 1000๊ฐ์ ํด๋์ค ์ด๋ฏธ์ง๊ฐ ํฌํจ๋์ด ์์ผ๋ฉฐ, ํ๋ จ ์ธํธ(130๋ง ์ฅ), ๊ฒ์ฆ ์ธํธ(5๋ง ์ฅ), ํ ์คํธ ์ธํธ(10๋ง ์ฅ)๋ก ๋๋ฉ๋๋ค.
๋ถ๋ฅ ์ฑ๋ฅ์ ๋ ๊ฐ์ง ์ธก์ ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐ๋ฉ๋๋ค. top-1 ์ค๋ฅ์ top-5 ์ค๋ฅ. top-1 ์ค๋ฅ๋ ์๋ชป ๋ถ๋ฅ๋ ์ด๋ฏธ์ง์ ๋น์จ์ด๋ฉฐ, top-5 ์ค๋ฅ๋ ์์ 5๊ฐ์ ์์ธก ํด๋์ค์ ์ ๋ต ํด๋์ค๊ฐ ํฌํจ๋์ง ์์ ๋น์จ์ ๋ํ๋ ๋๋ค.
Single Scale Evaluation (๋จ์ผ ์ค์ผ์ผ ํ๊ฐ)
์ฐ๋ฆฌ๋ ๋จผ์ ๋จ์ผ ์ค์ผ์ผ์์ ๊ฐ ConvNet ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ํ ์คํธ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ ๋ค์๊ณผ ๊ฐ์ด ์ค์ ๋์์ต๋๋ค.
๊ณ ์ ๋ S์ ๋ํด Q = S, ๊ทธ๋ฆฌ๊ณ Jittering๋ S ∈ [Smin, Smax]์ ๋ํด Q = 0.5(Smin + Smax). ์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ก์ปฌ ์๋ต ์ ๊ทํ(LRN) ์ฌ์ฉ ์ฌ๋ถ:
- A-LRN ๋คํธ์ํฌ๋ LRN์ ์ฌ์ฉํ์ง ์์ A ๋คํธ์ํฌ๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋์ง ์์์ต๋๋ค.
- ๋ฐ๋ผ์, ๋ ๊น์ ์ํคํ ์ฒ(B–E)์์๋ ์ ๊ทํ๋ฅผ ์ฌ์ฉํ์ง ์์์ต๋๋ค.
- ๋คํธ์ํฌ ๊น์ด ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ:
- Network์ depth(๊น์ด)๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ Classification Error(๋ถ๋ฅ ์ค๋ฅ)๊ฐ ๊ฐ์ํ์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, 11๊ฐ Layer(๋ ์ด์ด)๋ฅผ ๊ฐ์ง A Network์์ 19๊ฐ Layer(๋ ์ด์ด)๋ฅผ ๊ฐ์ง E Network๋ก ์ด๋ํ ์๋ก ์ฑ๋ฅ์ด ํฅ์๋์์ต๋๋ค.
- ๊ตฌ์ฑ C๋ 1×1 Convolution Layer 3๊ฐ๋ฅผ ํฌํจํ์ง๋ง, 3×3 Convolution Layer๋ฅผ ์ฌ์ฉํ๋ ๊ตฌ์ฑ D๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ก์ต๋๋ค.
- ์ด๋ ์ถ๊ฐ์ ์ธ ๋น์ ํ์ฑ์ด ๋์์ด ๋์ง๋ง(C๊ฐ B๋ณด๋ค ๋์), ๊ณต๊ฐ์ ๋ฌธ๋งฅ์ ํฌ์ฐฉํ๋ ๊ฒ์ด ์ค์ํจ์ ์์ฌํฉ๋๋ค(D๊ฐ C๋ณด๋ค ๋์).
- ์ค์ผ์ผ ์งํฐ๋ง์ ํจ๊ณผ:
- Training(ํ๋ จ) ์ Scale Jittering (S ∈ [256; 512])์ ์ฌ์ฉํ๋ฉด ๋จ์ผ ์ค์ผ์ผ(S = 256 ๋๋ S = 384)๋ก ํ๋ จํ ๊ฒ๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์ข์์ง๋๋ค. ์ด๋ Scale Jittering์ ํตํ ํ๋ จ ์ธํธ ํ์ฅ์ด ๋ฉํฐ ์ค์ผ์ผ ์ด๋ฏธ์ง ํต๊ณ๋ฅผ ์บก์ฒํ๋ ๋ฐ ๋์์ด ๋จ์ ๋ํ๋ ๋๋ค.
- ๋จ์ผ ์ค์ผ์ผ ํ๊ฐ ๊ฒฐ๊ณผ (Table 3)
ConvNet ๊ตฌ์ฑ (ํ 1 ์ฐธ์กฐ) | ํ๋ จ ์ค์ผ์ผ (S) | ํ ์คํธ ์ค์ผ์ผ (Q) | top-1 ๊ฒ์ฆ ์ค๋ฅ (%) | top-5 ๊ฒ์ฆ ์ค๋ฅ (%) |
A | 256 | 256 | 29.6 | 10.4 |
A-LRN | 256 | 256 | 29.7 | 10.5 |
B | 256 | 256 | 28.7 | 9.9 |
C | 256 | 256 | 28.1 | 9.4 |
C | 384 | 384 | 28.1 | 9.3 |
C | [256;512] | 384 | 27.3 | 8.8 |
D | 256 | 256 | 27.0 | 8.8 |
D | 384 | 384 | 26.8 | 8.7 |
D | [256;512] | 384 | 25.6 | 8.1 |
E | 256 | 256 | 27.3 | 9.0 |
E | 384 | 384 | 26.9 | 8.7 |
E | [256;512] | 384 | 25.5 | 8.0 |
Multi Scale Evaluation (๋ฉํฐ ์ค์ผ์ผ ํ๊ฐ)
๋ค์ํ ํฌ๊ธฐ๋ก ์ฌ์กฐ์ ๋ ํ ์คํธ ์ด๋ฏธ์ง(Q ๊ฐ์ ๋ค๋ฅด๊ฒ ์ค์ )๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ๊ฐํ ํ,
๊ฒฐ๊ณผ ํด๋์ค ํฌ์คํธ๋ฆฌ์ด๋ฅผ ํ๊ท ํํ๋ ๋ฐฉ์์ ๋๋ค.
- ํ๋ จ ์ค์ผ์ผ์ ๋ฐ๋ฅธ ํ
์คํธ ์ค์ผ์ผ ์ค์ :
- ๊ณ ์ ๋ S๋ก ํ๋ จ๋ ๋ชจ๋ธ์ ํ๋ จ ์ค์ผ์ผ์ ๊ฐ๊น์ด ์ธ ๊ฐ์ง ํ ์คํธ ์ด๋ฏธ์ง ํฌ๊ธฐ(Q = {S - 32, S, S + 32})์์ ํ๊ฐํ์ต๋๋ค.
- Scale Jittering (S ∈ [256; 512])์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ์ ๋ ๋์ ๋ฒ์์ ํ ์คํธ ํฌ๊ธฐ(Q = {Smin, 0.5(Smin + Smax), Smax})์์ ํ๊ฐํ์ต๋๋ค.
- ๋ฉํฐ ์ค์ผ์ผ ํ๊ฐ ๊ฒฐ๊ณผ (Table 4)
ConvNet ๊ตฌ์ฑ (ํ 1 ์ฐธ์กฐ) | ํ๋ จ ์ค์ผ์ผ (S) | ํ ์คํธ ์ค์ผ์ผ (Q) | top-1 ๊ฒ์ฆ ์ค๋ฅ (%) | top-5 ๊ฒ์ฆ ์ค๋ฅ (%) |
B | 256 | 224,256,288 | 28.2 | 9.6 |
C | 256 | 224,256,288 | 27.7 | 9.2 |
C | 384 | 352,384,416 | 27.8 | 9.2 |
C | [256; 512] | 256,384,512 | 26.3 | 8.2 |
D | 256 | 224,256,288 | 26.6 | 8.6 |
D | 384 | 352,384,416 | 26.5 | 8.6 |
D | [256; 512] | 256,384,512 | 24.8 | 7.5 |
E | 256 | 224,256,288 | 26.9 | 8.7 |
E | 384 | 352,384,416 | 26.7 | 8.6 |
E | [256; 512] | 256,384,512 | 24.8 | 7.5 |
Multi Crop Evaluation (๋ฉํฐ ํฌ๋กญ ํ๊ฐ)
๋ฐ์ง ConvNet ํ๊ฐ์ ๋ฉํฐ ํฌ๋กญ ํ๊ฐ๋ฅผ ๋น๊ตํ๊ณ , ๋ ํ๊ฐ ๋ฐฉ๋ฒ์ ๊ฒฐํฉํ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค.
- ๋ฉํฐ ํฌ๋กญ ํ๊ฐ:
- ๋ค์ค ํฌ๋กญ ํ๊ฐ๋ ์ด๋ฏธ์ง์ ์ฌ๋ฌ ๋ถ๋ถ์ ์๋ผ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- ์ด๋ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ ์ ์์ง๋ง, ํจ์จ์ฑ์ ๋จ์ด์ง๋๋ค.
- ํ๊ฐ ๋ฐฉ๋ฒ ๋น๊ต:
- ๋ฉํฐ ํฌ๋กญ ํ๊ฐ๋ ๋ฐ์ง ํ๊ฐ๋ณด๋ค ์ฝ๊ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ ๋ฐฉ๋ฒ์ ๊ฒฐํฉํ๋ฉด ๋ ๋์ ์ฑ๋ฅ์ ์ป์ ์ ์์์ ํ์ธํ์ต๋๋ค. ์ด๋ ์๋ก ๋ค๋ฅธ ๊ฒฝ๊ณ ์กฐ๊ฑด์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ๋ฉํฐ ํฌ๋กญ ํ๊ฐ ๊ฒฐ๊ณผ (Table 5)
ConvNet ๊ตฌ์ฑ (ํ 1 ์ฐธ์กฐ) | ํ๊ฐ ๋ฐฉ๋ฒ | top-1 ๊ฒ์ฆ ์ค๋ฅ (%) | top-5 ๊ฒ์ฆ ์ค๋ฅ (%) |
D | ๋ฐ์ง ํ๊ฐ(dense) | 24.8 | 7.5 |
D | ๋ฉํฐ ํฌ๋กญ ํ๊ฐ(multi-crop) | 24.6 | 7.5 |
D | ๋ฉํฐ ํฌ๋กญ & ๋ฐ์ง ํ๊ฐ | 24.4 | 7.2 |
E | ๋ฐ์ง ํ๊ฐ(dense) | 24.8 | 7.5 |
E | ๋ฉํฐ ํฌ๋กญ ํ๊ฐ(multi-crop) | 24.6 | 7.4 |
E | ๋ฉํฐ ํฌ๋กญ & ๋ฐ์ง ํ๊ฐ | 24.4 | 7.1 |
ConvNet Fusion (ConvNet๊ณผ ์ตํฉ)
์ฌ๋ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๊ฒฐํฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค. ConvNet ์ตํฉ์ ์ฌ๋ฌ ๋คํธ์ํฌ์ ์ํํธ๋งฅ์ค ํด๋์ค ํฌ์คํธ๋ฆฌ์ด(Softmax class posterior)๋ฅผ ํ๊ท ํํ์ฌ ์ํ๋ฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๊ฐ๋ณ ๋ชจ๋ธ์ ์๋ณด์ฑ์ ํ์ฉํ์ฌ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
ILSVRC ์ ์ถ ์์ ์ ๋คํธ์ํฌ ์ตํฉ
ILSVRC ์ ์ถ ๋น์์๋ ๋จ์ผ ์ค์ผ์ผ ๋คํธ์ํฌ์ ๋ฉํฐ ์ค์ผ์ผ ๋ชจ๋ธ D๋ฅผ ์ฌ์ฉํ์ฌ ์ด 7๊ฐ์ ๋คํธ์ํฌ๋ฅผ ์ตํฉํ์ต๋๋ค.
- ๋จ์ผ ์ค์ผ์ผ ๋คํธ์ํฌ: ๊ณ ์ ๋ ์ค์ผ์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ
- ๋ฉํฐ ์ค์ผ์ผ ๋ชจ๋ธ D: ์ฌ๋ฌ ์ค์ผ์ผ์์ ํ๋ จ๋ ๋ชจ๋ธ
์ด ์ตํฉ ๋คํธ์ํฌ๋ ILSVRC ํ ์คํธ ์ธํธ์์ 7.3%์ top-5 ์ค๋ฅ์จ์ ๋ฌ์ฑํ์ต๋๋ค.
ILSVRC ์ ์ถ ์ดํ์ ๋คํธ์ํฌ ์ตํฉ
์ ์ถ ํ, ๋ ๊ฐ์ง ๋ฉํฐ ์ค์ผ์ผ ๋ชจ๋ธ์ ๊ฒฐํฉ์ ํตํด ์ฑ๋ฅ์ ๋์ฑ ํฅ์์์ผฐ์ต๋๋ค. ์ด๋ ๋ค์ ๋ ๋ชจ๋ธ์ ์ตํฉํ ๊ฒ์ ๋๋ค:
- ๋ชจ๋ธ D: Scale Jittering(S ∈ [256; 512])์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ
- ๋ชจ๋ธ E: Scale Jittering(S ∈ [256; 512])์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ
์ด ๋ ๋ชจ๋ธ์ ์ตํฉํ ๊ฒฐ๊ณผ, ํ ์คํธ ์ธํธ์์ top-5 ์ค๋ฅ์จ์ 7.0%๋ก ๊ฐ์์์ผฐ์ต๋๋ค.
๋ํ, ๋ฐ์ง ํ๊ฐ์ ๋ฉํฐ ํฌ๋กญ ํ๊ฐ๋ฅผ ๊ฒฐํฉํ ๊ฒฐ๊ณผ, ์ฑ๋ฅ์ด ๋์ฑ ํฅ์๋์์ต๋๋ค.
- ๋ฐ์ง ํ๊ฐ์ ๋ฉํฐ ํฌ๋กญ ํ๊ฐ ๊ฒฐํฉ: ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋จ์ผ ๋ชจ๋ธ์ด ๊ฐ๊ฐ์ ํ๊ฐ ๋ฐฉ๋ฒ์์ ์ป์ Softmax ์ถ๋ ฅ์ ๊ฒฐํฉํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
๊ฒฐํฉ๋ ConvNet ๋ชจ๋ธ | top-1 ๊ฒ์ฆ ์ค๋ฅ (%) | top-5 ๊ฒ์ฆ ์ค๋ฅ (%) | top-5 ํ ์คํธ ์ค๋ฅ (%) |
ILSVRC ์ ์ถ (D/256/224,256,288), (D/384/352,384,416), (D/[256;512]/256,384,512), (C/256/224,256,288), (C/384/352,384,416), (E/256/224,256,288), (E/384/352,384,416) | 24.7 | 7.5 | 7.3 |
์ ์ถ ํ (D/[256;512]/256,384,512), (E/[256;512]/256,384,512), ๋ฐ์ง ํ๊ฐ | 24.0 | 7.1 | 7.0 |
์ ์ถ ํ (D/[256;512]/256,384,512), (E/[256;512]/256,384,512), ๋ฉํฐ ํฌ๋กญ | 23.9 | 7.2 | - |
์ ์ถ ํ (D/[256;512]/256,384,512), (E/[256;512]/256,384,512), ๋ฉํฐ ํฌ๋กญ & ๋ฐ์ง ํ๊ฐ | 23.7 | 6.8 | 6.8 |
Comparision with the state of the art (์ต์ฒจ๋จ๊ณผ ๋น๊ต)
ILSVRC-2014 ์ฑ๋ฆฐ์ง ๊ฒฐ๊ณผ
ILSVRC-2014 ์ฑ๋ฆฐ์ง์ ๋ถ๋ฅ ๊ณผ์ ์์, "VGG"๋ 2์๋ฅผ ์ฐจ์งํ์ต๋๋ค.
์ต์ข ์ ์ถ ๋ชจ๋ธ์ 7๊ฐ์ ๋คํธ์ํฌ๋ฅผ ์์๋ธํ์ฌ 7.3%์ top-5 ํ ์คํธ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
์ ์ถ ํ, ๋ชจ๋ธ์ ๋ ๋์ ์ฑ๋ฅ์ ์ํด ๋ ๊ฐ์ง ๋ฉํฐ ์ค์ผ์ผ ๋ชจ๋ธ์ ์์๋ธ์ ์๋ํ๊ณ , ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค:
- ๋จ์ผ ๋คํธ์ํฌ ํ๊ฐ: ์ฐ๋ฆฌ์ ๊ฐ์ฅ ์ข์ ๋จ์ผ Network๋ 7.0%์ ํ ์คํธ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
- ๋คํธ์ํฌ ์์๋ธ ํ๊ฐ: ๋ ๊ฐ์ ๋ฉํฐ ์ค์ผ์ผ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ 6.8%์ ํ ์คํธ ์ค๋ฅ์จ์ ๋ฌ์ฑํ์ต๋๋ค.
GoogLeNet๊ณผ์ ๋น๊ต
GoogLeNet(Szegedy et al., 2014)์ ILSVRC-2014 ๋ถ๋ฅ ๊ณผ์ ์์ 1์๋ฅผ ์ฐจ์งํ ๋ชจ๋ธ๋ก, 6.7%์ top-5 ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค. GoogLeNet์ ๋งค์ฐ ๊น์ ConvNet(22๊ฐ์ Weight Layer)๊ณผ ์์ Convoultion Filter๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ ๋๋ค. GoogLeNet์ ๋คํธ์ํฌ ํ ํด๋ก์ง๋ ์ฐ๋ฆฌ์ ๊ฒ๋ณด๋ค ๋ ๋ณต์กํ๋ฉฐ, ์ฒซ ๋ฒ์งธ Layer์์ Feature Map์ ๊ณต๊ฐ ํด์๋๋ฅผ ๋ ๊ณต๊ฒฉ์ ์ผ๋ก ์ค์ฌ ๊ณ์ฐ๋์ ๊ฐ์์ํต๋๋ค.
- ๋จ์ผ ๋คํธ์ํฌ ์ฑ๋ฅ: ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ด ๋จ์ผ GoogLeNet ๋ชจ๋ธ๋ณด๋ค 0.9% ๋ ๋ฎ์ ํ ์คํธ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
- ๋คํธ์ํฌ ์์๋ธ ์ฑ๋ฅ: GoogLeNet์ ์์๋ธ ๊ฒฐ๊ณผ๋ 6.7%๋ก, ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ์ ์ ์ฌํฉ๋๋ค.
MSRA์์ ๋น๊ต
MSRA(He et al., 2014) ํ์ 11๊ฐ์ ๋คํธ์ํฌ๋ฅผ ๊ฒฐํฉํ์ฌ 8.1%์ ํ ์คํธ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
MSRA์ ๋จ์ผ ๋คํธ์ํฌ ์ฑ๋ฅ์ 9.1%์ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
Clarifai์์ ๋น๊ต
Clarifai(Russakovsky et al., 2014)๋ ILSVRC-2013 ์ฑ๋ฆฐ์ง์ ์น์๋ก, ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง ์์ ๊ฒฝ์ฐ 11.7%, ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ 11.2%์ top-5 ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
์ฐ๋ฆฌ์ ๋ชจ๋ธ์ ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ๋ Clarifai ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
Zeiler & Fergus์์ ๋น๊ต
Zeiler & Fergus (Zeiler & Fergus, 2013)๋ 6๊ฐ์ ๋คํธ์ํฌ๋ฅผ ๊ฒฐํฉํ์ฌ 14.8%์ ํ ์คํธ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
๋จ์ผ ๋คํธ์ํฌ ์ฑ๋ฅ์ 16.1%์ ์ค๋ฅ์จ์ ๋ณด์์ต๋๋ค. ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ ์ด ๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
OverFeat์์ ๋น๊ต
OverFeat(Sermanet et al., 2014)์ 7๊ฐ์ ๋คํธ์ํฌ๋ฅผ ๊ฒฐํฉํ์ฌ 13.6%์ ํ ์คํธ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค.
๋จ์ผ ๋คํธ์ํฌ ์ฑ๋ฅ์ 14.2%์ ์ค๋ฅ์จ์ ๋ณด์์ต๋๋ค. ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ OverFeat ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
Krizhevsky et al.๊ณผ์ ๋น๊ต
Krizhevsky et al. (Krizhevsky et al., 2012)๋ 5๊ฐ์ ๋คํธ์ํฌ๋ฅผ ๊ฒฐํฉํ์ฌ 16.4%์ ํ ์คํธ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ต๋๋ค
๋จ์ผ ๋คํธ์ํฌ ์ฑ๋ฅ์ 18.2%์ ์ค๋ฅ์จ์ ๋ณด์์ต๋๋ค. ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ ์ด ๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ข ํฉ ํ๊ฐ
์ฐ๋ฆฌ์ ๋งค์ฐ ๊น์ ConvNet ๋ชจ๋ธ์ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์๋นํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, ๋จ์ผ ๋คํธ์ํฌ ์ฑ๋ฅ์์๋ ๋ชจ๋ ๊ธฐ์กด ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ผ๋ฉฐ, ๋คํธ์ํฌ ์์๋ธ์ ํตํด ๋์ฑ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค. ์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ๊น์ ๋คํธ์ํฌ๊ฐ ๋ ๋์ ์ด๋ฏธ์ง ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ์ ์ฆํ์์ต๋๋ค.
- ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ต ๊ฒฐ๊ณผ (Table 7)
๋ฐฉ๋ฒ | top-1 ๊ฒ์ฆ ์ค๋ฅ (%) | top-5 ๊ฒ์ฆ ์ค๋ฅ (%) | top-5 ํ ์คํธ ์ค๋ฅ (%) |
VGG (2๊ฐ ๋คํธ, ๋ฉํฐ ํฌ๋กญ & ๋ฐ์ง ํ๊ฐ) | 23.7 | 6.8 | 6.8 |
VGG (1๊ฐ ๋คํธ, ๋ฉํฐ ํฌ๋กญ & ๋ฐ์ง ํ๊ฐ) | 24.4 | 7.1 | 7.0 |
VGG (ILSVRC ์ ์ถ, 7๊ฐ ๋คํธ, ๋ฐ์ง ํ๊ฐ) | 24.7 | 7.5 | 7.3 |
GoogLeNet (1๊ฐ ๋คํธ) | - | 7.9 | - |
GoogLeNet (7๊ฐ ๋คํธ) | - | 6.7 | - |
MSRA (11๊ฐ ๋คํธ) | - | - | 8.1 |
MSRA (1๊ฐ ๋คํธ) | 27.9 | 9.1 | 9.1 |
Clarifai (์ธ๋ถ ๋ฐ์ดํฐ ์์ด, ์ฌ๋ฌ ๋คํธ) | - | - | 11.7 |
Clarifai (์ธ๋ถ ๋ฐ์ดํฐ ์์ด, 1๊ฐ ๋คํธ) | - | - | 12.5 |
Zeiler & Fergus (6๊ฐ ๋คํธ) | 36.0 | 14.7 | 14.8 |
Zeiler & Fergus (1๊ฐ ๋คํธ) | 37.5 | 16.0 | 16.1 |
OverFeat (7๊ฐ ๋คํธ) | 34.0 | 13.2 | 13.6 |
OverFeat (1๊ฐ ๋คํธ) | 35.7 | 14.2 | - |
Krizhevsky et al. (5๊ฐ ๋คํธ) | 38.1 | 16.4 | 16.4 |
Krizhevsky et al. (1๊ฐ ๋คํธ) | 40.7 | 18.2 | - |
Conclusion (๊ฒฐ๋ก )
์ฌ๊ธฐ์ ์์ ์๋๊ฑด ๊น์ ConvNet (19๊ฐ์ Weight Layer)๋ฅผ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํด ํ๊ฐ๋ฅผ ํ์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๊น์ด ์๋ ํํ์ด ๋ถ๋ฅ ์ ํ๋์ ์ ๋ฆฌํ๋ค๋๊ฒ์ ์ ์ฆํ์ต๋๋ค.
๋ํ ๊ธฐ์กด์ ConvNet Architecture๋ฅผ ์ฌ์ฉํ๋ฉด์ ๊น์ด๋ฅผ ์ฆ๊ฐ์์ผ๋, ImageNet Challenge Dataset์์๋ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ํ VGGnet ๋ชจ๋ธ์ด ๋ค๋ฅธ ์์ ๊ณผ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ์ ์ผ๋ฐํ๋์ด ๋ ๊น์ ์ด๋ฏธ์ง ํํ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ด ๊ฒฐ๊ณผ๋ ์๊ฐ์ ํํ์์ ๊น์ด์ ์ค์์ฑ์ ๋ค์ ํ ๋ฒ ํ์ธ์์ผ ์ค๋ค๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ฌ๋ฉด ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ ์ฌ๊ธฐ์ ๊ทธ๋ง ํด๋ณด๊ณ , ๋ค์ ๊ธ์ VGG16 ์ PyTorch๋ก ๊ตฌํํ ์ฝ๋๋ฅผ ๋ค๊ณ ์ค๊ฒ ์ต๋๋ค~