My Dev & Engineering Repository

이번글에서는 다양한 CNN 네트워크에 데하여 알아보겠습니다.

LeNet 5

LeNet-5는 기본적인 CNN 아키텍처를 정의하며, 현재의 딥러닝의 기초가 되었습니다.
주로 손글씨 숫자 인식(MNIST 데이터셋) 문제를 해결하기 위해 개발되었으며, 또한 현대 CNN의 기초를 마련한 모델로 여겨집니다.

LeNet-5는 총 7개의 레이어(입력과 출력 포함)로 구성된 네트워크입니다.
LeNet-5의 구조는 크게 두 부분으로 나눌 수 있습니다.
- Convolutional Neural Network (CNN)
- Fully Connected Network (FCN)
각 레이어는 특정한 역할을 수행하며, Convolutional Neural Network(CNN - 합성곱 레이어)와 서브샘플링 레이어(Pooling Layer)를 교대로 배치하여 이미지의 특징을 추출하고 차원을 축소합니다.
한번 LeNet 5 네트워크의 구조를 한번 알아보겠습니다.

C1 - Convolutional Layer: 입력 이미지에 필터를 적용하여 특징 맵을 생성합니다. 이 필터는 이미지의 지역적인 패턴을 인식합니다.
S2 - Subsampling Layer: C1에서 추출된 특징 맵을 다운샘플링하여 크기를 줄입니다. 이는 계산 비용을 줄이고 공간적인 정보를 보존합니다.
C3 - Convolutional Layer: S2에서 얻은 특징 맵에 다시 필터를 적용하여 더 많은 특징을 추출합니다.
S4 - Subsampling Layer: C3의 특징 맵을 다운샘플링합니다.
C5, F6 - Fully Connected Layer: 이 부분은 전통적인 신경망과 유사하게 모든 뉴런이 이전 레이어의 모든 뉴런과 연결됩니다.
Output Layer (Output): FC5의 출력을 사용하여 입력 이미지를 클래스로 분류합니다.

LeNet5 모델의 특징

• 7 Layer: [CONV-POOL-CONV-POOL-FC-FC-FC]
• Conv Layer: 5x5 필터, 스트라이드 1
• Pooling Layer: 2x2 평균 풀링, 스트라이드 2
• Activation Function: 시그모이드/탄허 (Sigmoid/tanh)
• Parameters: 60,000개

AlexNet

AlexNet은 2012년에 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)에서 우승한 유명한 합성곱 신경망(CNN) 모델입니다.

AlexNet은 이미지 분류의 성능을 크게 향상시켰다는 특징이 있습니다.

특징은 네트워크를 쪼개서 GPU로 병렬처리를 했다는 점입니다. 즉, 모델을 반으로 쪼개서 넣는다는 개념입니다.
ReLU Activation Function (ReLU 활성화 함수): AlexNet에서는 음수 값에 대한 활성화를 감소시키고 Non-Linear(비선형성)을 증가시키기 위해 최소로 ReLU(Rectified Linear Unit) Activation Function(활성화 함수)를 사용합니다.
- 이는 네트워크의 학습 속도를 향상시키고, Gradient 소실 문제를 완화시키는 효과가 있습니다.
Dropout: AlexNet은 드롭아웃(dropout)을 0.5 정도를 사용하여 사용하여 과적합(overfitting)을 줄이는 역할을 합니다.
데이터 정규화 (Normalization): AlexNet에서는 Local Response Normalization (LRN)을 사용하여 데이터 정규화를 합니다.
데이터 증강 (Data Augmentation): AlexNet에서는 데이터 증강을 사용하여 과적합(overfitting)을 줄이고 일반화 성능을 향상시킵니다.

• 8 Layer: [CONV-RELU-POOL-CONV-RELU-POOL-CONV-RELU-CONV-RELU-CONV-RELU-POOL-FC-FC-FC]
• Conv Layer: 다양한 크기의 필터 (11x11, 5x5, 3x3), 스트라이드 4/1
• Pooling Layer: 3x3 최대 풀링(Max Pooling), 스트라이드 2
• Activation Function: ReLU (Rectified Linear Unit)
• Parameters: 약 60 million (6000만 개)

ZFNet

AlexNet의 성능을 개선하고 CNN의 내부 작동 방식을 시각화하는 데 중점을 두었습니다.

AlexNet과 Architecture는 동일하지만, Hyperparameter를 조정하여 오류율을 개선하였습니다.
- 합성곱 필터 크기의 감소: ZFNet은 AlexNet의 합성곱 필터 크기를 줄여 더 많은 고수준의 특징을 추출하도록 하였습니다.
- CONV1: (11x11 stride 4)를 (7x7 stride 2)로 변경했습니다.
- 더 깊은 합성곱 층: ZFNet은 AlexNet보다 더 깊고, 다양한 합성곱 층을 사용하여 더 많은 추상적인 특징을 학습 및 추출하여 모델의 성능 향상을 이루어 냈습니다.
- CONV3,4,5: 384, 384, 256 filter를 512, 1024, 512로 사용했다는 특징이 있습니다.
- 시각화 기법: 그리고 ZFNet은 CNN의 내부 작동을 시각화하여 모델이 학습하는 방식을 이해하는 데 도움을 주었습니다.
  - 이 시각화는 어떤 특징들이 각 레이어에서 학습되고 있는지 보여줍니다.
- Dropout: Dropout을 사용하여 완전 연결 레이어에서 Overfitting(과적합)을 방지했다는 특징이 있습니다.

• 8 Layer: [CONV-RELU-POOL-CONV-RELU-POOL-CONV-RELU-CONV-RELU-CONV-RELU-POOL-FC-FC-FC]
• Conv Layer: 다양한 크기의 filter (7x7, 5x5, 3x3), stride 2/1
• Pooling Layer: 3x3 최대 풀링(Max Pooling), stride 2
• Activation Function: ReLU (Rectified Linear Unit)
• Parameters: 약 60 million (6000만 개)

VGGNet

2014년에 Visual Geometry Group(VGG)에서 개발한 합성곱 신경망(CNN) 모델로, 특히 ILSVRC 2014 대회에서 우수한 성능을 보여주며 널리 알려졌습니다.

주요 특징은 단순하고 일관된 구조를 갖추고 있으며, 네트워크 깊이를 늘려 성능을 향상시켰다는 점이 있습니다.

VGGNet은 이전의 딥러닝 모델보다 훨씬 깊은 네트워크를 사용합니다.
위에서 설명 드렸지만, VGGNet은 16개 또는 19개의 층으로 구성되어 있습니다.
모든 Convolution Matrix Layer(합성곱층)의 필터 크기가 3x3: VGGNet은 모든 합성곱층에 3x3 크기의 작은 필터를 사용하여 이미지를 처리합니다.
풀링층 (Pooling Layers): VGGNet은 2x2 Max 풀링층(max-pooling layers)을 사용하여 공간적인 불변성을 향상시키는 역할을 합니다.

VGGNet이 32x32 영상을 처리하고, 1000개의 class가 되도록 조절합니다.
나머지는 기본의 Neural Network과 같은 구조로 유지합니다.
총 16 or 19개의 단으로 구성되어 있습니다.

3 Convolution Filter의 Receptive Field (1D)

VGGNet은 Receptive Field를 사용합니다. 한번 알아보겠습니다.

Receptive Field는 Neural Network(신경망)의 특정 Neuron이 입력 공간에서 보는 영역을 의미합니다.
- 즉, CNN에서 연속적인 합성곱층을 쌓을 때, 각 뉴런이 입력 이미지의 더 넓은 영역을 보게 되는 현상입니다.
- 또한, 3 Convolution Filter의 Receptive Field (1D) → 계층을 여러번 가져간다는 특징이 있습니다.
1-Dimension(1차원) Convolution FIlter 의 경우, Receptive field는 해당 뉴런이 입력의 어느 범위를 커버하는지를 나타냅니다. Receptive field는 필터의 크기와 네트워크의 깊이에 따라 달라집니다.

첫 번째 합성곱층에서는 각 뉴런이 입력 이미지의 작은 영역에 대해 수용 영역을 가집니다. 이 영역은 3x3 크기의 필터로 정의됩니다.
두 번째 합성곱층에서는 각 뉴런이 이전 층의 뉴런들의 수용 영역을 보게 됩니다. 이는 이전 층의 필터 크기와 합성곱 연산에 의해 정해집니다.
- 예를 들어, 두 번째 층에서 3x3 필터를 사용한다면, 각 뉴런은 이전 층의 3x3 영역에 대해 수용 영역을 가지게 됩니다.
이와 같은 과정을 여러 번 반복하면, 네트워크의 깊이가 깊어질수록 각 뉴런의 수용 영역은 입력 이미지의 더 넓은 영역을 포함하게 됩니다.

Receptive Field는 작은 filter로 여러개의 Layer가 쌓는 방식으로 표현됩니다.
- 5x5 와 (3x3)x2 필터는 같은 영역(Receptive Field)을 처리합니다.
- 층이 깊어져 ReLU 같은 Activation(비선형성 )이 추가됩니다.

위의 그림, 즉 모델의 Memory 사용값을 보시면, 초기 Convolution Layer에서 Memory 사용이 집중 된다는 특징이 있습니다.
또한 마지막 Fully-Connected Layer에 Parameter 사용이 집중됩니다.

즉, VGG16 보다 VGG19 가 메모리 사용이 많지만, 성능은 조금 더 좋다는 특징이 있습니다.

• 16 또는 19 Layer: [CONV-RELU-CONV-RELU-POOL-CONV-RELU-CONV-RELU-POOL-CONV-RELU-CONV-RELU-CONV-RELU-POOL-CONV-RELU-CONV-RELU-CONV-RELU-POOL-CONV-RELU-CONV-RELU-CONV-RELU-POOL-FC-FC-FC]
• Conv Layer: 3x3 filter, stride 1, padding 1
• Pooling Layer: 2x2 최대 풀링(Max Pooling), stride 2
• Activation Function: ReLU (Rectified Linear Unit)
• Parameters: 약 138 million (1억 3800만 개)

GoogLeNet

2014년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 우승한 딥러닝 모델로, Google에서 개발되었습니다.

• 22 Layers: 네트워크의 깊이는 22개 Layer에 달합니다.
• Inception 모듈: 다양한 크기의 필터(1x1, 3x3, 5x5)와 Pooling Layer를 결합한 구조.
• Global Average Pooling: 마지막에 완전 연결 레이어(FC) 대신 사용하여 parameter 수를 줄임.
• Auxiliary Classifiers: 중간 출력에서 분류기를 추가하여 학습을 안정화하고 Gradient Loss(기울기 손실) 문제를 완화.
• Parameters: 약 5 million (500만 개)

주요한 특징은 Inception 모듈을 활용하여 깊이와 너비를 균형 있게 확장한 것이 특징입니다.
여기서 인셉션 모듈은 여러 크기의 컨볼루션 연산과 맥스풀링(max pooling) 연산을 한 레이어에서 병렬로 수행하고, 그 결과를 합치는 구조입니다.
하지만 단순히 레이어를 많이 쌓는 것이 아니라, Inception 모듈을 통해 깊이와 너비를 균형 있게 확장하며 효율적인 학습이 가능하도록 설계했습니다.
또한 1x1 Convolution을 사용하여 차원을 축소시키는 기법도 도입했습니다.
- 이를 통해 다른 크기의 Convolution 연산 전에 계산량을 줄이는 효과를 보여주었습니다.
그리고 Fully Connected Layer(FC)를 제거, 대신 마지막 Convolution 레이어의 출력에 Global Average Pooling을 적용하였습니다.
- 이는 네트워크의 파라미터 수를 크게 줄이고, Overfitting(과적합)을 방지하는 역할을 한다는 특징이 있습니다.

Inception Module

인셉션 모듈은 여러 크기의 Convolution 연산과 Max pooling 연산을 한 레이어에서 병렬로 수행하고, 그 결과를 합치는 구조입니다.

Inception Module의 구성요소 -> 모듈의 출력은 채널 방향으로 합쳐져 다음 레이어로 전달됩니다.
• 1x1 Convolution: 차원 축소 및 비선형성 추가
• 3x3 Convolution: 중간 규모의 특징 추출
• 5x5 Convolution: 큰 규모의 특징 추출
• 3x3 Max Pooling: 공간적인 축소와 함께 강한 특징 강조

다만, 계산량이 많다는 문제가 있습니다. 왜일까요? 이유는 아래의 그림을 보면서 알아보겠습니다.

계산양이 매우 많고, Feature map depth가 점점 중가합니다.
그리고 Pooling Layer가 feature depth를 유지하기 때문에 filter concat후 depth가 점정 증가하게 된다는 문제점이 있습니다.
그래서 feature depth를 줄이기 위해서 "bottleneck" layer를 사용해서 feature depth를 사용합니다.

Bottleneck Layer

고차원 공간의 특징을 저차원 공간으로 압축한 다음 다시 고차원 공간으로 확장하는 과정을 통해 계산의 효율적 처리를 할수 있게 하는 Layer 입니다.

Bottleneck Layer은 3개의 연속된 Layer로 구성됩니다.

1. 1x1 Convolution: 차원 축소(Dimensionality Reduction)
2. 3x3 또는 5x5 Convolution: 특징 추출
3. 1x1 Convolution: 차원 확장(Dimensionality Expansion)

그리고 Bottleneck Layer은 Dimensionality Reduction(차원 축소)를 하면서 각 Channel의 Weight(가중치)를 학습하는 방식입니다.
여기서 이제 Activation map의 depth(깊이)를 줄여서 계산의 효율성을 높일 수 있습니다.

* Activation map (Feature map): Convolutional Neural Network, CNN 에서 각 필터가 입력 데이터에 대해 생성한 출력

그러면 한번 이제 Inception Module에 'bottleneck' Layer를 적용시킨 구조를 한번 보겠습니다.

Pooling Layer 다음 Bottleneck을 통해 depth를 줄였다는 특징이 있습니다.
그리고 Naive Inception Module의 Parameter 보다 절반 이하로 줄였다는 특징이 있습니다.

전체 GoogLeNet Architecture

GoogLeNet은 하위 계층에 Gradient를 원활히 공급하게 위해서 보조 Classification 출력을 두었습니다.
- AVGPool - 1x1 Conv Layer - FC - FC - Softmax(activation) [보조출력]
- 전체 22 계층 → Inception Module 9개 + Conv Layer 4개
- Parallel Layer는 1개로 계산 → Inception 모듈 내부의 병렬 연산 구조를 단일 계층으로 간주한다는 의미입니다.
Inception Module 별로 2-Layer로 계산 → 계산상 2개의 계층으로 간주한다는 의미입니다.
- 또한 Gradient Loss 문제랑 학습을 안정화 하기 위하여 중간 Layer에 Auxiliary Classifiers를 사용합니다.
근데, 여기서 Auxiliary Classifiers가 뭘까요?

Auxiliary Classifiers

GoogLeNet(또는 Inception V1)에서 도입된 기법으로, 네트워크의 중간 단계에서 추가적인 분류기를 사용하여 학습을 돕는 역할을 합니다.
또한 Gradient Loss 문제를 완화하고, 네트워크가 더 나은 특성을 학습하도록 유도하며, 학습을 안정화시키는 데 기여합니다.

노란색 점선 박스안에 있는 것이 Auxiliary Classifier 입니다. 앞에가 4a, 뒤에가 4d

GoogLeNet에서는 Inception 모듈 그룹 뒤에 배치됩니다.
보통 두 개의 Auxiliary Classifiers가 사용됩니다. 하나는 Inception 모듈(4a) 뒤에, 다른 하나는 Inception 모듈(4d) 뒤에 위치합니다.
그리고 중간 Layer에서 Gradient를 생성하여 뒤로 전달함으로써, 깊은 네트워크에서 발생하는 Gradient Loss 문제를 완화합니다.
Auxiliary Classifiers는 주로 아래와 같이 Layer가 구성됩니다.

• Average Pooling Layer: 5x5 크기, stride 3
• Convolution Layer: 1x1 filter, 출력 channel 수는 128
• Fully Connected Layer (FC- 완전 연결 레이어): 1024개 Neuron
• Dropout Layer: Dropout 확률 0.7
• Output Layer: 1000개 클래스에 대한 Softmax(소프트맥스) Activation Function

ResNet

ResNet은 2015년에 Microsoft Research에서 개발된 CNN(Convolutional Neural Network) 구조입니다.

ResNet은 그 이전까지의 문제였던 깊은 네트워크를 훈련시킬 때 발생하는 소실된(gradients vanishing) 또는 폭발하는 (gradients exploding) Gradient Saturation(그래디언트 문제)를 해결하기 위해 고안되었습니다.

• 1x1 Convolution: 차원 축소 및 Non-Linear 추가
• 3x3 Convolution: 중간 규모의 Feature 추출
• 1x1 Convolution: Dimension 확장 및 Non-Linear 추가
• Batch Normalization: 내부 공간 변화량 변화 감소
• ReLU Activation: Non-Linear 추가
• Identity Shortcut Connection: Gradient Loss 문제 완화

주요 특징을 한번 설명해보겠습니다.
Residual Block(잔차 블록): Residual Block(잔차 블록)은 직접적인 연결(Identity Shortcut Connection)을 통해 입력을 출력을 더하는 구조입니다. 이를 통해 Gradient가 소실되지 않고 잘 전달되며, 매우 깊은 네트워크에서도 효과적으로 학습할 수 있습니다.
Identity Shortcut Connection: Residual Block에서 입력을 출력을 더하여 모델이 학습해야 할 것을 줄이고, 기존의 입력을 보존하여 안정성을 높입니다. 이러면 트워크의 깊이가 깊어지더라도 학습이 가능해집니다.
근데, 여기서 'Residual Block(잔차 블록)'은 무엇일까요?

Residual Learning (잔차 학습)

ResNet의 핵심 아이디어는 "잔차 학습(Residual Learning)” 입니다.

잔차 블록은 입력 데이터를 직접적으로 다음 층에 전달하는 스킵 연결(skip connection) 또는 단축 경로(shortcut connection)를 포함합니다.

일반적인 경로로 진행을 하는 방법도 있지만 Layer를 건너 뛰어넘는(우회하는)연결을 추가하여 ReLU(Activation Function)으로 이동합니다.
그러면 Backpropagation(역전파)시 Graident(기울기)가 소실되지 않고 그대로 전달됩니다.

각 잔차 블록은 입력을 출력에 직접 더하는 skip connection을 포함합니다. 이는 네트워크가 학습해야 하는 것이 입력과 출력의 차이, 즉 "잔차"임을 의미합니다. 이러한 접근 방식은 네트워크가 더 깊어져도 안정적으로 학습할 수 있게 돕습니다.

이러한 skip connection은 입력 데이터를 네트워크의 더 깊은 층으로 직접 전달함으로써, 깊은 네트워크에서도 Gradient가 효과적으로 전파될 수 있도록 돕는 역할을 합니다.
또한 Residual Learning(잔차 학습)에서 사용되는 Residual Block(레지듀얼 블록)은 신경망의 각 레이어가 입력을 그대로 출력으로 전달하는 "정체성 맵핑(identity mapping)"을 통해 학습할 수 있도록 합니다.
그러면 매우 깊은 네트워크에서도 Gradient Loss 문제를 해결합니다.
Residual Block은 입력 데이터를 그대로 유지하면서 입력과 출력의 차이를 학습합니다.
이 차이를 잔여 함수(residual function)라고 합니다.

또한 그리고, Residual(잔차) Layer에서 주기적으로 filter 개수를 2배로 늘리고 Stride를 2로 지정하여 downsampling을 했습니다.
그리고 마지막 Classifier(분류기) 에서 끝 부분에 Fully-Connected Layer(FC) 계층을 제거하였습니다.
- 단, 클래스 출력을 위한 Fully-Connected Layer(FC) 1000개만 존재합니다.
- 그리고 Global Average Pooling을 사용했습니다.

저작자표시 비영리 변경금지

'🖥️ Deep Learning' 카테고리의 다른 글

[DL] Deep Learning Model Optimization (딥러닝 모델 최적화) (0)	2024.08.31
[DL] Transfer Learning - 전이 학습 (0)	2024.05.19
[DL] Convolution & Pooling Layer 구현해보기 (0)	2024.05.13
[DL] Convolution Neural Network - CNN (합성곱 신경망), Convolution Layer, Pooling Layer (0)	2024.05.12
[DL] 올바른 학습을 위해 - Overfitting, Dropout, Hyperparameter (0)	2024.05.07

Notice

LeNet 5

AlexNet

ZFNet

VGGNet

3 Convolution Filter의 Receptive Field (1D)

GoogLeNet

Inception Module

Bottleneck Layer

전체 GoogLeNet Architecture

Auxiliary Classifiers

ResNet

Residual Learning (잔차 학습)

'🖥️ Deep Learning' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

LeNet 5

AlexNet

ZFNet

VGGNet

3 Convolution Filter의 Receptive Field (1D)

GoogLeNet

Inception Module

Bottleneck Layer

전체 GoogLeNet Architecture

Auxiliary Classifiers

ResNet

Residual Learning (잔차 학습)

'🖥️ Deep Learning' 카테고리의 다른 글

티스토리툴바