๐ฅ๏ธ Deep Learning
์ด๋ฒ์๋ Quantization(์์ํ), LoRA & QLoRA์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค.Quantization(์์ํ)? Quantization(์์ํ)๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ๊ธฐ์ ๋ก, ๊ณ ์ ์์์ (fixed-point) ์ซ์ ํํ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ค์น์ ํ์ฑํ ๊ฐ์ ํํํ๋ ๋ฐฉ์์
๋๋ค. ์ด๋ ํ๋ จ๋ ๋ชจ๋ธ์ ์ ํ์ฑ์ ์ต๋ํ ์ ์งํ๋ฉด์๋ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.Quantization(์์ํ)์ ํ์์ฑ๋ฅ๋ฌ๋์์ Quantization(์์ํ)๊ฐ ํ์ํ ์ด์ ์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค.๋ฉ๋ชจ๋ฆฌ ์ ๊ฐ: ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ํฌ๊ธฐ๋ฅผ ์ค์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ ๊ฐํฉ๋๋ค.์ฐ์ฐ ์๋ ํฅ์: ๊ณ ์ ์์์ ์ฐ์ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ๋ณด๋ค ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ์ถ๋ก ์๋๊ฐ ๋นจ๋ผ์ง๋..
๐ฅ๏ธ Deep Learning
์ด๋ฒ์๋ Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)์ ๊ดํ ๋ด์ฉ์ ๋ฐํ์ฌ ํ๋ฒ ์ค๋ช
ํด ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.What is Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)? ๋ชจ๋ธ ์ฆ๋ฅ๋ ๋ฅ๋ฌ๋์์ ํฐ ๋ชจ๋ธ์ ์ง์์ ์์ ๋ชจ๋ธ๋ก ์ ๋ฌํ์ฌ, ์์ ๋ชจ๋ธ์ด ํฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ต๋ํ ๋ชจ๋ฐฉํ๋๋ก ํ๋ ๊ธฐ๋ฒ์
๋๋ค.์ด ๋ฐฉ๋ฒ์ ํฐ ๋ชจ๋ธ(๊ต์ฌ ๋ชจ๋ธ, Teacher Model)์ด ๋ณต์กํ ํจํด๊ณผ ์ง์์ ์ด๋ฏธ ํ์ตํ ์ํ์์, ๊ทธ ์ง์์ ์์ ๋ชจ๋ธ(ํ์ ๋ชจ๋ธ, Student Model)์ ์ ๋ฌํ์ฌ ๋ ํจ์จ์ ์ธ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)์ ํ์์ฑ๊ทธ๋ฌ๋ฉด Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)๊ฐ ํ์ํ ์ด์ ๋ ๋ฌด์์ผ๊น์?์์ ํจ์จ์ฑ: ๋ํ ๋ชจ๋ธ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง..
๐ฅ๏ธ Deep Learning
์ด๋ฒ์๋ Fine-Tuning (ํ์ธํ๋)์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค. ํ์ธํ๋(Finetuning)์ ๋ฅ๋ฌ๋๊ณผ LLM ๋ชจ๋์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ์ด๋ฏธ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ์์
์ ๋ง๊ฒ ์ถ๊ฐ ํ์ต์ํค๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค. ํ์ธํ๋์ ๊ธฐ๋ณธ์ ์ผ๋ก ๋์ผํ ์๋ฆฌ๋ฅผ ๊ณต์ ํฉ๋๋ค. Fine-Tuning? Fine-Tuning(ํ์ธํ๋)์ ์ฌ์ ํ์ต(Pre-training)๋ ๋ชจ๋ธ์ ํน์ ํ ์์
์ ๋ง๊ฒ ์ถ๊ฐ๋ก ํ์ตํ๋ ๊ณผ์ ์
๋๋ค.์ฌ์ ํ์ต ๋จ๊ณ์์๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ํจํด์ ํ์ตํ๊ณ , ํ์ธํ๋ ๋จ๊ณ์์๋ ์ด ๋ชจ๋ธ์ ํน์ ํ ๋ชฉ์ ์ ๋ง์ถฐ ์ต์ ํํฉ๋๋ค.์ด๋ฏธ ์ฌ์ ํ์ต์ ํตํด ํ์ต๋ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ง์์ ํ์ฉํ์ฌ, ์๋ก์ด ์์
์ด๋ ๋ฐ์ดํฐ์
์ ๋น ๋ฅด๊ฒ ์ ์ํ๋ ๊ฒ์ด ๋ชฉํ์
๋๋ค.Pre-Training vs Fine..
๐ฅ๏ธ Deep Learning
Deep Learning Model Optimization (๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ต์ ํ) ๊ธฐ๋ฒ์ ๋ฐํ์ฌ ์ค๋ช
ํด ๋ณด๊ฒ ์ต๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด์๋ ๋ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํด์ผ ํฉ๋๋ค. ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ ์ ํ ์ค์ ์ด ํ์ํฉ๋๋ค. ์๋๋ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ทธ ์ค์ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ์ ๋ฆฌ์
๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ ๋ฆฌ1. ํ์ต๋ฅ (Learning Rate)์ ์: ํ์ต๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์์ ๊ฐ์ค์น๊ฐ ์
๋ฐ์ดํธ๋๋ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์
๋๋ค.์ํฅ:๋์ ํ์ต๋ฅ : ํ์ต ์๋๊ฐ ๋นจ๋ผ์ง ์ ์์ง๋ง, ์์ค ํจ์๊ฐ ์ต์๊ฐ์ ๋๋ฌํ์ง ๋ชปํ๊ณ ๋ฐ์ฐํ ์ํ์ด ์์ต๋๋ค.๋ฎ์ ํ์ต๋ฅ : ํ์ต ์๋๋ ๋๋ ค์ง์ง๋ง, ์์ค ํจ์๊ฐ ๋ ์์ ์ ์ผ๋ก ..
๐ฅ๏ธ Deep Learning
Transfer Learning, ์ฆ ์ ์ด ํ์ต์ ML(๋จธ์ ๋ฌ๋)๊ณผ DL(๋ฅ๋ฌ๋)์์ ๊ธฐ์กด์ Pre-Training ๋ ๋ชจ๋ธ์ ์๋ก์ด ์์
์ ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์
๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํนํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์์ ํ์ต๋ ๋ชจ๋ธ์ ์์ ๋ฐ์ดํฐ์
์ ์ ์ฉํ ๋ ์ ์ฉํฉ๋๋ค.์ ์ด ํ์ต์ ๋ชจ๋ธ์ด ์ฌ์ ํ์ตํ ์ง์์ ์๋ก์ด ๋ฌธ์ ์ ์ ์ฉํ์ฌ ํ์ต ์๋๋ฅผ ๋์ด๊ณ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.Transfer Learning (์ ์ด ํ์ต)๊ธฐ์กด์ Neural Network(์ ๊ฒฝ๋ง)์์ ์ต์์ ๋ถ๋ถ์ ์๋ก ์ ์ํ ๋ค์, ์ด ๋ถ๋ถ์ Training ์ํค๋ ๊ฒ์ด Transfer Learning (์ ์ด ํ์ต) ์ด๋ผ๊ณ ํฉ๋๋ค.์ด๋ Neural Network(์ ๊ฒฝ๋ง)์ ํ์ ๋ถ๋ถ์ ์ด๋ฏธ Training๋ Neural Network(์ ๊ฒฝ๋ง)์ ์ฌ์ฉํ..
๐ฅ๏ธ Deep Learning
์ด๋ฒ๊ธ์์๋ ๋ค์ํ CNN ๋คํธ์ํฌ์ ๋ฐํ์ฌ ์์๋ณด๊ฒ ์ต๋๋ค. LeNet 5LeNet-5๋ ๊ธฐ๋ณธ์ ์ธ CNN ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ฉฐ, ํ์ฌ์ ๋ฅ๋ฌ๋์ ๊ธฐ์ด๊ฐ ๋์์ต๋๋ค.์ฃผ๋ก ์๊ธ์จ ์ซ์ ์ธ์(MNIST ๋ฐ์ดํฐ์
) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ๋ฐ๋์์ผ๋ฉฐ, ๋ํ ํ๋ CNN์ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ ๋ชจ๋ธ๋ก ์ฌ๊ฒจ์ง๋๋ค.LeNet-5๋ ์ด 7๊ฐ์ ๋ ์ด์ด(์
๋ ฅ๊ณผ ์ถ๋ ฅ ํฌํจ)๋ก ๊ตฌ์ฑ๋ ๋คํธ์ํฌ์
๋๋ค.LeNet-5์ ๊ตฌ์กฐ๋ ํฌ๊ฒ ๋ ๋ถ๋ถ์ผ๋ก ๋๋ ์ ์์ต๋๋ค.Convolutional Neural Network (CNN)Fully Connected Network (FCN)๊ฐ ๋ ์ด์ด๋ ํน์ ํ ์ญํ ์ ์ํํ๋ฉฐ, Convolutional Neural Network(CNN - ํฉ์ฑ๊ณฑ ๋ ์ด์ด)์ ์๋ธ์ํ๋ง ๋ ์ด์ด(Pooling Layer)๋ฅผ ๊ต๋๋ก..
๐ฅ๏ธ Deep Learning
์ด๋ฒ์๋ Convolution Layer, Pooling Layer๋ฅผ ํ๋ฒ ๊ตฌํํด ๋ณด๊ฒ ์ต๋๋ค. Convolution & Pooling Layer ๊ตฌํํด๋ณด๊ธฐ4-Dimension Array (4์ฐจ์ ๋ฐฐ์ด)Convolution Neural Network(CNN)์์ Layer ์ฌ์ด๋ฅผ ํ๋ฅด๋ ๋ฐ์ดํฐ๋ 4์ฐจ์์
๋๋ค.์๋ฅผ ๋ค์ด์ ๋ฐ์ดํฐ์ ํ์์ด (10, 1, 28, 28)์ด๋ฉด?Height(๋์ด): 28, Width(๋๋น): 28, Channel(์ฑ๋): 1๊ฐ์ธ ๋ฐ์ดํฐ๊ฐ 10๊ฐ๋ผ๋ ์ด์ผ๊ธฐ ์
๋๋ค.์ด๋ฅผ Python์ผ๋ก ๊ตฌํํ๋ฉด ์๋์ ์ฝ๋์ ๊ฐ์ต๋๋ค.x = np.random.rand(10, 1, 28, 28) # ๋ฌด์์๋ก ๋ฐ์ดํฐ ์์ฑx[0, 0] # ๋๋ x[0][0] ์ฒซ๋ฒ์งธ ๋ฐ์ดํฐ์ ์ฒซ ์ฑ๋ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ๊ทผ์ฌ๊ธฐ์..
๐ฅ๏ธ Deep Learning
Convolutional Neural Network, CNN์ ์ด๋ฏธ์ง ์ธ์ & ์์ ์ธ์๋ฑ ๋ค์ํ ๊ณณ์์ ์ฌ์ฉ๋ฉ๋๋ค.ํนํ ์ด๋ฏธ์ง ์ธ์ ๋ถ์ผ ์์ ๋ฅ๋ฌ๋์ ํ์ฉํ ๊ธฐ๋ฒ์ ๊ฑฐ์ด ๋ค CNN์ ๊ธฐ์ด๋ก ํฉ๋๋ค.CNN ์ ์ฒด ๊ตฌ์กฐConvolution Layer(ํฉ์ฑ๊ณฑ ๊ณ์ธต)๊ณผ Pooling Layer(ํ๋ง ๊ณ์ธต)์ด ์ด๋ฒ์ ์๋ก ๋ฑ์ฅํฉ๋๋ค.์ฐ๋ฆฌ๊ฐ ๋ณธ ์ง๊ธ๊น์ง์ Neural Network(์ ๊ฒฝ๋ง)์ ๋ชจ๋ Neuron๊ณผ ์ฐ๊ฒฐ๋์ด ์์์ต๋๋ค.์ด๋ฅผ Fully-Connected (FC) - ์์ ์ฐ๊ฒฐ ์ด๋ผ๊ณ ํ๋ฉฐ, ์์ ํ ์ฐ๊ฒฐ๋ Layer๋ 'Affine ๊ณ์ธต' ์ด๋ผ๋ ์ด๋ฆ์ผ๋ก ๊ตฌํํ์ต๋๋ค.๋ง์ฝ Affine ๊ณ์ธต์ ์ฌ์ฉํ๋ฉด, Layer๊ฐ 5๊ฐ์ธ Fully-Connected Neural Network(FC ์ ๊ฒฝ๋ง)์ ์๋์ ๊ตฌ๋ฆผ๊ณผ..
๐ฅ๏ธ Deep Learning
์ฌ๋ฐ๋ฅธ ํ์ต์ ์ํด Machine Learning์์ Overfitting์ด ๋๋ ์ผ์ด ๋ง์ต๋๋ค. Overiftting(์ค๋ฒํผํ
)์ ์ ๊ฒฝ๋ง์ด Training data(ํ๋ จ ๋ฐ์ดํฐ)์๋ง ์ง๋์น๊ฒ ์ ์ฉ๋์ด์ ๊ทธ ์ธ์ ๋ฐ์ดํฐ์๋ ์ ๋๋ก ๋์ํ์ง ๋ชปํ๋ ์ํ์
๋๋ค.Overfitting (์ค๋ฒํผํ
)์ค๋ฒํผํ
์ ๋งค๊ฐ๋ณ์๊ฐ ๋ง๊ณ ํํ๋ ฅ์ด ๋์ ๋ชจ๋ธ์ธ ๊ฒฝ์ฐ, ํ๋ จ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ์ ์ฃผ๋ก ์ผ์ด๋ฉ๋๋ค.์ด ๋ ์๊ฑด์ ์ถฉ์กฑํ์ฌ Overiftting(์ค๋ฒํผํ
)์ ์ผ์ผ์ผ ๋ณด๊ฒ ์ต๋๋ค.MNIST Dataset์ ํ๋ จ๋ฐ์ดํฐ์ค 300๊ฐ๋ง ์ฌ์ฉํ๊ณ , 7-Layer Network๋ฅผ ์ฌ์ฉํด์ Network์ ๋ณต์ก์ฑ์ ๋ํ๋ณด๊ฒ ์ต๋๋ค.๊ฐ Layer์ Neuron์ 100๊ฐ, Activation Function(ํ์ฑํ ํจ์)๋ ReLU ํจ์๋ฅผ ์ฌ..
๐ฅ๏ธ Deep Learning
Batch Normalization - ๋ฐฐ์น ์ ๊ทํBatch Normalization (๋ฐฐ์น ์ ๊ทํ)์ ๊ฐ๋
์ 2015๋
์ ์ ์๋ ๋ฐฉ๋ฒ์
๋๋ค.์ผ๋จ, Batch Normalization(๋ฐฐ์น ์ ๊ทํ)๊ฐ ์ฃผ๋ชฉ๋ฐ๋ ์ด์ ๋ ๋ค์์ ์ด์ ๋ค๊ณผ ๊ฐ์ต๋๋ค.Training(ํ์ต)์ ๋นจ๋ฆฌ ํ ์ ์์ต๋๋ค. ์ฆ, Training(ํ์ต) ์๋๋ฅผ ๊ฐ์ ํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.์ด๊น๊ฐ์ ํฌ๊ฒ ์์กดํ์ง ์๋๋ค๋ ํน์ง์ด ์์ต๋๋ค.๊ทธ๋ฆฌ๊ณ Overiftting์ ์ต์ ํ๋ ํน์ง์ด ์์ต๋๋ค. ์ฆ, Dropout๋ฑ์ ํ์์ฑ์ด ๊ฐ์ํฉ๋๋ค.Batch Normalization(๋ฐฐ์น ์ ๊ทํ)์ ๊ธฐ๋ณธ ์์ด๋์ด๋ ์์์ ๋งํ๋ฏ์ด ๊ฐ Layer(์ธต)์์์ Activation Value(ํ์ฑํ ๊ฐ)์ด ์ ๋นํ ๋ถํฌ๊ฐ ๋๋๋ก ์กฐ์ ํ๋ ๊ฒ์
๋๋ค. ํ๋ฒ ์์๋ฅผ ๋ณด๊ฒ ์ต..