์ด๋ฒ์๋ Quantization(์์ํ), LoRA & QLoRA์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค.Quantization(์์ํ)? Quantization(์์ํ)๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ๊ธฐ์ ๋ก, ๊ณ ์ ์์์ (fixed-point) ์ซ์ ํํ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ค์น์ ํ์ฑํ ๊ฐ์ ํํํ๋ ๋ฐฉ์์ ๋๋ค. ์ด๋ ํ๋ จ๋ ๋ชจ๋ธ์ ์ ํ์ฑ์ ์ต๋ํ ์ ์งํ๋ฉด์๋ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.Quantization(์์ํ)์ ํ์์ฑ๋ฅ๋ฌ๋์์ Quantization(์์ํ)๊ฐ ํ์ํ ์ด์ ์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค.๋ฉ๋ชจ๋ฆฌ ์ ๊ฐ: ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ํฌ๊ธฐ๋ฅผ ์ค์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ ๊ฐํฉ๋๋ค.์ฐ์ฐ ์๋ ํฅ์: ๊ณ ์ ์์์ ์ฐ์ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ๋ณด๋ค ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ์ถ๋ก ์๋๊ฐ ๋นจ๋ผ์ง๋..
Read more์ด๋ฒ์๋ Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)์ ๊ดํ ๋ด์ฉ์ ๋ฐํ์ฌ ํ๋ฒ ์ค๋ช ํด ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.What is Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)? ๋ชจ๋ธ ์ฆ๋ฅ๋ ๋ฅ๋ฌ๋์์ ํฐ ๋ชจ๋ธ์ ์ง์์ ์์ ๋ชจ๋ธ๋ก ์ ๋ฌํ์ฌ, ์์ ๋ชจ๋ธ์ด ํฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ต๋ํ ๋ชจ๋ฐฉํ๋๋ก ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.์ด ๋ฐฉ๋ฒ์ ํฐ ๋ชจ๋ธ(๊ต์ฌ ๋ชจ๋ธ, Teacher Model)์ด ๋ณต์กํ ํจํด๊ณผ ์ง์์ ์ด๋ฏธ ํ์ตํ ์ํ์์, ๊ทธ ์ง์์ ์์ ๋ชจ๋ธ(ํ์ ๋ชจ๋ธ, Student Model)์ ์ ๋ฌํ์ฌ ๋ ํจ์จ์ ์ธ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)์ ํ์์ฑ๊ทธ๋ฌ๋ฉด Model Distillation (๋ชจ๋ธ ์ฆ๋ฅ)๊ฐ ํ์ํ ์ด์ ๋ ๋ฌด์์ผ๊น์?์์ ํจ์จ์ฑ: ๋ํ ๋ชจ๋ธ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง..
Read more์ด๋ฒ์๋ Fine-Tuning (ํ์ธํ๋)์ ๋ฐํ์ฌ ํ๋ฒ ์์๋ณด๊ฒ ์ต๋๋ค. ํ์ธํ๋(Finetuning)์ ๋ฅ๋ฌ๋๊ณผ LLM ๋ชจ๋์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ์ด๋ฏธ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ์์ ์ ๋ง๊ฒ ์ถ๊ฐ ํ์ต์ํค๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค. ํ์ธํ๋์ ๊ธฐ๋ณธ์ ์ผ๋ก ๋์ผํ ์๋ฆฌ๋ฅผ ๊ณต์ ํฉ๋๋ค. Fine-Tuning? Fine-Tuning(ํ์ธํ๋)์ ์ฌ์ ํ์ต(Pre-training)๋ ๋ชจ๋ธ์ ํน์ ํ ์์ ์ ๋ง๊ฒ ์ถ๊ฐ๋ก ํ์ตํ๋ ๊ณผ์ ์ ๋๋ค.์ฌ์ ํ์ต ๋จ๊ณ์์๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ํจํด์ ํ์ตํ๊ณ , ํ์ธํ๋ ๋จ๊ณ์์๋ ์ด ๋ชจ๋ธ์ ํน์ ํ ๋ชฉ์ ์ ๋ง์ถฐ ์ต์ ํํฉ๋๋ค.์ด๋ฏธ ์ฌ์ ํ์ต์ ํตํด ํ์ต๋ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ง์์ ํ์ฉํ์ฌ, ์๋ก์ด ์์ ์ด๋ ๋ฐ์ดํฐ์ ์ ๋น ๋ฅด๊ฒ ์ ์ํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.Pre-Training vs Fine..
Read moreDeep Learning Model Optimization (๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ต์ ํ) ๊ธฐ๋ฒ์ ๋ฐํ์ฌ ์ค๋ช ํด ๋ณด๊ฒ ์ต๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด์๋ ๋ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํด์ผ ํฉ๋๋ค. ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ ์ ํ ์ค์ ์ด ํ์ํฉ๋๋ค. ์๋๋ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ทธ ์ค์ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ์ ๋ฆฌ์ ๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ ๋ฆฌ1. ํ์ต๋ฅ (Learning Rate)์ ์: ํ์ต๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์์ ๊ฐ์ค์น๊ฐ ์ ๋ฐ์ดํธ๋๋ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค.์ํฅ:๋์ ํ์ต๋ฅ : ํ์ต ์๋๊ฐ ๋นจ๋ผ์ง ์ ์์ง๋ง, ์์ค ํจ์๊ฐ ์ต์๊ฐ์ ๋๋ฌํ์ง ๋ชปํ๊ณ ๋ฐ์ฐํ ์ํ์ด ์์ต๋๋ค.๋ฎ์ ํ์ต๋ฅ : ํ์ต ์๋๋ ๋๋ ค์ง์ง๋ง, ์์ค ํจ์๊ฐ ๋ ์์ ์ ์ผ๋ก ..
Read moreTransfer Learning, ์ฆ ์ ์ด ํ์ต์ ML(๋จธ์ ๋ฌ๋)๊ณผ DL(๋ฅ๋ฌ๋)์์ ๊ธฐ์กด์ Pre-Training ๋ ๋ชจ๋ธ์ ์๋ก์ด ์์ ์ ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํนํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ๋ชจ๋ธ์ ์์ ๋ฐ์ดํฐ์ ์ ์ ์ฉํ ๋ ์ ์ฉํฉ๋๋ค.์ ์ด ํ์ต์ ๋ชจ๋ธ์ด ์ฌ์ ํ์ตํ ์ง์์ ์๋ก์ด ๋ฌธ์ ์ ์ ์ฉํ์ฌ ํ์ต ์๋๋ฅผ ๋์ด๊ณ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.Transfer Learning (์ ์ด ํ์ต)๊ธฐ์กด์ Neural Network(์ ๊ฒฝ๋ง)์์ ์ต์์ ๋ถ๋ถ์ ์๋ก ์ ์ํ ๋ค์, ์ด ๋ถ๋ถ์ Training ์ํค๋ ๊ฒ์ด Transfer Learning (์ ์ด ํ์ต) ์ด๋ผ๊ณ ํฉ๋๋ค.์ด๋ Neural Network(์ ๊ฒฝ๋ง)์ ํ์ ๋ถ๋ถ์ ์ด๋ฏธ Training๋ Neural Network(์ ๊ฒฝ๋ง)์ ์ฌ์ฉํ..
Read more์ด๋ฒ๊ธ์์๋ ๋ค์ํ CNN ๋คํธ์ํฌ์ ๋ฐํ์ฌ ์์๋ณด๊ฒ ์ต๋๋ค. LeNet 5LeNet-5๋ ๊ธฐ๋ณธ์ ์ธ CNN ์ํคํ ์ฒ๋ฅผ ์ ์ํ๋ฉฐ, ํ์ฌ์ ๋ฅ๋ฌ๋์ ๊ธฐ์ด๊ฐ ๋์์ต๋๋ค.์ฃผ๋ก ์๊ธ์จ ์ซ์ ์ธ์(MNIST ๋ฐ์ดํฐ์ ) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ๋ฐ๋์์ผ๋ฉฐ, ๋ํ ํ๋ CNN์ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ ๋ชจ๋ธ๋ก ์ฌ๊ฒจ์ง๋๋ค.LeNet-5๋ ์ด 7๊ฐ์ ๋ ์ด์ด(์ ๋ ฅ๊ณผ ์ถ๋ ฅ ํฌํจ)๋ก ๊ตฌ์ฑ๋ ๋คํธ์ํฌ์ ๋๋ค.LeNet-5์ ๊ตฌ์กฐ๋ ํฌ๊ฒ ๋ ๋ถ๋ถ์ผ๋ก ๋๋ ์ ์์ต๋๋ค.Convolutional Neural Network (CNN)Fully Connected Network (FCN)๊ฐ ๋ ์ด์ด๋ ํน์ ํ ์ญํ ์ ์ํํ๋ฉฐ, Convolutional Neural Network(CNN - ํฉ์ฑ๊ณฑ ๋ ์ด์ด)์ ์๋ธ์ํ๋ง ๋ ์ด์ด(Pooling Layer)๋ฅผ ๊ต๋๋ก..
Read more์ด๋ฒ์๋ Convolution Layer, Pooling Layer๋ฅผ ํ๋ฒ ๊ตฌํํด ๋ณด๊ฒ ์ต๋๋ค. Convolution & Pooling Layer ๊ตฌํํด๋ณด๊ธฐ4-Dimension Array (4์ฐจ์ ๋ฐฐ์ด)Convolution Neural Network(CNN)์์ Layer ์ฌ์ด๋ฅผ ํ๋ฅด๋ ๋ฐ์ดํฐ๋ 4์ฐจ์์ ๋๋ค.์๋ฅผ ๋ค์ด์ ๋ฐ์ดํฐ์ ํ์์ด (10, 1, 28, 28)์ด๋ฉด?Height(๋์ด): 28, Width(๋๋น): 28, Channel(์ฑ๋): 1๊ฐ์ธ ๋ฐ์ดํฐ๊ฐ 10๊ฐ๋ผ๋ ์ด์ผ๊ธฐ ์ ๋๋ค.์ด๋ฅผ Python์ผ๋ก ๊ตฌํํ๋ฉด ์๋์ ์ฝ๋์ ๊ฐ์ต๋๋ค.x = np.random.rand(10, 1, 28, 28) # ๋ฌด์์๋ก ๋ฐ์ดํฐ ์์ฑx[0, 0] # ๋๋ x[0][0] ์ฒซ๋ฒ์งธ ๋ฐ์ดํฐ์ ์ฒซ ์ฑ๋ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ๊ทผ์ฌ๊ธฐ์..
Read moreConvolutional Neural Network, CNN์ ์ด๋ฏธ์ง ์ธ์ & ์์ ์ธ์๋ฑ ๋ค์ํ ๊ณณ์์ ์ฌ์ฉ๋ฉ๋๋ค.ํนํ ์ด๋ฏธ์ง ์ธ์ ๋ถ์ผ ์์ ๋ฅ๋ฌ๋์ ํ์ฉํ ๊ธฐ๋ฒ์ ๊ฑฐ์ด ๋ค CNN์ ๊ธฐ์ด๋ก ํฉ๋๋ค.CNN ์ ์ฒด ๊ตฌ์กฐConvolution Layer(ํฉ์ฑ๊ณฑ ๊ณ์ธต)๊ณผ Pooling Layer(ํ๋ง ๊ณ์ธต)์ด ์ด๋ฒ์ ์๋ก ๋ฑ์ฅํฉ๋๋ค.์ฐ๋ฆฌ๊ฐ ๋ณธ ์ง๊ธ๊น์ง์ Neural Network(์ ๊ฒฝ๋ง)์ ๋ชจ๋ Neuron๊ณผ ์ฐ๊ฒฐ๋์ด ์์์ต๋๋ค.์ด๋ฅผ Fully-Connected (FC) - ์์ ์ฐ๊ฒฐ ์ด๋ผ๊ณ ํ๋ฉฐ, ์์ ํ ์ฐ๊ฒฐ๋ Layer๋ 'Affine ๊ณ์ธต' ์ด๋ผ๋ ์ด๋ฆ์ผ๋ก ๊ตฌํํ์ต๋๋ค.๋ง์ฝ Affine ๊ณ์ธต์ ์ฌ์ฉํ๋ฉด, Layer๊ฐ 5๊ฐ์ธ Fully-Connected Neural Network(FC ์ ๊ฒฝ๋ง)์ ์๋์ ๊ตฌ๋ฆผ๊ณผ..
Read more์ฌ๋ฐ๋ฅธ ํ์ต์ ์ํด Machine Learning์์ Overfitting์ด ๋๋ ์ผ์ด ๋ง์ต๋๋ค. Overiftting(์ค๋ฒํผํ )์ ์ ๊ฒฝ๋ง์ด Training data(ํ๋ จ ๋ฐ์ดํฐ)์๋ง ์ง๋์น๊ฒ ์ ์ฉ๋์ด์ ๊ทธ ์ธ์ ๋ฐ์ดํฐ์๋ ์ ๋๋ก ๋์ํ์ง ๋ชปํ๋ ์ํ์ ๋๋ค.Overfitting (์ค๋ฒํผํ )์ค๋ฒํผํ ์ ๋งค๊ฐ๋ณ์๊ฐ ๋ง๊ณ ํํ๋ ฅ์ด ๋์ ๋ชจ๋ธ์ธ ๊ฒฝ์ฐ, ํ๋ จ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ์ ์ฃผ๋ก ์ผ์ด๋ฉ๋๋ค.์ด ๋ ์๊ฑด์ ์ถฉ์กฑํ์ฌ Overiftting(์ค๋ฒํผํ )์ ์ผ์ผ์ผ ๋ณด๊ฒ ์ต๋๋ค.MNIST Dataset์ ํ๋ จ๋ฐ์ดํฐ์ค 300๊ฐ๋ง ์ฌ์ฉํ๊ณ , 7-Layer Network๋ฅผ ์ฌ์ฉํด์ Network์ ๋ณต์ก์ฑ์ ๋ํ๋ณด๊ฒ ์ต๋๋ค.๊ฐ Layer์ Neuron์ 100๊ฐ, Activation Function(ํ์ฑํ ํจ์)๋ ReLU ํจ์๋ฅผ ์ฌ..
Read moreBatch Normalization - ๋ฐฐ์น ์ ๊ทํBatch Normalization (๋ฐฐ์น ์ ๊ทํ)์ ๊ฐ๋ ์ 2015๋ ์ ์ ์๋ ๋ฐฉ๋ฒ์ ๋๋ค.์ผ๋จ, Batch Normalization(๋ฐฐ์น ์ ๊ทํ)๊ฐ ์ฃผ๋ชฉ๋ฐ๋ ์ด์ ๋ ๋ค์์ ์ด์ ๋ค๊ณผ ๊ฐ์ต๋๋ค.Training(ํ์ต)์ ๋นจ๋ฆฌ ํ ์ ์์ต๋๋ค. ์ฆ, Training(ํ์ต) ์๋๋ฅผ ๊ฐ์ ํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.์ด๊น๊ฐ์ ํฌ๊ฒ ์์กดํ์ง ์๋๋ค๋ ํน์ง์ด ์์ต๋๋ค.๊ทธ๋ฆฌ๊ณ Overiftting์ ์ต์ ํ๋ ํน์ง์ด ์์ต๋๋ค. ์ฆ, Dropout๋ฑ์ ํ์์ฑ์ด ๊ฐ์ํฉ๋๋ค.Batch Normalization(๋ฐฐ์น ์ ๊ทํ)์ ๊ธฐ๋ณธ ์์ด๋์ด๋ ์์์ ๋งํ๋ฏ์ด ๊ฐ Layer(์ธต)์์์ Activation Value(ํ์ฑํ ๊ฐ)์ด ์ ๋นํ ๋ถํฌ๊ฐ ๋๋๋ก ์กฐ์ ํ๋ ๊ฒ์ ๋๋ค. ํ๋ฒ ์์๋ฅผ ๋ณด๊ฒ ์ต..
Read more