정적 양자화 (static quantization)

🖥️ Deep Learning

[DL] Quantization(양자화), LoRA & QLoRA

이번에는 Quantization(양자화), LoRA & QLoRA에 데하여 한번 알아보겠습니다.Quantization(양자화)? Quantization(양자화)는 딥러닝 모델의 메모리 사용량과 계산 효율성을 향상시키기 위한 기술로, 고정 소수점(fixed-point) 숫자 표현을 사용하여 모델의 가중치와 활성화 값을 표현하는 방식입니다. 이는 훈련된 모델의 정확성을 최대한 유지하면서도 성능을 개선하는 것을 목표로 합니다.Quantization(양자화)의 필요성딥러닝에서 Quantization(양자화)가 필요한 이유에 데하여 한번 알아보겠습니다.메모리 절감: 모델 파라미터의 크기를 줄여 메모리 사용량을 절감합니다.연산 속도 향상: 고정 소수점 연산은 부동 소수점 연산보다 빠르기 때문에 추론 속도가 빨라집니..

Bigbread1129
'정적 양자화 (static quantization)' 태그의 글 목록