양자화 이란
속도 향상을 위한 계산 정밀도 감소
양자화는 모델 가중치와 활성화를 고정밀 형식(FP32)에서 저정밀(INT8, INT4)로 변환하여 모델 크기를 줄이고 추론 속도를 높이는 신경망 최적화 기술입니다.
양자화 유형
- Post-Training Quantization (PTQ) — 모델 훈련 후
- Quantization-Aware Training (QAT) — 훈련 중
- 동적 양자화 — 추론 중
- 정적 양자화 — 데이터 교정 포함
정밀도 형식
- FP32 — 32비트 부동소수점 (원본)
- FP16 — 16비트 (반정밀도)
- INT8 — 8비트 정수 (4배 압축)
- INT4 — 4비트 정수 (8배 압축)
장점
- 모델 크기 2-8배 감소
- 추론 속도 2-4배 향상
- 전력 소비 감소
- 엣지 디바이스에서 실행 가능
도구
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch 양자화
- TensorFlow Lite