Кванттау дегеніміз не
Жылдамдық үшін есептеу дәлдігін азайту
Кванттау — бұл модель салмақтары мен активациялары жоғары дәлдіктегі форматтардан (FP32) төмен дәлдікке (INT8, INT4) түрлендірілетін, модель өлшемін кішірейтетін және инференсті жылдамдататын нейрондық желіні оңтайландыру техникасы.
Кванттау түрлері
- Post-Training Quantization (PTQ) — модельді оқытқаннан кейін
- Quantization-Aware Training (QAT) — оқыту кезінде
- Динамикалық кванттау — инференс кезінде
- Статикалық кванттау — деректерді калибрлеу арқылы
Дәлдік форматтары
- FP32 — 32-биттік жылжымалы нүкте (түпнұсқа)
- FP16 — 16-бит (жартылай дәлдік)
- INT8 — 8-биттік бүтін сан (4x қысу)
- INT4 — 4-биттік бүтін сан (8x қысу)
Артықшылықтары
- Модель өлшемін 2-8 есе азайту
- Инференсті 2-4 есе жылдамдату
- Аз қуат тұтыну
- Edge құрылғыларында іске қосу мүмкіндігі
Құралдар
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch кванттау
- TensorFlow Lite