量子化 とは
高速化のための計算精度の削減
量子化 は、モデルの重みとアクティベーションを高精度フォーマット(FP32)から低精度(INT8、INT4)に変換し、モデルサイズを削減し推論を高速化するニューラルネットワーク最適化技術です。
量子化の種類
- Post-Training Quantization(PTQ) — モデル訓練後
- Quantization-Aware Training(QAT) — 訓練中
- 動的量子化 — 推論中
- 静的量子化 — データキャリブレーション付き
精度フォーマット
- FP32 — 32ビット浮動小数点(オリジナル)
- FP16 — 16ビット(半精度)
- INT8 — 8ビット整数(4倍圧縮)
- INT4 — 4ビット整数(8倍圧縮)
メリット
- モデルサイズを2〜8倍削減
- 推論速度を2〜4倍高速化
- 消費電力の削減
- エッジデバイスでの実行が可能
ツール
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch量子化
- TensorFlow Lite