ما هو التكميم
تقليل دقة الحساب للسرعة
التكميم هو تقنية لتحسين الشبكات العصبية حيث يتم تحويل أوزان النموذج والتنشيطات من تنسيقات عالية الدقة (FP32) إلى منخفضة الدقة (INT8، INT4)، مما يقلل حجم النموذج ويسرع الاستدلال.
أنواع التكميم
- تكميم ما بعد التدريب (PTQ) — بعد تدريب النموذج
- التدريب المدرك للتكميم (QAT) — أثناء التدريب
- التكميم الديناميكي — أثناء الاستدلال
- التكميم الثابت — مع معايرة البيانات
تنسيقات الدقة
- FP32 — نقطة عائمة 32 بت (أصلي)
- FP16 — 16 بت (نصف الدقة)
- INT8 — عدد صحيح 8 بت (ضغط 4x)
- INT4 — عدد صحيح 4 بت (ضغط 8x)
الفوائد
- تقليل حجم النموذج بمقدار 2-8 أضعاف
- تسريع الاستدلال بمقدار 2-4 أضعاف
- تقليل استهلاك الطاقة
- القدرة على التشغيل على أجهزة الحافة
الأدوات
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch quantization
- TensorFlow Lite