ما هو الترميز
تقسيم النص إلى رموز لمعالجة النموذج
الترميز (Tokenization) هو عملية تقسيم النص إلى وحدات فردية (رموز) للمعالجة اللاحقة بواسطة نموذج لغوي أو نظام معالجة اللغة الطبيعية.
أنواع الترميز
- القائم على الكلمات — التقسيم بالمسافات وعلامات الترقيم
- الكلمات الفرعية (BPE) — التقسيم إلى سلاسل فرعية متكررة
- مستوى الحرف — كل حرف كرمز منفصل
- SentencePiece — ترميز مستقل عن اللغة
لماذا الترميز مهم
- يحدد مفردات النموذج
- يؤثر على معالجة الكلمات النادرة
- يحدد تكاليف طلبات API (لكل رمز)
- يؤثر على سرعة المعالجة
أمثلة على الرموز
- "مرحبا العالم" → ["مرحبا", " العالم"]
- "التعلم الآلي" → ["التعلم", " الآلي"]
- "الذكاء الاصطناعي" → ["الذكاء", " الاصطناعي"]
أدوات الترميز الشائعة
- tiktoken (OpenAI) — لنماذج GPT
- SentencePiece — Google، مستقل عن اللغة
- Byte-Level BPE — يعمل مع البايتات
- WordPiece — BERT ومشتقاتها