Токенизация дегеніміз не
Модель өңдеуі үшін мәтінді токендерге бөлу
Токенизация — бұл тіл моделі немесе NLP жүйесі арқылы кейінгі өңдеу үшін мәтінді жеке бірліктерге (токендерге) бөлу процесі.
Токенизация түрлері
- Сөзге негізделген — бос орындар мен тыныс белгілері бойынша бөлу
- Қосымша сөз (BPE) — жиі кездесетін ішкі жолдарға бөлу
- Таңба деңгейі — әрбір таңба жеке токен ретінде
- SentencePiece — тілге тәуелсіз токенизация
Токенизация неге маңызды
- Модельдің сөздігін анықтайды
- Сирек кездесетін сөздерді өңдеуге әсер етеді
- API сұрау шығындарын анықтайды (әр токен үшін)
- Өңдеу жылдамдығына әсер етеді
Токен мысалдары
- "сәлем әлем" → ["сәлем", " әлем"]
- "машиналық оқыту" → ["машиналық", " оқыту"]
- "жасанды интеллект" → ["жасанды", " интеллект"]
Танымал токенизаторлар
- tiktoken (OpenAI) — GPT модельдері үшін
- SentencePiece — Google, тілге тәуелсіз
- Byte-Level BPE — байттармен жұмыс істейді
- WordPiece — BERT және туындылар