Nima Tokenizatsiya
Model qayta ishlashi uchun matnni tokenlarga bo'lish
Tokenizatsiya — bu til modeli yoki NLP tizimi tomonidan keyingi qayta ishlash uchun matnni alohida birliklarga (tokenlarga) ajratish jarayoni.
Tokenizatsiya turlari
- So'zga asoslangan — bo'shliqlar va tinish belgilari bo'yicha ajratish
- Pastki so'z (BPE) — tez-tez uchraydigan pastki qatorlarga ajratish
- Belgi darajasi — har bir belgi alohida token sifatida
- SentencePiece — tildan mustaqil tokenizatsiya
Tokenizatsiya nima uchun muhim
- Model lug'atini belgilaydi
- Kamdan-kam so'zlarni qayta ishlashga ta'sir qiladi
- API so'rov xarajatlarini belgilaydi (har bir token uchun)
- Qayta ishlash tezligiga ta'sir qiladi
Token misollari
- "salom dunyo" → ["salom", " dunyo"]
- "mashinali o'rganish" → ["mashinali", " o'rganish"]
- "sun'iy intellekt" → ["sun'iy", " intellekt"]
Mashhur tokenizatorlar
- tiktoken (OpenAI) — GPT modellari uchun
- SentencePiece — Google, tildan mustaqil
- Byte-Level BPE — baytlar bilan ishlaydi
- WordPiece — BERT va hosilalar