क्या है टोकनाइजेशन
मॉडल प्रोसेसिंग के लिए टेक्स्ट को टोकन में विभाजित करना
टोकनाइजेशन भाषा मॉडल या NLP सिस्टम द्वारा बाद की प्रोसेसिंग के लिए टेक्स्ट को अलग-अलग इकाइयों (टोकन) में तोड़ने की प्रक्रिया है।
टोकनाइजेशन के प्रकार
- शब्द-आधारित — स्पेस और विराम चिह्नों से विभाजन
- सबवर्ड (BPE) — बार-बार आने वाले सबस्ट्रिंग में विभाजन
- कैरेक्टर-लेवल — प्रत्येक कैरेक्टर एक अलग टोकन के रूप में
- SentencePiece — भाषा-स्वतंत्र टोकनाइजेशन
टोकनाइजेशन क्यों महत्वपूर्ण है
- मॉडल की शब्दावली को परिभाषित करता है
- दुर्लभ शब्दों की हैंडलिंग को प्रभावित करता है
- API अनुरोध लागत निर्धारित करता है (प्रति टोकन)
- प्रोसेसिंग गति को प्रभावित करता है
टोकन उदाहरण
- "नमस्ते दुनिया" → ["नमस्ते", " दुनिया"]
- "मशीन लर्निंग" → ["मशीन", " लर्निंग"]
- "कृत्रिम बुद्धिमत्ता" → ["कृत्रिम", " बुद्धिमत्ता"]
लोकप्रिय टोकनाइज़र
- tiktoken (OpenAI) — GPT मॉडल के लिए
- SentencePiece — Google, भाषा-स्वतंत्र
- Byte-Level BPE — बाइट्स के साथ काम करता है
- WordPiece — BERT और डेरिवेटिव्स